داده کاوی فرآیند کشف الگوها و سایر اطلاعات ارزشمند از مجموعه داده های بزرگ است. با توجه به تکامل فناوری انبار داده و رشد کلان داده ها، پذیرش تکنیک های داده کاوی به سرعت در چند دهه اخیر شتاب گرفته است و به شرکت ها در تبدیل داده های خام خود به دانش مفید کمک می کند. با این حال، علیرغم این واقعیت که این فناوری به طور مداوم برای مدیریت دادهها در مقیاس بزرگ تکامل مییابد، رهبران همچنان با چالش هایی در زمینه مقیاس پذیری و اتوماسیون مواجه هستند.
داده کاوی تصمیم گیری سازمانی را از طریق تجزیه و تحلیل داده را بهبود بخشیده است. میتوان تکنیک های داده کاوی که زیربنای این تحلیل ها هستند را به دو هدف اصلی تقسیم کرد. آن ها می توانند مجموعه داده هدف را توصیف یا نتایج را از طریق استفاده الگوریتم های یادگیری ماشین پیش بینی کنند. این روشها برای سازمان دهی و فیلتر کردن دادهها، کشف تقلب، استخراج الگوی رفتاری کاربران، پیدا کردن گلوگاههای فرایندها و حتی نقضهای امنیتی استفاده شوند.
فرآیند داده کاوی
فرآیند داده کاوی شامل چندین مرحله از جمع آوری داده تا تجسم برای استخراج اطلاعات ارزشمند از مجموعه داده های بزرگ است. همانطور که در بالا ذکر شد، تکنیک های داده کاوی برای ایجاد توصیف و پیش بینی در مورد مجموعه داده های هدف استفاده می شود. دانشمندان داده، داده ها را از طریق مشاهدات خود از الگوها، تداعی ها و همبستگی ها توصیف می کنند. آنها همچنین دادهها را از طریق روشهای طبقهبندی و رگرسیون طبقهبندی و خوشهبندی میکنند و موارد پرت را برای موارد استفاده، مانند تشخیص هرزنامه، شناسایی میکنند.
مراحل داده کاوی
داده کاوی معمولاً از چهار مرحله اصلی تشکیل شده است: تعیین اهداف، جمع آوری و آماده سازی داده ها، اعمال الگوریتم های داده کاوی و ارزیابی نتایج.
1. تعیین اهداف تجاری: این می تواند سخت ترین بخش فرآیند داده کاوی باشد و بسیاری از سازمان ها زمان بسیار کمی را برای این مرحله مهم صرف می کنند. دانشمندان داده و ذینفعان کسب و کار باید با هم کار کنند تا مشکل تجاری را تعریف کنند، که به اطلاعات سوالات و پارامترهای داده برای یک پروژه خاص کمک می کند. تحلیلگران همچنین ممکن است نیاز به انجام تحقیقات بیشتری برای درک مناسب زمینه کسب و کار داشته باشند.
2. آماده سازی داده ها: هنگامی که حوزه مسئله مشخص شد، برای دانشمندان داده آسان تر است که تشخیص دهند کدام مجموعه از داده ها به پاسخگویی به سؤالات مربوط به کسب و کار کمک می کند. پس از جمعآوری دادههای مربوطه، دادهها پاک میشوند و هرگونه نویز، مانند موارد تکراری، مقادیر از دست رفته، و مقادیر پرت را حذف میکنند. بسته به مجموعه داده، ممکن است یک گام اضافی برای کاهش تعداد ابعاد برداشته شود، زیرا بسیاری از ویژگی ها می توانند محاسبات بعدی را کاهش دهند. دانشمندان داده به دنبال حفظ مهم ترین پیش بینی ها برای اطمینان از دقت مطلوب در هر مدل هستند.
3. ساخت مدل و الگوکاوی: بسته به نوع تجزیه و تحلیل، دانشمندان داده ممکن است هر گونه روابط داده جالبی مانند الگوهای متوالی، قوانین تداعی یا همبستگی ها را بررسی کنند. در حالی که الگوهای فرکانس بالا کاربردهای گسترده تری دارند، گاهی اوقات انحراف در داده ها می تواند جالب تر باشد و زمینه های تقلب بالقوه را برجسته کند.
4. ارزیابی نتایج و اجرای اطلاعات: پس از تجمیع داده ها، نتایج نیاز به ارزیابی و تفسیر دارند. هنگام نهایی کردن نتایج، آن ها باید معتبر، جدید، مفید و قابل فهم باشند. هنگامی که این معیارها برآورده شوند، سازمان ها می توانند از این دانش برای اجرای استراتژی های جدید و دستیابی به اهداف مورد نظر خود استفاده کنند.