داده کاوی (Data Mining) فرآیند مرتبسازی از طریق مجموعه دادههای بزرگ برای شناسایی الگوها و روابطی است که میتواند به حل مشکلات کسبوکار از طریق تجزیه و تحلیل دادهها کمک کند. تکنیکها و ابزارهای دادهکاوی شرکتها را قادر میسازد تا روندهای آینده را پیشبینی کنند و تصمیمات تجاری آگاهانهتری بگیرند. داده کاوی بخش کلیدی تجزیه و تحلیل داده به طور کلی و یکی از رشتههای اصلی در علوم داده است که از تکنیکهای تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه دادهها استفاده میکند. در یک سطح جزئیتر، داده کاوی گامی در فرآیند کشف دانش در پایگاه داده و یک روش علوم داده برای جمعآوری، پردازش و تجزیه و تحلیل دادههاست. در این مقاله از آویر قصد داریم تا به طور کامل به بررسی داده کاوی و نحوه کار آن بپردازیم. همراه ما باشید.
داده کاوی چیست؟
داده کاوی فرآیند جستجو و تجزیه و تحلیل دسته بزرگی از دادههای خام به منظور شناسایی الگوها و استخراج اطلاعات مفید است.
شرکتها از نرم افزار داده کاوی برای کسب اطلاعات بیشتر در مورد مشتریان خود استفاده میکنند. این کار میتواند به آنها کمک کند تا استراتژی های بازاریابی مؤثرتری را توسعه دهند، فروش را افزایش دهند و هزینههای خود را کاهش دهند. دادهکاوی بر جمعآوری مؤثر دادهها، انبارداری و پردازش کامپیوتری متکی است.
به طور خلاصه:
- داده کاوی فرآیند تجزیه و تحلیل دسته بزرگی از اطلاعات برای تشخیص روندها و الگوها است.
- داده کاوی میتواند توسط شرکتها برای هر چیزی، از یادگیری در مورد آنچه که مشتریان به آن علاقه دارند یا می خواهند بخرند تا کشف تقلب و فیلتر کردن هرزنامه، استفاده شود.
- برنامههای داده کاوی، الگوها و ارتباطات در دادهها را بر اساس اطلاعاتی تجزیه میکنند که کاربران درخواست میکنند یا ارائه می دهند.
- پلتفرمهای رسانههای اجتماعی از تکنیکهای داده کاوی برای خرید کالا از سوی کاربران خود به منظور سود بیشتر استفاده میکنند.
این استفاده از داده کاوی اخیراً مورد انتقاد قرار گرفته است زیرا کاربران معمولاً از داده کاویهایی که با اطلاعات شخصی آنها اتفاق میافتد بیاطلاع هستند، به خصوص زمانی که از آن برای تأثیرگذاری بر ترجیحات استفاده میشود.
نحوه کار داده کاوی چگونه است؟
داده کاوی شامل کاوش و تجزیه و تحلیل بلوکهای بزرگ اطلاعات برای جمعآوری الگوها و روندهای معنادار است. در مدیریت ریسک اعتباری، کشف تقلب و فیلتر کردن هرزنامهها استفاده میشود. داده کاوی همچنین یک ابزار تحقیقات بازار است که به آشکار کردن احساسات یا نظرات یک گروه معین از مردم کمک میکند. فرآیند داده کاوی به چهار مرحله تقسیم میشود:
- داده ها جمعآوری و در انبارهای داده در محل یا در یک سرویس ابری بارگذاری میشوند.
- تحلیلگران کسب و کار، تیمهای مدیریت و متخصصان فناوری اطلاعات به دادهها دسترسی دارند و تعیین میکنند که چگونه میخواهند آنها را سازماندهی کنند.
- نرم افزار کاربردی سفارشی، دادهها را مرتب و سازماندهی میکند.
- کاربر نهایی، دادهها را در قالبی با قابلیت اشتراکگذاری آسان، مانند نمودار یا جدول، ارائه میدهد.
نرم افزار ذخیرهسازی و استخراج دادهها
برنامههای داده کاوی روابط و الگوهای موجود در دادهها را بر اساس درخواست کاربر تجزیه و تحلیل میکنند. این کار باعث سازماندهی اطلاعات در کلاسها میشود.
به عنوان مثال، یک رستوران ممکن است بخواهد از داده کاوی استفاده کند تا مشخص کند کدام غذاهای ویژه را در چه روزهایی باید ارائه کند. دادهها را میتوان بر اساس زمان بازدید مشتریان و سفارش آنها در کلاسها سازماندهی کرد.
در موارد دیگر، دادهکاوان، خوشههایی از اطلاعات را بر اساس روابط منطقی پیدا میکنند یا به تداعیها و الگوهای متوالی نگاه میکنند تا در مورد روندهای رفتار مصرفکننده به نتیجه برسند.
انبارداری یکی از جنبههای مهم داده کاوی است. انبارداری، متمرکز کردن دادههای یک سازمان در یک پایگاه داده یا برنامه است. این کار به سازمان اجازه میدهد تا بخش هایی از دادهها را برای کاربران خاص تجزیه و تحلیل و با توجه به نیاز آنها استفاده کند.
راه حلهای انبار دادههای ابری از فضا و قدرت یک ارائهدهنده ابر برای ذخیره دادهها استفاده میکنند. این امر به شرکتهای کوچکتر اجازه میدهد تا از راه حلهای دیجیتال برای ذخیرهسازی، امنیت و تجزیه و تحلیل استفاده کنند.
انواع تکنیکهای داده کاوی
داده کاوی از الگوریتمها و تکنیکهای مختلف دیگر برای تبدیل مجموعههای بزرگ داده به خروجی مفید استفاده میکند. محبوبترین انواع تکنیکهای داده کاوی عبارتند از:
- قوانین انجمن (Association rules) که به آن تحلیل سبد بازار نیز گفته میشود، روابط بین متغیرها را جستجو میکند. این رابطه به خودی خود ارزش اضافی را در مجموعه داده ایجاد میکند زیرا در تلاش برای پیوند دادن قطعات داده است. به عنوان مثال، قوانین انجمن، تاریخچه فروش یک شرکت را جستجو میکند تا ببیند کدام محصولات بیشتر با هم خریداری میشوند. با این اطلاعات، فروشگاهها میتوانند برنامهریزی، تبلیغ و پیشبینی کنند.
- طبقهبندی (Classification)، از کلاسهای از پیش تعریفشده برای اختصاص دادن به اشیا استفاده میکند. این کلاسها ویژگیهای اقلام را توصیف میکنند یا نشان میدهند که نقاط داده با هر کدام مشترک هستند. این تکنیک داده کاوی به داده های زیربنایی اجازه میدهد تا به طور منظمتری دستهبندی و در ویژگیهای مشابه یا خطوط تولید خلاصه شوند.
- خوشهبندی (Clustering) مشابه طبقهبندی است. با این حال، خوشهبندی شباهتهای بین اشیاء را شناسایی میکند، سپس آن موارد را بر اساس آنچه آنها را از سایر موارد متفاوت میکند، گروهبندی میکند. در حالی که طبقهبندی ممکن است گروههایی مانند “شامپو”، “نرم کننده”، “صابون” و “خمیر دندان” را ایجاد کند، گروهبندی ممکن است گروههایی مانند “مراقبت از مو” و “سلامت دندان” را مشخص کند.
- درختان تصمیم (Decision trees) برای طبقهبندی یا پیش بینی یک نتیجه بر اساس فهرست مجموعهای از معیارها یا تصمیمات استفاده میشوند. درخت تصمیم برای درخواست ورودی یک سری سوالات آبشاری استفاده میشود که مجموعه داده را بر اساس پاسخهای داده شده مرتب میکند. درخت تصمیم که گاهی به صورت تصویری درختمانند نشان داده میشود، هنگام ورود عمیقتر به دادهها، جهت خاص و ورودی کاربر را امکانپذیر میکند.
- K-نزدیکترین همسایگی KNN) ) الگوریتمی است که دادهها را بر اساس نزدیکی آن به سایر دادهها طبقهبندی میکند. اساس KNN ریشه در این فرض دارد که نقاط دادهای که به یکدیگر نزدیک هستند، بیشتر از سایر بیتهای داده شبیه به یکدیگر هستند. این تکنیک ناپارامتریک و نظارتشده برای پیشبینی ویژگیهای یک گروه بر اساس نقاط داده فردی استفاده میشود.
- شبکههای عصبی (Neural networks) دادهها را از طریق استفاده از گرهها پردازش می کنند. این گره ها از ورودیها، وزنها و خروجیها تشکیل شدهاند. دادهها از طریق یادگیری نظارت شده ترسیم میشوند، شبیه به روشهایی که مغز انسان به هم متصل میشود. این مدل را میتوان طوری برنامهریزی کرد که مقادیر آستانه را برای تعیین دقت مدل ارائه دهد.
- تجزیه و تحلیل پیشبینیکننده (Predictive analysis) تلاش میکند تا از اطلاعات تاریخی برای ساخت مدلهای گرافیکی یا ریاضی برای پیشبینی نتایج آینده استفاده کند. این تکنیک که با تجزیه و تحلیل رگرسیون همپوشانی دارد، این هدف را دارد که از یک رقم ناشناخته در آینده بر اساس دادههای فعلی موجود حمایت کند.
فرآیند داده کاوی
برای مؤثرترین کار، تحلیلگران داده معمولاً جریان خاصی از وظایف را در طول فرآیند داده کاوی دنبال میکنند. بدون این ساختار، یک تحلیلگر ممکن است در میانه تحلیل خود با موضوعی مواجه شود که اگر زودتر برای آن آماده میشد، به راحتی می توانست از آن جلوگیری کند. فرآیند داده کاوی معمولاً به مراحل زیر تقسیم می شود.
مرحله 1: درک کسب و کار
قبل از لمس، استخراج، پاکسازی یا تجزیه و تحلیل هر دادهای، مهم است که موجودیت اساسی و ماهیت پروژه در دست کار را درک کنید. اهدافی که شرکت در تلاش است با استخراج دادهها به آن دست یابد چیست؟ وضعیت فعلی کسب و کار آنها چگونه است؟ یافتههای تجزیه و تحلیل SWOT چیست؟ قبل از بررسی هر دادهای، فرآیند استخراج با درک آن چیزی آغاز می شود که موفقیت در پایان فرآیند را تعریف می کند.
مرحله 2: درک اطلاعات
وقتی مشکل کسب و کار به وضوح تعریف شد، زمان آن رسیده که به دادهها و اطلاعات فکر کنید. این اطلاعات شامل این است که چه منابعی در دسترس هستند، چگونه ایمنسازی و ذخیره میشوند، اطلاعات چگونه جمعآوری میشود و نتیجه یا تجزیه و تحلیل نهایی ممکن است چگونه باشد. این مرحله همچنین شامل تعیین محدودیتهای داده، ذخیرهسازی، امنیت و جمعآوری است و ارزیابی میکند که چگونه این محدودیتها بر فرآیند دادهکاوی تأثیر میگذارند.
مرحله 3: آمادهسازی دادهها
دادهها جمعآوری، آپلود، استخراج یا محاسبه میشوند. سپس تمیز و مرتب میشود، استاندارد میشود، از نظر نقاط دورافتاده مرتبسازی میشود، برای بیرون آوردن اشتباهات ارزیابی میشود و از نظر منطقی بودن بررسی میشود. در طول این مرحله از داده کاوی، دادهها ممکن است از نظر اندازه نیز بررسی شوند زیرا مجموعهای بزرگ از اطلاعات ممکن است محاسبات و تجزیه و تحلیل غیرضروری را کاهش دهد.
مرحله 4: مدلسازی
با در دست داشتن مجموعه دادههای تمیز و مرتب، وقت آن رسیده است که اعداد را خرد کنیم. دانشمندان داده از انواع داده کاوی فوق برای جستجوی روابط، روندها، تداعیها یا الگوهای متوالی استفاده میکنند. دادهها همچنین ممکن است به مدلهای پیشبینیکننده وارد شوند تا ارزیابی کنند که چگونه بیتهای قبلی اطلاعات ممکن است به نتایج آینده ترجمه شوند.
مرحله 5: ارزیابی نتایج
جنبه داده محوری در داده کاوی با ارزیابی یافتههای مدل یا مدلهای داده به پایان میرسد. نتایج حاصل از تجزیه و تحلیل ممکن است تجمیع، تفسیر و به تصمیمگیرندگانی ارائه شوند که تا این مرحله عمدتاً از فرآیند داده کاوی حذف شدهاند. در این مرحله، سازمانها میتوانند بر اساس یافتهها تصمیمگیری کنند.
مرحله 6: اجرای تغییر و نظارت
فرآیند داده کاوی با اقدامات مدیریتی در پاسخ به یافتههای تجزیه و تحلیل به پایان میرسد. شرکت ممکن است تصمیم بگیرد که اطلاعات به اندازه کافی قوی نبوده یا یافتهها مرتبط نیستند، یا ممکن است شرکت بر اساس یافتهها به صورت استراتژیک حرکت کند. در هر صورت، مدیریت مجموعه، تأثیرات نهایی کسب و کار را بررسی میکند و حلقههای داده کاوی آینده را با شناسایی مشکلات یا فرصتهای تجاری جدید بازآفرینی میکند.
مدلهای مختلف پردازش دادهکاوی مراحل مختلفی خواهند داشت، اگرچه فرآیند کلی معمولاً تقریباً مشابه است. به عنوان مثال، مدل پایگاههای داده کشف دانش (the Knowledge Discovery Databases model) دارای 9 مرحله، مدل CRISP-DM دارای 6 مرحله، و مدل فرآیند SEMMA دارای 5 مرحله است.
کاربردهای داده کاوی
در عصر اطلاعات امروز، تقریباً هر شرکت و سازمان فعالی در هر بخش و صنعتی میتواند از داده کاوی استفاده کند. مهمترین کاربردهای داده کاوی عبارتند از:
حراجیها
داده کاوی، استفاده هوشمندانهتر و کارآمدتر از سرمایه را برای افزایش درآمد تشویق میکند. صندوق یا قسمت فروش کافی شاپ محلی مورد علاقه خود را در نظر بگیرید. آن کافی شاپ برای هر فروش خود، اطلاعات زمان خرید و محصولات فروخته شده را ثبت و جمعآوری میکند. با استفاده از این اطلاعات، فروشگاه میتواند خط تولید خود را به صورت استراتژیک ایجاد کند.
بازاریابی و مارکتینگ
وقتی کافی شاپی که در بالا مثال زدیم، ترکیب ایدهآل خود را میداند و محصول پرفروش خود را میشناسد، نوبت به اعمال تغییرات میرسد. با این حال، برای موثرتر کردن تلاشهای بازاریابی خود، فروشگاه میتواند از دادهکاوی استفاده کند تا بفهمد مشتریانش کجا تبلیغات را میبینند، چه اطلاعات جمعیتی را هدف قرار دهند، کجا تبلیغات دیجیتال قرار دهند و چه استراتژیهای بازاریابی بیشتری در بین مشتریان ترند شده است. این کار شامل همسوسازی کمپینهای بازاریابی، پیشنهادهای تبلیغاتی، پیشنهادهای فروش متقابل و برنامهها با یافتههای داده کاوی است.
تولید
برای شرکتهایی که کالاهای خود را تولید میکنند و کارخانه تولیدی دارند، دادهکاوی نقش مهمی در تجزیه و تحلیل هزینههای هر ماده خام، موادی که به بهترین شکل استفاده میشوند، نحوه صرف زمان در طول فرآیند تولید و اینکه چه تنگناهایی بر فرآیند تأثیر منفی میگذارد، ایفا میکند. داده کاوی کمک می کند تا اطمینان حاصل شود که جریان کالاها بدون وقفه است.
تشخیص تقلب
مهمترین بخش داده کاوی یافتن الگوها، روندها و همبستگیهایی است که نقاط داده را به یکدیگر مرتبط میکند. بنابراین، یک شرکت میتواند از داده کاوی برای شناسایی نقاط پرت یا همبستگیهایی که نباید وجود داشته باشند، استفاده کند. به عنوان مثال، یک شرکت ممکن است جریان نقدی خود را تجزیه و تحلیل کند و یک تراکنش تکراری به یک حساب ناشناخته را بیابد. اگر این تراکنش غیرمنتظره و مشکوک باشد، شرکت ممکن است بخواهد بررسی کند که آیا وجوه سوء مدیریت میشود یا خیر.
منابع انسانی
دپارتمانهای منابع انسانی معمولاً طیف گستردهای از دادهها را برای پردازش در دسترس دارند، از جمله دادههای مربوط به حفظ، ارتقاء، دامنه حقوق، مزایای شرکت، استفاده از آن مزایا، و نظرسنجیهای رضایت کارکنان. دادهکاوی میتواند این دادهها را به هم مرتبط کند تا درک بهتری از دلیل ترک کارمندان و آنچه که استخدامهای جدید را جلب میکند، به دست آورد.
خدمات مشتری
رضایت مشتری ممکن است به دلایل مختلفی ایجاد شود (یا از بین برود). شرکتی را تصور کنید که کالا را ارسال میکند. ممکن است مشتری از زمان حمل، کیفیت حمل و نقل یا ارتباطات ناراضی باشد. همین مشتری ممکن است از زمان انتظار طولانی تلفن یا پاسخدهی آهسته به ایمیل ناامید شود. داده کاوی اطلاعات عملیاتی در مورد تعاملات مشتری را جمعآوری میکند و یافتهها را خلاصه میکند تا نقاط ضعف را مشخص کند و آنچه را که شرکت به درستی انجام می دهد برجسته کند.
مزایا و معایب داده کاوی
مزایای داده کاوی
- باعث سودآوری و کارایی بیشتر میشود؛
- میتوان آن را برای هر نوع داده و مشکل تجاری اعمال کرد؛
- میتواند اطلاعات و روندهای پنهان را آشکار کند.
معایب داده کاوی
- پیچیدگی زیادی دارد؛
- نتایج و مزایای آن تضمین شده نیست؛
- ممکن است گران باشد.
داده کاوی و رسانه های اجتماعی
یکی از سودآورترین کاربردهای داده کاوی توسط شرکت های رسانه های اجتماعی انجام شده است. پلتفرم هایی مانند فیس بوک، تیک تاک، اینستاگرام و پلتفرم X (توئیتر سابق) مجموعهای از دادهها را در مورد کاربران خود بر اساس فعالیتهای آنلاین آنها جمعآوری میکنند.
از این دادهها می توان برای استنباط در مورد ترجیحات آنها استفاده کرد. تبلیغکنندگان میتوانند پیامهای خود را برای افرادی که به نظر میرسد بیشتر به آنها پاسخ مثبت میدهند، هدف قرار دهند.
دادهکاوی در رسانههای اجتماعی با چندین گزارش تحقیقی و افشاگری که نشان میدهد دادههای استخراجی کاربران تا چه حد میتواند نفوذی باشد، تبدیل به یک نقطه اختلاف بزرگ شده است. در مرکز این موضوع، کاربران ممکن است با شرایط و ضوابط سایتها موافقت کنند و متوجه نشوند که اطلاعات شخصی آنها چگونه جمعآوری میشود یا اطلاعات آنها به چه کسانی فروخته میشود.
نمونه هایی از داده کاوی
از داده کاوی میتوان هم به روشی صحیح و در راه پیشرفت استفاده کرد، هم میتوان از آن استفاده غیرقانونی کرد. در اینجا یک مثال از هر دو را بیان میکنیم.
eBay و تجارت الکترونیک
eBay هر روز تعداد بی شماری از اطلاعات را از فروشندگان و خریداران جمع آوری می کند. این شرکت از داده کاوی برای نسبت دادن روابط بین محصولات، ارزیابی محدوده قیمت مورد نظر، تجزیه و تحلیل الگوهای خرید قبلی و تشکیل دستهبندی محصولات استفاده میکند.
eBay روند توصیه را به شرح زیر بیان می کند:
- فرادادههای خام و دادههای تاریخی کاربر (سوابق کاربر) جمعآوری میشوند.
- اسکریپها روی یک مدل آموزشدیده برای تولید و پیشبینی آیتم و کاربر اجرا میشوند.
- جستجوی KNN انجام میشود.
- نتایج در پایگاه داده نوشته میشود.
- توصیه بلادرنگ شناسه کاربر را میگیرد، نتایج پایگاه داده را فراخوانی میکند و به کاربر نمایش میدهد.
رسوایی فیس بوک-کمبریج آنالیتیکا
یکی دیگر از نمونههای هشداردهنده داده کاوی، رسوایی دادههای فیس بوک-کمبریج آنالیتیکا است. در طول دهه 2010، شرکت مشاوره بریتانیایی Cambridge Analytica Ltd. اطلاعات شخصی میلیونها کاربر فیس بوک را جمعآوری کرد. این اطلاعات بعداً برای استفاده در مبارزات انتخاباتی ریاست جمهوری 2016 تد کروز و دونالد ترامپ مورد تجزیه و تحلیل قرار گرفت. گمان میرود که کمبریج آنالیتیکا با رویدادهای مهم دیگری مانند همهپرسی برگزیت تداخل داشته باشد.
با توجه به این داده کاوی نامناسب و سوء استفاده از داده های کاربران، فیس بوک موافقت کرد 100 میلیون دلار به جرم گمراه کردن سرمایهگذاران در مورد استفاده از دادههای مصرفکننده بپردازد. کمیسیون بورس و اوراق بهادار ادعا کرد که فیس بوک در سال 2015 این سوء استفاده را کشف کرده است اما بیش از دو سال است که افشای آن را اصلاح نکرده است.
و در پایان این که…
کسب و کارهای مدرن توانایی جمع آوری اطلاعات در مورد مشتریان، محصولات، خطوط تولید، کارمندان و ویترین فروشگاههای خود را دارند. این اطلاعات تصادفی ممکن است داستانی را بیان نکنند، اما استفاده از تکنیکها، برنامهها و ابزارهای داده کاوی به جمع آوری اطلاعات کمک میکند.
هدف نهایی فرآیند داده کاوی گردآوری دادهها، تجزیه و تحلیل نتایج و اجرای استراتژیهای عملیاتی بر اساس نتایج داده کاوی است.
سوالات متداول در مورد داده کاوی
دو نوع اصلی داده کاوی وجود دارد: داده کاوی پیشبینیکننده و داده کاوی توصیفی. داده کاوی پیشبینیکننده دادههایی را استخراج میکند که ممکن است در تعیین نتیجه مفید باشد. داده کاوی توصیفی کاربران را از یک نتیجه معین آگاه میکند.
داده کاوی به کلانداده و فرآیندهای محاسباتی پیشرفته از جمله یادگیری ماشین و سایر اشکال هوش مصنوعیAI) ) متکی است. هدف یافتن الگوهایی است که میتواند به استنتاج یا پیشبینی از مجموعه دادههای بزرگ و بدون ساختار منجر شود.
داده کاوی همچنین با اصطلاح کمتر استفاده شده “کشف دانش در داده” یا KDD شناخته میشود.
برنامه های کاربردی داده کاوی طوری طراحی شدهاند که تقریباً هر تلاشی را که به داده های بزرگ متکی است انجام دهند. شرکتهای بخش مالی به دنبال الگوهایی در بازار هستند. دولتها سعی میکنند تهدیدات امنیتی بالقوه را شناسایی کنند. شرکتها، بهویژه شرکتهای آنلاین و رسانههای اجتماعی، از دادهکاوی برای ایجاد کمپینهای تبلیغاتی و بازاریابی سودآور استفاده میکنند که مجموعههای خاصی از کاربران را هدف قرار میدهند.