راهنمای-دور-کاری-کار-در-منزل
راهنمای جامع دورکاری و کار در منزل
4 فروردین 1399
یادگیری-ماشین-چیست
یادگیری ماشین چیست؟ و چه کاربردهایی دارد؟
1 بهمن 1399
نمایش همه
داده-کاوی-چیست
10 دقیقه زمان مطالعه

داده کاوی یا دیتاماینینگ (Data Mining) عبارتیست که اخیرا بسیار بر سر زبان‌ها افتاده است و اگر دانشجوی مهندسی باشید قطعا اسم آن به گوش شما خورده است. کاوش در داده ها برای کشف ارتباطات پنهان و پیش‌بینی آینده ، سابقه طولانی در تاریخ دارد. داده کاوی به طور خلاصه عبارتست از بررسی داده‌ها برای پیدا کردن الگو، داده‌های غیرنرمال و دسته بندی داده‌ها برای پیش بینی. شما به کمک تکنیک های مختلف داده کاوی و با استفاده از اطلاعات بدست آمده می‌توانید هزینه‌ها را کاهش دهید، بر میزان درآمد اضافه کنید، ریسک را مدیریت کنید و ارتباط بهتری با مشتریان برقرار کنید.

طی دهه گذشته، پیشرفت‌های حاصل شده در قدرت پردازشگرها، ما را قادر ساخته است تا فراتر از اقدامات دستی، خسته کننده و وقت‌گیر به تجزیه و تحلیل سریع، آسان و خودکار داده بپردازیم. در این مقاله در ابتدا تاریخچه داده کاوی را با هم بررسی خواهیم کرد سپس جنبه‌های مختلف علم داده کاوی و کاربردهای دیتا ماینینگ را در کنار هم مرور خواهیم کرد. پس اگر بدنبال کسب اطلاعات کاملی از علم داده‌کاوی هستید این مقاله راهگشای شما خواهد بود.‌

داده کاوی چیست؟

داده کاوی یا دیتاماینینگ فرایندی است که توسط شرکت‌ها برای تبدیل داده های خام به اطلاعات مفید مورد استفاده قرار می‌گیرد. برای مثال یک شرکت می‌تواند فعالیت جامع یک ساله خود را بررسی کند و به این نتیجه برسد که چه عواملی بیشترین تاثیر را در رشد و سوددهی شرکت داشته و یا در چه بازه زمانی شرکت مشتریان خود را از دست داده است. داده کاوی در واقع فرایندِ یافتن ناهنجاری‌ها، الگوها و همبستگی‌ها در مجموعه داده‌های بزرگ برای پیش بینی نتایج است. به کمک داده‌کاوی با استفاده از طیف گسترده ای از تکنیک‌ها، می‌توانید از اطلاعات خام موجود در هر زمینه‌ای برای افزایش درآمد، کاهش هزینه‌ها، کشف تقلب، فیلتر کردن ایمیل‌ها اسپم و موارد دیگر برنامه بچینید.

داده کاوی را نمی‌توان محدود به صنف خاص یا چند تکنیک کرد، چرا که می توان در هر صنفی داده کاوی را انجام داد. بعنوان مثال یک صاحب مغازه لباس‌فروشی هم می‌تواند از داده کاوی برای بررسی کسب و کار خود استفاده کند. کافیست طبق فاکتورهای فروش فعالیت و درامد چند ماه خود را بررسی کند. با بررسی متوجه خواهد شد که مثلا از فلان لباس بیشترین سود را به دست اورده است، پس می‌تواند در سری‌های بعدی نیز همین محصول را سفارش دهد.

داده کاوی یا دیتاماینینگ چیست
داده کاوی یا دیتا ماینینگ به زبان ساده

این یک نمونه خیلی ساده از داده کاوی است. در نمونه‌های پیچیده داده کاوی، یک سازمان بزرگ می تواند از متخصصان داده کاوی کمک بگیرد تا اطلاعات خام شرکت را به نمودار و دیاگرام تبدیل کنند و همه فاکتورها را بررسی کنند تا بهترین تصمیم را برای افزایش درامد سازمان بگیرند.

امروزه داده کاوی با بسیاری از تکنیک ها مانند هوش مصنوعی ، آمار ، علوم داده ، تئوری پایگاه داده و یادگیری ماشین آمیخته شده است.

تاریخچه داده کاوی

ممکن است فکر کنید علم داده کاوی یک علم قرن بیست و یکمی است& این طور نیست و داده کاوی یک رشته با سابقه طولانیست. داده کاوی با روشهای اولیه داده کاوی ها مانند قضیه بیز (سال 1700) و تحلیل رگرسیون (سال 1800) که بیشتر الگوهای شناسایی داده ها بودند، شروع شد. اصطلاح “داده کاوی” تا دهه 1990 ابداع نشده بود. در اوایل دهه 1990، داده کاوی به عنوان یک فرایند فرعی یا گامی در یک فرآیند بزرگتر به نام دانشی در پایگاه های اطلاعاتی (KDD) شناخته شد که باعث ایجاد در واقع “محبوب ترین شخص” شد. معمول ترین تعریفی که از KDD استفاده می شود “فرآیند غیرمعمول شناسایی الگوهای معتبر ، بدیع ، بالقوه مفید و در نهایت قابل درک در داده ها” است.

داده کاوی چگونه کار می‌کند؟

فرآیند داده کاوی به پنج مرحله تقسیم می شود. ابتدا سازمان داده‌ها را جمع آوری کرده و در انبارهای داده خود بارگیری می‌کند. سپس داده‌ها در سرورهای داخلی یا فضای ابری ذخیره و مدیریت می‌شود. در مرحله سوم تحلیل گران کسب و کار ، تیم‌های مدیریتی و متخصصان فناوری اطلاعات به داده‌ها دسترسی پیدا کرده و نحوه تنظیم آنها را تعیین می‌کنند. در گام چهارم، با استفاده از یک نرم افزار کاربردی، داده را بر اساس نتایج کاربر مرتب می‌کنند و در نهایت، کاربر نهایی داده را در یک قالب به اشتراک گذاری آسان مانند نمودار یا جدول ارائه می‌دهد.

نمایش مراحل داده کاوی
مراحل داده کاوی را میتوان بطور خلاصه بصورت بالا نمایش داد.

انواع فرایند های داده کاوی

ادغام داده

ادغام داده ها فرایندی است که داده ها از منابع مختلف داده در یک واحد ادغام می شوند. داده ها در قالب های مختلف در مکان های مختلف نهفته است. داده ها می توانند در پایگاه داده ها، پرونده های متنی، فایل‌های اکسل، اسناد، اینترنت و غیره ذخیره شوند.

انتخاب داده

فرایند داده کاوی به حجم زیادی از داده های تاریخی برای تجزیه و تحلیل نیاز دارد. بنابراین، از داده های موجود، داده های مورد علاقه باید انتخاب و ذخیره شوند. انتخاب داده فرآیندی است که در آن داده های مربوط به تجزیه و تحلیل از پایگاه داده انتخاب می شود.

تبدیل داده

تبدیل داده ها و تلفیق داده ها به اشکال مختلفی انجام می شود. تبدیل داده به طور معمول شامل نرمال سازی، تجمیع، تعمیم و غیره است. به عنوان مثال  یک مجموعه داده موجود به صورت “-5 ، 37 ، 100 ، 89 ، 78” می تواند به صورت “-0.05 ، 0.37 ، 1.00 ، 0.89 ، 0.78” تبدیل شود. در اینجا داده ها برای داده کاوی مناسب تر می شوند. پس از ادغام داده ها، داده های موجود برای داده کاوی آماده است.

پاکسازی و مرتب کردن داده ها

پاکسازی داده ها فرایندی است که در طی آن داده ها اصلاح و پالایش می شوند. داده ها در دنیای واقعی معمولاً ناقص و متناقض هستند. داده های موجود در منابع داده ممکن است فاقد مقادیر ویژگی، داده های مورد علاقه و غیره باشند. به عنوان مثال، شما اطلاعات دموگرافیک مشتری را می خواهید و اگر داده های موجود ویژگی های مربوط به جنسیت یا سن مشتری را نداشته باشد، چه می کنید؟ گاهی اوقات ممکن است داده ها حاوی خطا یا دور از محتوا باشند. به عنوان مثال ویژگی سن یک داده مساوی با مقدار ۲۰۰ است. بدیهی است که در این مورد مقدار سن اشتباه است. داده ها همچنین می توانند متناقض باشند. به عنوان مثال، نام یک کارمند ممکن است به طور متفاوتی در جداول داده یا اسناد مختلف ذخیره شود. در اینجا، داده ها متناقض است. پاکسازی داده ها شامل تعدادی از تکنیک ها از جمله پر کردن مقادیر از دست رفته به صورت دستی، و بازرسی داده ها با تلفیقی از رایانه و انسان است.

ارزیابی الگو

الگوهای موجود در داده‌های شما واقعاً اطلاعات خیلی خوبی را در بر دارند. یک الگوی متناسب با هدف در نظر گرفته می شود اگر بالقوه مفید باشد، به راحتی برای انسان قابل درک است. همچنین با استفاده از الگو هر کسی می تواند از داده ها اطلاعات لازم را به دست اورد و نیاز نیست از متخصصان در این زمینه کمک گرفت.

داده کاوی

داده کاوی فرایند اصلی است که در آن تعدادی روش پیچیده و هوشمند برای استخراج الگوها از داده ها اعمال می شود. فرآیند داده کاوی شامل تعدادی از کارها مانند ارتباط، طبقه بندی، پیش بینی، خوشه بندی، تجزیه و تحلیل سری های زمانی و غیره است.

بازنمایی دانش

اطلاعات استخراج شده از داده ها باید به روشی جذاب و قابل فهم به کاربر ارائه شود. برای ارائه خروجی داده کاوی به کاربران، از تکنیک های مختلف بازنمایی دانش و تجسم داده استفاده می شود.

داده خام بصورت انبوه، حاوی اطلاعات ارزشمندی است که جز با استفاده از تکنیک‌های داده‌کاوی امکان نمایش آن بصورت نمودارهای قابل فهم وجود ندارد. نمودارها و دیاگرامها فراورده‌های علم داده کاوی هستند و بر اساس آن می‌توان تصمیمات درست و مبتی بر داده اتخاذ نمود.

کاربردهای داده کاوی یا دیتا ماینینگ

همانطور که در بالا هم اشاره کردیم امروزه داده کاوی در همه صنایع مورد استفاده قرار می‌گیرد. در زیر چند نمونه از حوزه‌هایی که از داده کاوی بیشتر استفاده کردند را مرور خواهیم کرد.

۱- مخابرات، رسانه و فناوری

شرکت های مخابراتی، رسانه‌ای و فناوری می‌توانند با استفاده از مدل‌های تحلیلی اطلاعات موجود در مشتریان را درک کرده و رفتار مشتری را پیش بینی کرده و کمپین های بسیار هدفمند و مرتبطی را ارائه دهند.

۲- آموزش

مربیان می توانند با استفاده از دیدگاه‌های یکپارچه و مبتنی بر داده‌ها از پیشرفت دانش آموزان، عملکرد دانش آموزان را قبل از اینکه پا به کلاس بگذارند پیش بینی کنند. داده کاوی به مربیان کمک می‌کند تا به داده های دانش آموزان دسترسی پیدا کنند، سطح موفقیت‌ها را پیش بینی کرده و دانش آموزان یا گروه هایی از دانش آموزان را که نیاز به توجه بیشتری دارند، مشخص کنند.

۳- بیمه

با دانش فنی تحلیلی، شرکت‌های بیمه می‌توانند مشکلات پیچیده مربوط به کلاهبرداری، انطباق، مدیریت ریسک را حل کنند. شرکت‌های بیمه از تکنیک‌های داده کاوی برای قیمت گذاری موثرتر محصولات بیمه‌ای و یافتن روش‌های جدید برای ارائه محصولات رقابتی به مشتریان موجود خود استفاده کرده‌اند.

۴- بانک‌ها و صندوق‌های مالی

الگوریتم های خودکار به بانک‌ها کمک می کند تا مشتری خود و همچنین میلیاردها معامله را در قلب سیستم مالی درک کنند. داده کاوی به شرکت‌های خدمات مالی کمک می کند تا دید بهتری نسبت به خطرات بازار پیدا کنند، سریعتر تقلب را کشف کنند، تعهدات مربوط به مقررات را مدیریت کنند و بازدهی بهینه از سرمایه گذاری‌های خود را بدست آورند. داده کاوی یک تکنیک پرکاربرد در بازارهای مالی است.

۵- خرده‌فروش‌ها

شرکت‌های خرده‌فروشی می توانند کمپین های هدفمندتری را ارائه دهند و با استفاده از داده‌های موجود حاصل از کمپینهای قبلی، پیشنهاداتی را پیدا می کنند که بیشترین تأثیر را بر مشتری می گذارد و میزان فروش را افزایش میدهد.

تکنیک های کاربردی و مهم داده‌ کاوی

طبقه بندی

 طبقه بندی تکنیک پیچیده‌ای برای داده کاوی است که شما را مجبور می کند ویژگی‌های مختلف داده‌ها را با هم در دسته‌های قابل تشخیص جمع آوری کنید، سپس می توانید از آن برای نتیجه گیری بیشتر استفاده کنید یا عملکرد خاصی را روی داداه‌هایتان انجام دهید.

خوشه بندی

 خوشه بندی بسیار شبیه به طبقه بندی است، اما شامل گروه بندی تکه های داده با هم بر اساس شباهت آنها است. به عنوان مثال، شما ممکن است انتخاب کنید که جمعیتهای مختلف مخاطبان خود را بر اساس میزان درآمد قابل استفاده آنها یا تعداد دفعات خرید آنها در فروشگاه شما، در بسته های مختلف قرار دهید.

پیش بینی

 پیش بینی یکی از با ارزش ترین تکنیک های داده کاوی است، زیرا از آن برای تهیه انواع داده هایی که در آینده خواهید دید استفاده می شود. در بسیاری از موارد، فقط شناخت و درک روندهای تاریخی برای ترسیم پیش بینی تا حدی دقیق از آنچه در آینده اتفاق می افتد، کافی است. به عنوان مثال، ممکن است تاریخچه اعتبار مصرف کنندگان و خریدهای گذشته را مرور کنید.

الگوهای ردیابی

یکی از اساسی ترین تکنیک ها در داده کاوی، یادگیری شناخت الگوها در مجموعه داده های شما است. مثلا ممکن است مشاهده کنید که میزان فروش شما از یک محصول خاص دقیقاً قبل از تعطیلات نوروز افزایش یافته است، یا اینکه متوجه شوید که هوای گرم افراد بیشتری را به سمت وب سایت شما سوق می دهد.

برنامه و نرم افزارهای کاربردی داده کاوی

با پیشرفت داده کاوی و قدرت پردازشی رایانه‌ها ابزارهای مختلفی برای داده کاوی عرضه شده اند. برخی از معروف‌ترین ابزارهای داده‌کاوی برای انجام پروژه‌های داده کاوی به شرح زیر است:

  1. آر (زبان برنامه‌نویسی)
  2. پایتون (زبان برنامه‌نویسی): کتابخانه‌های مختلف برای داده‌کاوی در پایتون این زبان برنامه نویسی را به یکی از ابزارهای محبوب متخصصان علم داده تبدیل کرده است.
  3. رپیدماینر
  4. Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده می‌شود.
  5. نرم‌افزار وکا
  6. متلب

نرم افزارهای متن باز داده کاوی

  • Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جستجو
  • Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جستجوی وب
  • ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه‌ای پیشرفته و روش‌های تشخیص داده‌های خارج از محدوده که به زبان جاوا نوشته شده‌است.
  • GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.

در انجام پروژه های داده کاوی خود از پروژه مارکت کمک بگیرید.

پروژه مارکت ارائه ‌دهنده خدمات انجام پروژه های نرم افزاری، انجام پروژه های تخصصی در تمامی رشته‌ها


به این مطلب چند ستاره می‌دهید؟
(تعداد رای: 6 - امتیاز میانگین: 5)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *