مقدمه

در داده‌کاوی یک متد بسیار شناخته شده وجود داره تحت عنوان CRISP-DM یا متدولوژی فرآیندی فارغ از صنعت برای داده کاوی خیلی زیاد استفاده میشه که منم هم توی این مطلب به کلیاتش میپردازم.

CRISP-DM  چیه؟

متدولوژی CRISP-DM فرآیندیه که تمرکزش روی افزایش استفاده از داده کاوی توی صنایع مختلف و برای انجام کارهای مختلفه. در واقع هدف کلی اینه که سناریوهای مختلف بررسی و بعد کلی سازی بشن در حدی که دیگه خیلی وابستگی به حوزه کسب و کار نداشته باشن. در واقع این متدولوژی به عنوان یک متدولوژی شامل فازهای کلی پروژه، فعالیت‌های کلی هر فاز و توضیح ارتباط بین فعالیت‌ها هست. و به عنوان یک مدل فرآیندی کلیات یک چرخه داده کاوی رو شامل میشه.

شکل 1. مدل CRISP-DM

 این متدولوژی و چرخه کلی داده کاوی شش گام کلی داره که توی عکس هم نمایش داده شدن. البته که ممکنه در مواردی هم الزاما تمام این گام‌ها استفاده نشن. مثلا اگر ما دنبال پیدا کردن موارد پولشویی باشیم ممکنه الزاما بخش مدل سازی نداشته باشیم و به جاش بیشتر دنبال اکتشاف و مصور سازی باشیم. کریسپ خیلی منعطفه و به ما اجازه میده که مدلی رو درست کنیم که کاملا برای سازمان یا کارمون مناسب باشه.

گام‌های مدل CRISP-DM

شش گام این مدل شامل موارد زیر هستن:

1.     درک کسب و کار

میشه گفت مهم ترین گام همین گامه که توش محدوده پروژه مشخص میشه. توی این گام خیلی خودمونی باید دقیقا بفهمیم که چرا سازمان به دنبال داده کاوی هست. این مرحله نیاز به مصاحبه زیاد داره و معمولا سخت‌ترین بخش این قسمت اینه که ذی‌نفعان زیادی برای این پروژه‌ها وجود دارن که دیدشون، جهت‌گیریشون و اهدافشون با هم فرق داره. همین باعث میشه که طبیعتا یک چیز رو همشون به یک شکل نبینن. اگر اهداف پروژه توی این گام به درستی مشخص نشه، طبیعتا منابع بیشتری بی دلیل استفاده میشن تا پروژه به نتیجه برسه. به عنوان جمع‌بندی سه تا کار باید انجام بشه:

  1. اطلاعات کافی در مورد وضع فعلی سازمان جمع آوری بشه
  2. اهداف کسب و کار با کمک تصمیم گیرنده‌ها شناسایی و ثبت بشه
  3. در مورد شرایطی که بعد از اجرای پروژه داده کاوی به اون یک پروژه موفق گفته میشه توافق بشه.

بریم هر کدوم از این ها رو بررسی کنیم

1.1. جمع‌آوری اطلاعات کافی در مورد کسب و کار

این که بفهمیم الان سازمان دقیقا توی چه وضعیه از چند جهت برای ما ارزشمند میتونه باشه:

  • میفهمیم چه منابعی در اختیار داریم
  • میفهمیم مشکلات چیا هستن
  • میفهمیم اهداف سازمان چیا هستن

پس لازمه چیزهایی رو که میتونن روی پروژه داده‌کاوی ما تاثیر گذار باشن رو شناسایی کنیم. یعنی:

  1. ساختار سازمانی رو بفهمیم. یعنی
  2. یک نسخه بروز از چارت سازمانی تهیه یا ایجاد کنیم که توی اون بخش‌ها و دپارتمان‌ها مشخص باشن. حتی بهتره پروژه‌ها و بخش‌های درگیر باهاشون، نام مدیرها یا سرپرست‌ها و شرح وظایفشون رو هم داشته باشیم.
  3. افراد کلیدی یا تاثیرگذار سازمان رو شناسایی کنیم
  4. افرادی رو که بر روی اتفاقات مالی شرکت تاثیر دارن، سرمایه گذارها و کسایی رو که توی هر زمینه تخصص دارن شناسایی کنیم.
  5. یک کمیته راهبری ایجاد کنیم
  6. بخش‌هایی از سازمان رو که تحت تاثیر پروژه داده‌کاوی ما قرار میگیرن رو شناسایی کنیم.
  7. دامنه مساله رو مشخص کنیم. یعنی
    • اصلا الان کدوم فرآیندها درگیر این پروژه میشن؟ مارکتینگ؟ خدمات مشتریان؟ توسعه بازار؟
    • مساله رو به صورت خیلی کلی بنویسیم و به تایید برسونیم
    • ببینیم که اصلا چه انگیزه‌ای پشت انجام این پروژه هست؟ الان داره پروژه داده‌کاوی دیگه‌ای هم توی سازمان انجام میشه؟
  8. راه حل فعلی رو تشریح کنیم. یعنی
    • راه حل‌ فعلی که داره برای مسائل مختلف سازمان استفاده میشه رو مشخص کنیم مزایا و معایب و میزان مقبولیتشون رو بفهمیم.