مقدمه
در دادهکاوی یک متد بسیار شناخته شده وجود داره تحت عنوان CRISP-DM یا متدولوژی فرآیندی فارغ از صنعت برای داده کاوی خیلی زیاد استفاده میشه که منم هم توی این مطلب به کلیاتش میپردازم.
CRISP-DM چیه؟
متدولوژی CRISP-DM فرآیندیه که تمرکزش روی افزایش استفاده از داده کاوی توی صنایع مختلف و برای انجام کارهای مختلفه. در واقع هدف کلی اینه که سناریوهای مختلف بررسی و بعد کلی سازی بشن در حدی که دیگه خیلی وابستگی به حوزه کسب و کار نداشته باشن. در واقع این متدولوژی به عنوان یک متدولوژی شامل فازهای کلی پروژه، فعالیتهای کلی هر فاز و توضیح ارتباط بین فعالیتها هست. و به عنوان یک مدل فرآیندی کلیات یک چرخه داده کاوی رو شامل میشه.
این متدولوژی و چرخه کلی داده کاوی شش گام کلی داره که توی عکس هم نمایش داده شدن. البته که ممکنه در مواردی هم الزاما تمام این گامها استفاده نشن. مثلا اگر ما دنبال پیدا کردن موارد پولشویی باشیم ممکنه الزاما بخش مدل سازی نداشته باشیم و به جاش بیشتر دنبال اکتشاف و مصور سازی باشیم. کریسپ خیلی منعطفه و به ما اجازه میده که مدلی رو درست کنیم که کاملا برای سازمان یا کارمون مناسب باشه.
گامهای مدل CRISP-DM
شش گام این مدل شامل موارد زیر هستن:
1. درک کسب و کار
میشه گفت مهم ترین گام همین گامه که توش محدوده پروژه مشخص میشه. توی این گام خیلی خودمونی باید دقیقا بفهمیم که چرا سازمان به دنبال داده کاوی هست. این مرحله نیاز به مصاحبه زیاد داره و معمولا سختترین بخش این قسمت اینه که ذینفعان زیادی برای این پروژهها وجود دارن که دیدشون، جهتگیریشون و اهدافشون با هم فرق داره. همین باعث میشه که طبیعتا یک چیز رو همشون به یک شکل نبینن. اگر اهداف پروژه توی این گام به درستی مشخص نشه، طبیعتا منابع بیشتری بی دلیل استفاده میشن تا پروژه به نتیجه برسه. به عنوان جمعبندی سه تا کار باید انجام بشه:
- اطلاعات کافی در مورد وضع فعلی سازمان جمع آوری بشه
- اهداف کسب و کار با کمک تصمیم گیرندهها شناسایی و ثبت بشه
- در مورد شرایطی که بعد از اجرای پروژه داده کاوی به اون یک پروژه موفق گفته میشه توافق بشه.
بریم هر کدوم از این ها رو بررسی کنیم
1.1. جمعآوری اطلاعات کافی در مورد کسب و کار
این که بفهمیم الان سازمان دقیقا توی چه وضعیه از چند جهت برای ما ارزشمند میتونه باشه:
- میفهمیم چه منابعی در اختیار داریم
- میفهمیم مشکلات چیا هستن
- میفهمیم اهداف سازمان چیا هستن
پس لازمه چیزهایی رو که میتونن روی پروژه دادهکاوی ما تاثیر گذار باشن رو شناسایی کنیم. یعنی:
- ساختار سازمانی رو بفهمیم. یعنی
- یک نسخه بروز از چارت سازمانی تهیه یا ایجاد کنیم که توی اون بخشها و دپارتمانها مشخص باشن. حتی بهتره پروژهها و بخشهای درگیر باهاشون، نام مدیرها یا سرپرستها و شرح وظایفشون رو هم داشته باشیم.
- افراد کلیدی یا تاثیرگذار سازمان رو شناسایی کنیم
- افرادی رو که بر روی اتفاقات مالی شرکت تاثیر دارن، سرمایه گذارها و کسایی رو که توی هر زمینه تخصص دارن شناسایی کنیم.
- یک کمیته راهبری ایجاد کنیم
- بخشهایی از سازمان رو که تحت تاثیر پروژه دادهکاوی ما قرار میگیرن رو شناسایی کنیم.
- دامنه مساله رو مشخص کنیم. یعنی
- اصلا الان کدوم فرآیندها درگیر این پروژه میشن؟ مارکتینگ؟ خدمات مشتریان؟ توسعه بازار؟
- مساله رو به صورت خیلی کلی بنویسیم و به تایید برسونیم
- ببینیم که اصلا چه انگیزهای پشت انجام این پروژه هست؟ الان داره پروژه دادهکاوی دیگهای هم توی سازمان انجام میشه؟
- راه حل فعلی رو تشریح کنیم. یعنی
- راه حل فعلی که داره برای مسائل مختلف سازمان استفاده میشه رو مشخص کنیم مزایا و معایب و میزان مقبولیتشون رو بفهمیم.