| کسب و کار | | تکنولوژی |

آشنایی با مهمترین روش های داده کاوی

آشنایی با مهمترین روش های داده کاوی
ساره شهداب
نویسنده ساره شهداب

 

مدت مورد نیاز برای مطالعه این مقاله :10 دقیقه

تصور کنید که شما صاحب معدنی از الماس در آفریقا هستید که می‌خواهید از این معدن استخراج کنید و پول هنگفتی به جیب بزنید. ولی تجربه‌ای در آن ندارید.دارایی شما ابزارهایی بر روی زمین و الماس‌های زیبایی است که در سنگ گیر افتاده‌اند.حال شما دو راه دارید یا با ابزار به جان سنگ بیفتید و خودتان هم علیل و ناتوان در نهایت به الماس‌ها نرسید و یا این‌که افراد محلی را که دقیقا انواع روش‌های mining(استخراج) را می‌دانند اعتماد کنید.آن‌ها دقیقا می‌دانند که روش‌های استخراج درست الماس‌های شما و برش درست آن چیست که باعث شود جیب شما پر شود!

دنیای امروز دقیقا همان معدن الماس آفریقا است! و این الماس‌ها همان اطلاعاتی هستند که در دنیای اطراف ما وجود دارند. اما کسانی که data mining و روش‌هایش را می‌دانند قادرند که تصویری با معنی از این اطلاعات بسازند.

در این مقاله باهم روش‌های استخراج الماس(dataهای مهم حوزه کاری‌خودمان) را یاد می‌گیریم. اگر هم لازم باشد خودمان بیل و کلنگ برمی‌داریم و خیلی اصولی به جان معدن اطلاعات می‌افتیم!

 

پیش نیاز:مقاله‌ی مفهوم دیتا ماینینگ در دنیای سلامت چیست؟

 

داده کاوی در مقاله‌ای که در بالا معرفی شد به طور کامل توضیح داده شده اما به جهت یادآوری:

داده کاوی فرایندی است که در آن با استفاده از کامپیوتر حجم زیادی از داده را تبدیل به دانش می‌کنند. در واقع همان پلی است که میان داده‌های خام و دانش ارتباط برقرار می‌کند. مثلا در وزارت بهداشت طرحی تحت عنوان کمپین آگاهی بخشی دیابت در سراسر کشور  ارائه می‌شود که در این کمپین به وسیله اپلیکیشنی داده‌های افراد درگیر با این بیماری جمع آوری می‌شود. با داده کاوی این اطلاعات ‌می‌شود به طرحی جامع برای پیشگیری و درمان این بیماری ارائه داد و یا حتی به روش‌های جدید دست یافت.

 6گام اساسی در فرایند داده کاوی:

که برای بکارگیری روند بالا در مرحله ابزارهایی وجود دارد. شناخت و یادگیری کاربرد انواع متدdata mining  یکی از این ابزار هاست.

انواع روش‌های آنالیز در داده‌کاوی:

آنالیزهای داده کاوی به طور کلی به دوبخش تقسیم می‌شوند.

  1. آنالیزهای predictive
  2. آنالیزهای descriptive

 

  1. آنالیزهای پیش‌بینی‌کننده(predictive)

همان‌طوری که از اسمشان پیداست، در این نوع آنالیز از داده‌ها در جهت پیش‌بینی برای پروژه‌های پیش رو استفاده می‌شود.

مثلا می‌شود از اطلاعات فروش موجود در یک بازار بزرگ استفاده کرد تا به وسیله تحلیل‌های داده کاوی میزان فروش محصول جدیدش را پیش‌بینی کرد که بتوان تصمیم گرفت که اصلا این محصول ارزش سرمایه‌گذاری دارد یا نه؟

4 تکنیک در آنالیز پیش‌بینی‌کننده:

  • دسته بندی (Classification)

تصور کنید که شما مدیر یک بانک خصوصی هستید و می‌خواهید مشتریانی که ریسک بالایی  برای برنگرداندن وام دارند از آن‌هایی که همیشه خوش حساب بودند را جدا کنید  یا مثلا مدیر مارکتینگ یک شرکت فروش لوازم پزشکی هستید و می‌خواهید مشتریانی که احتمال خریدن محصولاتتان را دارند از بقیه جدا کنید.

در واقع شما به دنبال دسته بندی اطلاعات مشتریانتان هستید که بتوانید بسنجید آن‌ها چند مرده حلاج‌اند!

مراحل دسته‌بندی در داده‌کاوی:
  1. ایجاد مدلی برای دسته‌بندی

به این مرحله فاز یادگیری نیز گفته می‌شود. در این مرحله به کمک الگوریتمی که برای دسته‌بندی قرار می‌دهیم مدل دسته بندی را می‌سازیم. در واقع داده‌ها را به دسته‌های چندتایی تقسیم کرده و برای آن‌ها لیبل قرار ‌دهیم. به این دسته‌ها نمونه یا object  یا data point گفته می‌شود.

 در تصویر پایین این ایجاد الگوریتم در برنامه‌نویسی کامپیوتری و نوع نتیجه برای مثال رئیس بانک نمایش داده شده.

 

  1. استفاده از آن مدل برای دسته‌بندی

در این قدم داده‌ها را وارد مدل ساخته شده ‌کنیم.

دقت کنید که اگر بخواهیم بدون استفاده از کامپیوتر هم تحلیل داده داشته باشیم هم می‌توان ازین مفاهیم استفاده کرد ولی در داده‌های با حجم زیاد کامپیوتر‌ها تحلیل داده را برای ما آسان کرده ‌اند.

 

  • پیش بینی (Prediction)

فرض کنید شما مدیر مارکتینگ یک  سایت "خانومی" که سایت فروش لوازم آرایشی بهداشتی است،هستید و نیاز دارید که در طرحی که به رئیستان ارائه میکنید دقیق مشخص کنید که هر اس ام اسی که میزنید حدودا چه میزان فروش نقدی برای شما دارد.

در واقع شما باید پیش بینی میزان فروش را انجام دهید تا طرحتان پذیرفته شود!

پیش بینی به زمان مرتبط است اما وابسته به آن نیست!

مشکلات پیش بینی و دسته بندی:

مشکل عمده این دو روش آماده‌سازی دیتا برای آن‌هاست که شامل کارهایی مثل:

 در پاک‌سازی داده باید نویز و داده‌های گم شده را حذف کنیم و آن را با داده هایی که احتمالا متناسب با باقی داده ها باشند جایگزین کنیم که به این تکنیک یکنواخت سازی یا smoothing گویند.

در آنالیز ارتباط باید چک کنیم که دو داده‌ای که فرض کردیم مرتبط اند واقعا مرتبط هستند یا نه.

منتقل کردن یا کم کردن دیتاها هم گاهی نیاز است.

نرمال‌سازی نیز برای همگام کردن داده‌های منتقل شده با باقی داده‌ها انجام ‌شود و باید در نهایت داده مورد نظر در رنج باقی داده‌ها باشد.

دقت و سرعت و مقیاس پذیری نیز از مشکلات دیگر این روش‌هاست.

 

  • رگراسیون (Regression)

رگرسیون یک تکنیک داده‌کاوی است که در آن با استفاده داده‌هایی که از پیش داریم یک رنج عددی از داده را پیش‌بینی می‌کنیم. مثلا اگربخواهیم با کمک قیمت بقیه خدمات یک شرکت، قیمت یک خدمت را حدس بزنیم می‌شود از مدل رگرسیون استفاده کرد.

رگرسیون مدل بسیار پراستفاده‌ای در صنعت برای برنامه مارکتینگ و بیزینس پلن و پیش بینی مالی و پیش بینی ترند‌های موجود در بازار است پس باید به آن توجه ویژه کرد.

سوالی که ممکن است در ذهنتان پیش بیاید این است که فرق دسته بندی که در بالا گفتیم و این مدل رگرسیون چیست؟

جفت آن‌ها  تکنیکی برای پیش بینی اند اما نکته مهم این است که رگرسیون روشی برای پیش بینی عددی است اما دسته بندی بیشتر داده‌های ععدی و یوسته است.

مثلا اگر دری به تخته خورد و گنج پیدا کردید و خواستید در شمال تهران خانه ویلایی بگیرید رگرسیون با توجه به قیمت‌های اطراف و ویژگی‌های آن خانه و قیمت قبلی‌اش، به شما مقدار قیمت خرید را حدودی می‌گوید که سرتان کلاه نرود. اما دسته بندی آن را در بخش‌های مختلف مثل نرخ دزدی و مقاومت در مقابل زلزله در پیش رو تهران و انواع امکانات دسته بندی می‌کند.

تکنیک‌های عملی رگرسیون:

ساده‌ترین  و قدیمی‌ترین مدل رگرسیون،مدل خطی است که رابطه ساده‌ای میان دو متغیر برقرار می‌کند.این مدل از رابطه

 y = mx + b پیروی می‌کند.

در وافع ما یک ارتباط تقریبا خطی بین متغییرها پیدا می‌کنیم و آن را به بقیه بسط می‌دهیم.

مثلا اگر افزایشی در میزان آدم‌های کره زمین بدهیم، نیاز به غذا به همان اندازه افزایش پیدا می‌کند. در اینجا جمعیت محور x  و غذا محور y است.

در تکنیک‌های پیشرفته‌ که در آن یک ر ابطه بین چندین متغییر تعریف می‌شود. مثلا تعریف یک رابطه بین میزان درآمد و تحصیلات و نوع مذهب با این که مکان زندگی یک فرد کجا باشد. افزایش تعداد متغیرها پیش بینی را سخت‌تر می‌کند.

در این تکنیک مهم است که دقیق بدانیم چه چیزی را قرار است پیش‌بینی کنیم و متغیرها چه هستند.

چندین نوع تکنیک رگرسیون پیشرفته وجود دارد که هر کدام اپلیکیشن خاص خود را دارند.

رگرسیون چندگانه گام به گام(stepwise): در این تکنیک ما متغیرها را به ترتیب اهمیتشان اثر می‌دهیم و از آن در پیش‌بینی استفاده می‌کنیم. ازاین روش در سرمایه‌گذاری کلان امروزه استفاده بسیار می‌شود. در آن متغیر‌های موجود در گذشته و تاثیرشان  در مورد سرمایه‌گذاری بررسی میشود تا به الگویی برای سرمایه‌گذاری آینده برسیم.

رگرسیون چندگانه سلسله مراتبی(Hierarchical): در این مدل تغییر اثر یک متغیر وابسته در چند مرحله تحت اثر چند متغیر مستقل مشاهده شود.

رگرسیون چندگانه دسته‌ای (setwise) :بسیار شبیه رگرسیون گام به گام است با این تفاوت که درآن دسته‌ای از متغییر‌ها مد نظرند به جای متغییرهای تکی.

 

  • استفاده از یک مدل جذاب:

درخت تصمیم‌گیری یکی از مدل‌هایی است که احتمالا حتی اگر اسمش را نشنیده باشید بارها خصوصا در علوم پزشکی و در پروتکل‌های درمانی آن را دیده ایم.

اخیرا هم بارها در مورد کرونا درخت‌های تصمیم‌گیری یا همان پروتکل‌های ساده تشخیص دسته بندی بیماران را استفاده کرده‌ایم.

در واقع از مدل‌های مثل درخت تصمیم‌گیری هم در دسته بندی هم در رگرسیون استفاده می‌شود و بسیار پرکاربرد است.

ویدیو زیر یک مثال از کاربرد درخت تصمیم‌گیری و تحلیل آماری استفاده‌ای از این درخت تصمیم گیری اند.

 تماشا ویدیو درخت تصمیم‌گیری از یوتیوب

 

  • توالی‌های زمانی:

در واقع حجم عظیمی از داده‌هاست که در فواصل زمانی خاص جمع‌آوری شده است.هر سازمانی در هر روز حجم عطیمی از داده ثبت می‌کند که می‌تواند به عنوان مثال عددهای مربوط به جریان درآمدی،فروش و خرید و ترافیک و هزینه اش باشد.

آنالیز سری‌های زمانی می‌تواند اطلاعات خوبی را برای تصمیم‌های بلند مدت  بیزینس‌مان بدهد.

در ادامه چند راهکار را برای استفاده از این داده‌های جمع شده در طی زمان می‌گوییم.

آنالیز ترندهای بیزینس: فقط با رسم   یک نمودار ساده زمان و دیتاها می‌شود به نتایج جالبی در خصوص بیزینس خود برسید.جتی می‌شود به کمک آنالیز سری زمانی ساده مشخص کرد که بیزینس شما به کدام سمت می‌رود و تصمیم‌هایی که نیاز است برای بهبود روند بگیرید مشخص می‌شود.  

تشخیص نقاط غیر معمول و خارج از الگوی کلی: چه نقطه خارج از نمودار برای مامطلوب باشد (درآمد بیشتر ) چه نامطلوب(هزینه زیاد) شناخت این نواحی کمک می‌کند که از عواقب ناخواسته در بیزینسمان جلوگیری کنیم.

آزمون تغییر ناگهانی/ تغییری که مورد انتطار نبوده: به کمک سری زمانی متوجه این تغییرات و نویزها می‌شویم.

پیشینی آینده:یکی از کاربرد‌های مرسوم و معمول نمودار توالی زمان،همین پیش‌بینی با استفاده از اطلاعات گذشته یک بیزنس یا بازار است.

 

  1. آنالیزهای توصیفی یا decriptive

هدف این نوع آنالیزها خلاصه سازی دیتاها و تبدیل آن‌ها به داده‌های مرتبط است.

4 تکنیک درآنالیز توصیفی

  • 1.آنالیز خوشه‌ای: آنالیز خوشه‌ای در واقع ایجاد گروه از داده‌ها بر اساس شباهت و مشخصه‌های آن‌هاست. در این نوع آنالیز  با استفاده از نوع خاص الگوریتم دیتاها را با هم گروه می‌کنند.این آنالیز به دیتاها اجازه می‌دهد قویا جزو یک خوشه باشند که به آن hard partitioning  گویند.

احتمالا با خودتان می‌گویید این چه فرقی با دسته بندی دارد؟!فرق این دو این است که در دسته بندی ما ابتدا دسته‌ها را مشخص می‌کنیم اما در خوشه‌بندی با تئجه به خود داده‌ها آن‌ها را دسته بندی می‌کنیم و ویژگی مشترک داده را مبنا قرار می‌دهیم به عبارتی خود خوشه را از داده استخراج ‌کنیم.

در یک خوشه‌بندی ایده‌آل تفاوت بین دو خوشه بسیار زیاد و شباهت بین دو دیتا در یک خوشه نیز بسیار زیاد است.

 

  • 2.آنالیز خلاصه‌سازی (Summarization)
  • در این نوع آنالیز به دنبال روشی برای خلاصه ‌کردن داده‌ها  و نتیجه‌گیری هستیم مثلا از میانگین یا انحراف از معیار که از این روش در گزارش خودکار تحلیل اکتشافی استفاده می‌شود. دراین روش می‌شود از کشف روابط تابعی در متغیرها نیز استفاده کرد.

 

  • تکنیک قوانین انجمنی(association):

پر استفاده‌ترین تکنیک داده کاوی است . در این تکنیک ما روابطی که بین مجموعه داده‌ها وجود دارد مثلا pattern های پنهان را پیدا می‌کنند. به این روش تحلیل سبد بازار نیز می‌گویند. مثلا در فروشگاه زنجیره‌ای این آنالیز بسیار پر استفاده است.مثلا با داده‌های خرید مشتریان به نظر می‌رسد که کسانی که سوسیس میگیرند به همراه آن خمیر پیتزا و نوشابه هم می‌خرند بنابراین چینش آن‌ها در فروشگاه باید متناسب با این سبد خرید باشد.

مثلا باید سوسیس و خمیر پیتزا را در یک یخچال بگذاریم یا اگر می‌خواهیم یک نوشیدنی هلو یا لیمو به همراهش بفروشیم پوستر آن را در کنارش قرار دهیم و آن را پروموت کنیم.

البته در حوزه سلامت نیز می‌شود ازین نوع آنالیز استفاده کرد و مثلا در درمان یک بیماری تحلیل اینکه چند symptom وقتی باهم میایند چه نوع درمانی مناسب آن است به این نوع آنالیز  برمی‌گردد.

 

اگر فروشگاه دارید یا به این نوع آنالیز علاقمند شده‌اید می‌توانید فصل مربوط به قوانین انجمنی را از کتاب بخوانید.

   Vijay Kotu, Bala Deshpande PhD, in Predictive Analytics and Data Mining, 2015

 

دانلود فایل پی دی اف چپتر
  • 4.آنالیز یافتن توالی (sequence discovery):

در یافتن توالی‌ها آنالیز ما بر پایه یافتن یک الگو مرتبط بین داده‌ها از آن‌ها یک توالی می‌سازیم. در واقع این آنالیز شامل شاختن یک دیتابیس برای اطلاعات دارای روابط توالی و مقایسه شباهت ها و درنهایت پیدا کردن داده گم شده است. توالی‌ها در زندگی روزمره ما در اتفاقات روزانه ، در DNAما ، اینترنت و تقریبا همه جا نقش به سزایی دارند اگر به شناسایی و استفاده از الگوریتم و آنالیز توالی‌ها علاقمندین پیشنهاد می‌کنم حتما این مقاله را بخوانید:

 

دانلود فایل پی دی اف مقاله سکانس ها

سخن آخر:

در این مقاله انواع روش‌ها یا همان الگوریتم‌های داده‌کاوی بررسی شد که به طور عمده به دو بخش توصیفی و پیش‌بینی کننده تقسیم می‌شوند و هر دو بخش را به طور کامل بررسی کردیم البته از نرم افزار‌های بسیاری برای این کار می‌توانید استفاده کنید که پیشنهاد ما برای شروع کار نرم افزارexcel آفیس است.

ولی باید دقت کرد که شناخت این روش‌ها تنها بخشی از پازل بزرگی است که باید برای این که یک داده‌پرداز بشوید یا حتی سر از data miner تان دربیاورید، بدانید پس اگر می‌خواهید تصویر پازل را کامل کنید حتما از مدل‌ها و کاربرد داده‌کاوی در رشته خودتان غافل نشوید!

 

 

 

 

درباره نویسنده

ساره شهداب

ساره شهداب

ساره هستم دانشجوی داروسازی دانشگاه علوم‌پزشکی تهران‌. ویژگی بارز من در اولین برخورد این است که پرانرژی و خوش‌خنده‌ام. از ته‌دل کار می‌کنم و بنظرم یا کاری را نباید قبول کرد، یا اگر قبولش کردی باید بهترین نتیجه را بدهد. خیلی از محیط و افراد اطرافم یادمی‌گیرم و سعی می‌کنم مطالبی که یادگرفتم و خواندم را با شما شریک شوم.

0 نظر

ارسال نظر