تصور کنید که شما صاحب معدنی از الماس در آفریقا هستید که میخواهید از این معدن استخراج کنید و پول هنگفتی به جیب بزنید. ولی تجربهای در آن ندارید.دارایی شما ابزارهایی بر روی زمین و الماسهای زیبایی است که در سنگ گیر افتادهاند.حال شما دو راه دارید یا با ابزار به جان سنگ بیفتید و خودتان هم علیل و ناتوان در نهایت به الماسها نرسید و یا اینکه افراد محلی را که دقیقا انواع روشهای mining(استخراج) را میدانند اعتماد کنید.آنها دقیقا میدانند که روشهای استخراج درست الماسهای شما و برش درست آن چیست که باعث شود جیب شما پر شود!
دنیای امروز دقیقا همان معدن الماس آفریقا است! و این الماسها همان اطلاعاتی هستند که در دنیای اطراف ما وجود دارند. اما کسانی که data mining و روشهایش را میدانند قادرند که تصویری با معنی از این اطلاعات بسازند.
در این مقاله باهم روشهای استخراج الماس(dataهای مهم حوزه کاریخودمان) را یاد میگیریم. اگر هم لازم باشد خودمان بیل و کلنگ برمیداریم و خیلی اصولی به جان معدن اطلاعات میافتیم!
پیش نیاز:مقالهی مفهوم دیتا ماینینگ در دنیای سلامت چیست؟ |
داده کاوی در مقالهای که در بالا معرفی شد به طور کامل توضیح داده شده اما به جهت یادآوری:
داده کاوی فرایندی است که در آن با استفاده از کامپیوتر حجم زیادی از داده را تبدیل به دانش میکنند. در واقع همان پلی است که میان دادههای خام و دانش ارتباط برقرار میکند. مثلا در وزارت بهداشت طرحی تحت عنوان کمپین آگاهی بخشی دیابت در سراسر کشور ارائه میشود که در این کمپین به وسیله اپلیکیشنی دادههای افراد درگیر با این بیماری جمع آوری میشود. با داده کاوی این اطلاعات میشود به طرحی جامع برای پیشگیری و درمان این بیماری ارائه داد و یا حتی به روشهای جدید دست یافت.
6گام اساسی در فرایند داده کاوی:
که برای بکارگیری روند بالا در مرحله ابزارهایی وجود دارد. شناخت و یادگیری کاربرد انواع متدdata mining یکی از این ابزار هاست.
انواع روشهای آنالیز در دادهکاوی:
آنالیزهای داده کاوی به طور کلی به دوبخش تقسیم میشوند.
- آنالیزهای predictive
- آنالیزهای descriptive
-
آنالیزهای پیشبینیکننده(predictive)
همانطوری که از اسمشان پیداست، در این نوع آنالیز از دادهها در جهت پیشبینی برای پروژههای پیش رو استفاده میشود.
مثلا میشود از اطلاعات فروش موجود در یک بازار بزرگ استفاده کرد تا به وسیله تحلیلهای داده کاوی میزان فروش محصول جدیدش را پیشبینی کرد که بتوان تصمیم گرفت که اصلا این محصول ارزش سرمایهگذاری دارد یا نه؟
4 تکنیک در آنالیز پیشبینیکننده:
- دسته بندی (Classification)
تصور کنید که شما مدیر یک بانک خصوصی هستید و میخواهید مشتریانی که ریسک بالایی برای برنگرداندن وام دارند از آنهایی که همیشه خوش حساب بودند را جدا کنید یا مثلا مدیر مارکتینگ یک شرکت فروش لوازم پزشکی هستید و میخواهید مشتریانی که احتمال خریدن محصولاتتان را دارند از بقیه جدا کنید.
در واقع شما به دنبال دسته بندی اطلاعات مشتریانتان هستید که بتوانید بسنجید آنها چند مرده حلاجاند!
مراحل دستهبندی در دادهکاوی:
- ایجاد مدلی برای دستهبندی
به این مرحله فاز یادگیری نیز گفته میشود. در این مرحله به کمک الگوریتمی که برای دستهبندی قرار میدهیم مدل دسته بندی را میسازیم. در واقع دادهها را به دستههای چندتایی تقسیم کرده و برای آنها لیبل قرار دهیم. به این دستهها نمونه یا object یا data point گفته میشود.
در تصویر پایین این ایجاد الگوریتم در برنامهنویسی کامپیوتری و نوع نتیجه برای مثال رئیس بانک نمایش داده شده.
- استفاده از آن مدل برای دستهبندی
در این قدم دادهها را وارد مدل ساخته شده کنیم.
دقت کنید که اگر بخواهیم بدون استفاده از کامپیوتر هم تحلیل داده داشته باشیم هم میتوان ازین مفاهیم استفاده کرد ولی در دادههای با حجم زیاد کامپیوترها تحلیل داده را برای ما آسان کرده اند.
- پیش بینی (Prediction)
فرض کنید شما مدیر مارکتینگ یک سایت "خانومی" که سایت فروش لوازم آرایشی بهداشتی است،هستید و نیاز دارید که در طرحی که به رئیستان ارائه میکنید دقیق مشخص کنید که هر اس ام اسی که میزنید حدودا چه میزان فروش نقدی برای شما دارد.
در واقع شما باید پیش بینی میزان فروش را انجام دهید تا طرحتان پذیرفته شود!
پیش بینی به زمان مرتبط است اما وابسته به آن نیست!
مشکلات پیش بینی و دسته بندی:
مشکل عمده این دو روش آمادهسازی دیتا برای آنهاست که شامل کارهایی مثل:
در پاکسازی داده باید نویز و دادههای گم شده را حذف کنیم و آن را با داده هایی که احتمالا متناسب با باقی داده ها باشند جایگزین کنیم که به این تکنیک یکنواخت سازی یا smoothing گویند.
در آنالیز ارتباط باید چک کنیم که دو دادهای که فرض کردیم مرتبط اند واقعا مرتبط هستند یا نه.
منتقل کردن یا کم کردن دیتاها هم گاهی نیاز است.
نرمالسازی نیز برای همگام کردن دادههای منتقل شده با باقی دادهها انجام شود و باید در نهایت داده مورد نظر در رنج باقی دادهها باشد.
دقت و سرعت و مقیاس پذیری نیز از مشکلات دیگر این روشهاست.
- رگراسیون (Regression)
رگرسیون یک تکنیک دادهکاوی است که در آن با استفاده دادههایی که از پیش داریم یک رنج عددی از داده را پیشبینی میکنیم. مثلا اگربخواهیم با کمک قیمت بقیه خدمات یک شرکت، قیمت یک خدمت را حدس بزنیم میشود از مدل رگرسیون استفاده کرد.
رگرسیون مدل بسیار پراستفادهای در صنعت برای برنامه مارکتینگ و بیزینس پلن و پیش بینی مالی و پیش بینی ترندهای موجود در بازار است پس باید به آن توجه ویژه کرد.
سوالی که ممکن است در ذهنتان پیش بیاید این است که فرق دسته بندی که در بالا گفتیم و این مدل رگرسیون چیست؟
جفت آنها تکنیکی برای پیش بینی اند اما نکته مهم این است که رگرسیون روشی برای پیش بینی عددی است اما دسته بندی بیشتر دادههای ععدی و یوسته است.
مثلا اگر دری به تخته خورد و گنج پیدا کردید و خواستید در شمال تهران خانه ویلایی بگیرید رگرسیون با توجه به قیمتهای اطراف و ویژگیهای آن خانه و قیمت قبلیاش، به شما مقدار قیمت خرید را حدودی میگوید که سرتان کلاه نرود. اما دسته بندی آن را در بخشهای مختلف مثل نرخ دزدی و مقاومت در مقابل زلزله در پیش رو تهران و انواع امکانات دسته بندی میکند.
تکنیکهای عملی رگرسیون:
سادهترین و قدیمیترین مدل رگرسیون،مدل خطی است که رابطه سادهای میان دو متغیر برقرار میکند.این مدل از رابطه
y = mx + b پیروی میکند.
در وافع ما یک ارتباط تقریبا خطی بین متغییرها پیدا میکنیم و آن را به بقیه بسط میدهیم.
مثلا اگر افزایشی در میزان آدمهای کره زمین بدهیم، نیاز به غذا به همان اندازه افزایش پیدا میکند. در اینجا جمعیت محور x و غذا محور y است.
در تکنیکهای پیشرفته که در آن یک ر ابطه بین چندین متغییر تعریف میشود. مثلا تعریف یک رابطه بین میزان درآمد و تحصیلات و نوع مذهب با این که مکان زندگی یک فرد کجا باشد. افزایش تعداد متغیرها پیش بینی را سختتر میکند.
در این تکنیک مهم است که دقیق بدانیم چه چیزی را قرار است پیشبینی کنیم و متغیرها چه هستند.
چندین نوع تکنیک رگرسیون پیشرفته وجود دارد که هر کدام اپلیکیشن خاص خود را دارند.
رگرسیون چندگانه گام به گام(stepwise): در این تکنیک ما متغیرها را به ترتیب اهمیتشان اثر میدهیم و از آن در پیشبینی استفاده میکنیم. ازاین روش در سرمایهگذاری کلان امروزه استفاده بسیار میشود. در آن متغیرهای موجود در گذشته و تاثیرشان در مورد سرمایهگذاری بررسی میشود تا به الگویی برای سرمایهگذاری آینده برسیم.
رگرسیون چندگانه سلسله مراتبی(Hierarchical): در این مدل تغییر اثر یک متغیر وابسته در چند مرحله تحت اثر چند متغیر مستقل مشاهده شود.
رگرسیون چندگانه دستهای (setwise) :بسیار شبیه رگرسیون گام به گام است با این تفاوت که درآن دستهای از متغییرها مد نظرند به جای متغییرهای تکی.
- استفاده از یک مدل جذاب:
درخت تصمیمگیری یکی از مدلهایی است که احتمالا حتی اگر اسمش را نشنیده باشید بارها خصوصا در علوم پزشکی و در پروتکلهای درمانی آن را دیده ایم.
اخیرا هم بارها در مورد کرونا درختهای تصمیمگیری یا همان پروتکلهای ساده تشخیص دسته بندی بیماران را استفاده کردهایم.
در واقع از مدلهای مثل درخت تصمیمگیری هم در دسته بندی هم در رگرسیون استفاده میشود و بسیار پرکاربرد است.
ویدیو زیر یک مثال از کاربرد درخت تصمیمگیری و تحلیل آماری استفادهای از این درخت تصمیم گیری اند.
تماشا ویدیو درخت تصمیمگیری از یوتیوب |
- توالیهای زمانی:
در واقع حجم عظیمی از دادههاست که در فواصل زمانی خاص جمعآوری شده است.هر سازمانی در هر روز حجم عطیمی از داده ثبت میکند که میتواند به عنوان مثال عددهای مربوط به جریان درآمدی،فروش و خرید و ترافیک و هزینه اش باشد.
آنالیز سریهای زمانی میتواند اطلاعات خوبی را برای تصمیمهای بلند مدت بیزینسمان بدهد.
در ادامه چند راهکار را برای استفاده از این دادههای جمع شده در طی زمان میگوییم.
آنالیز ترندهای بیزینس: فقط با رسم یک نمودار ساده زمان و دیتاها میشود به نتایج جالبی در خصوص بیزینس خود برسید.جتی میشود به کمک آنالیز سری زمانی ساده مشخص کرد که بیزینس شما به کدام سمت میرود و تصمیمهایی که نیاز است برای بهبود روند بگیرید مشخص میشود.
تشخیص نقاط غیر معمول و خارج از الگوی کلی: چه نقطه خارج از نمودار برای مامطلوب باشد (درآمد بیشتر ) چه نامطلوب(هزینه زیاد) شناخت این نواحی کمک میکند که از عواقب ناخواسته در بیزینسمان جلوگیری کنیم.
آزمون تغییر ناگهانی/ تغییری که مورد انتطار نبوده: به کمک سری زمانی متوجه این تغییرات و نویزها میشویم.
پیشینی آینده:یکی از کاربردهای مرسوم و معمول نمودار توالی زمان،همین پیشبینی با استفاده از اطلاعات گذشته یک بیزنس یا بازار است.
- آنالیزهای توصیفی یا decriptive
هدف این نوع آنالیزها خلاصه سازی دیتاها و تبدیل آنها به دادههای مرتبط است.
4 تکنیک درآنالیز توصیفی
- 1.آنالیز خوشهای: آنالیز خوشهای در واقع ایجاد گروه از دادهها بر اساس شباهت و مشخصههای آنهاست. در این نوع آنالیز با استفاده از نوع خاص الگوریتم دیتاها را با هم گروه میکنند.این آنالیز به دیتاها اجازه میدهد قویا جزو یک خوشه باشند که به آن hard partitioning گویند.
احتمالا با خودتان میگویید این چه فرقی با دسته بندی دارد؟!فرق این دو این است که در دسته بندی ما ابتدا دستهها را مشخص میکنیم اما در خوشهبندی با تئجه به خود دادهها آنها را دسته بندی میکنیم و ویژگی مشترک داده را مبنا قرار میدهیم به عبارتی خود خوشه را از داده استخراج کنیم.
در یک خوشهبندی ایدهآل تفاوت بین دو خوشه بسیار زیاد و شباهت بین دو دیتا در یک خوشه نیز بسیار زیاد است.
- 2.آنالیز خلاصهسازی (Summarization)
- در این نوع آنالیز به دنبال روشی برای خلاصه کردن دادهها و نتیجهگیری هستیم مثلا از میانگین یا انحراف از معیار که از این روش در گزارش خودکار تحلیل اکتشافی استفاده میشود. دراین روش میشود از کشف روابط تابعی در متغیرها نیز استفاده کرد.
- تکنیک قوانین انجمنی(association):
پر استفادهترین تکنیک داده کاوی است . در این تکنیک ما روابطی که بین مجموعه دادهها وجود دارد مثلا pattern های پنهان را پیدا میکنند. به این روش تحلیل سبد بازار نیز میگویند. مثلا در فروشگاه زنجیرهای این آنالیز بسیار پر استفاده است.مثلا با دادههای خرید مشتریان به نظر میرسد که کسانی که سوسیس میگیرند به همراه آن خمیر پیتزا و نوشابه هم میخرند بنابراین چینش آنها در فروشگاه باید متناسب با این سبد خرید باشد.
مثلا باید سوسیس و خمیر پیتزا را در یک یخچال بگذاریم یا اگر میخواهیم یک نوشیدنی هلو یا لیمو به همراهش بفروشیم پوستر آن را در کنارش قرار دهیم و آن را پروموت کنیم.
البته در حوزه سلامت نیز میشود ازین نوع آنالیز استفاده کرد و مثلا در درمان یک بیماری تحلیل اینکه چند symptom وقتی باهم میایند چه نوع درمانی مناسب آن است به این نوع آنالیز برمیگردد.
اگر فروشگاه دارید یا به این نوع آنالیز علاقمند شدهاید میتوانید فصل مربوط به قوانین انجمنی را از کتاب بخوانید.
Vijay Kotu, Bala Deshpande PhD, in Predictive Analytics and Data Mining, 2015,
دانلود فایل پی دی اف چپتر |
- 4.آنالیز یافتن توالی (sequence discovery):
در یافتن توالیها آنالیز ما بر پایه یافتن یک الگو مرتبط بین دادهها از آنها یک توالی میسازیم. در واقع این آنالیز شامل شاختن یک دیتابیس برای اطلاعات دارای روابط توالی و مقایسه شباهت ها و درنهایت پیدا کردن داده گم شده است. توالیها در زندگی روزمره ما در اتفاقات روزانه ، در DNAما ، اینترنت و تقریبا همه جا نقش به سزایی دارند اگر به شناسایی و استفاده از الگوریتم و آنالیز توالیها علاقمندین پیشنهاد میکنم حتما این مقاله را بخوانید:
دانلود فایل پی دی اف مقاله سکانس ها |
سخن آخر:
در این مقاله انواع روشها یا همان الگوریتمهای دادهکاوی بررسی شد که به طور عمده به دو بخش توصیفی و پیشبینی کننده تقسیم میشوند و هر دو بخش را به طور کامل بررسی کردیم البته از نرم افزارهای بسیاری برای این کار میتوانید استفاده کنید که پیشنهاد ما برای شروع کار نرم افزارexcel آفیس است.
ولی باید دقت کرد که شناخت این روشها تنها بخشی از پازل بزرگی است که باید برای این که یک دادهپرداز بشوید یا حتی سر از data miner تان دربیاورید، بدانید پس اگر میخواهید تصویر پازل را کامل کنید حتما از مدلها و کاربرد دادهکاوی در رشته خودتان غافل نشوید!
0 نظر