خودتان را در معدنی از طلا تصور کنید. شاید در نگاه اول آنقدر شگفت زده شوید و در رویاهایتان با ثروتی که کسب کردید خیالبافی کنید. اما تا زمانی که ابزارهای لازم برای استخراج طلای خالص از معدنی که در آن ناخالصی های زیادی وجود دارد را نداشته باشید، هنوز هیچ طلای ارزشمندی در چنته ندارید.
همین اتفاق در دنیای محتوا نیز اتفاق میافتد. یکی از چالشهایی که امروزه بشر را درگیر کرده است، دستیابی به محتوای ارزشمند و تحلیل دادهها در دنیای انفجار محتوا است. دستیابی به این اطلاعات، همانند استخراج طلای خالص از معدن اطلاعات، نیازمند یکسری ابزار است. به مجموعه ابزارهایی که به ما برای استخراج مطالب ارزشمند و نتیجهگیریهای پربازده کمک میکند، دیتا ماینینگ میگویند.
با اینکه دیتا ماینینگ تا سال 1990 در قالب یک تخصص بیان نشده بود اما بشر تا قبل از این زمان نیز برای کشف اتصالات پنهان بین دادهها و پیشبینی روندهای آینده از دیتا ماینینگ استفاده میکرد. تا این که در سال 1990 از ترکیب سه رشتهی علمی آمار، هوش مصنوعی و MACHINE LEARNING دیتا ماینینگ پدید آمد.
برای یادگیری هوش مصنوعی به عنوان پایه ی علم دیتا ماینینگ، مجموعه مقالات هوش مصنوعی را از دست ندهید.
یک پارادوکس بین دنیای قبل از دیتا ماینینگ و بعد از دیتا ماینینگ این است که در روشهای دستی گذشته، زیاد بودن و پیچیدگی اطلاعات، تحلیل آنها را با دشواری روبرو میکرد. اما در دنیای دیتا ماینینگ هرچقدر که دادههای جمعآوری شده بیشتر و پیچیدهتر باشد، امکان کشف ارتباط بین اطلاعات بیشتر میشود.
نمیتوان برای دیتا ماینینگ حد و مرزی مشخص کرد و آن را به چند علم محدود کرد. اما برای آنکه بتوانیم نگاه دقیقتر و کاربردیتری به این علم داشته باشیم، بهتر است با انتخاب یک حوزهی خاص تعاریف خود را در آن حوزه استفاده کنیم. بههمین منظور در این مقاله پروسهی 6 مرحلهای دیتا ماینینگ را از دیدگاه سلامت بررسی میکنیم.
دیتا ماینینگ در حوزهی سلامت با استفاده از تکنیکهای مختلف آنالیز و مدلسازی برای یافتن الگوها و روابط دادهها، در پیشبینی و حل کثیری از مشکلات فرایند تولید دارو، از جمله تحقیق و توسعه، آزمایشات بالینی و بازاریابی کمک میکند.
برای اینکه با نقش دیتا ماینینگ در بازاریابی دارویی آشنا شوید به شما پیشنهاد میکنم حتما وبینار.....از مدرسهی مارکت ریسرچ با موضوع هوش مصنوعی و تحقیقات بازار را مشاهده کنید.
اهمیت دیتا ماینینگ در حل مشکلات حوزهی سلامت به اندازهای بود که 16 سال پیش پیتر دراکر به این موضوع اشاره کرد که:
صنعت داروسازی یک صنعت اطلاعات است - نه یک صنعت تولیدی و حتی یک صنعت بهداشت.
بیایید با شرح یک سناریو علت این سخن پیتر دراکر را بهتر درک کنیم:
یک مسابقه برای پیشبینی فعالیت بیولوژیکی مولکول های آلی برای رسیدن به یک سایت هدف از طریق ترومبین برگزار شد. پیشبینیها بر اساس حدود 500 مگابایت از دادهها، حدود 1900 مولکول آلی بود که هر کدام بیش از 130000 خصوصیت را بروز میدادند. از این تعداد خصوصیات تنها 2.2 درصد از آنها فعال بودند که باید تشخیص داده میشوند.
تصور کنید برای طراحی یک دارو با این حجم از اطلاعات روبرو هستید. مسلما تحلیل این سری اطلاعات نیاز به یک صنعت اطلاعاتی هوشمند دارد تا بتواند ما را به سمت مسیر درست هدایت کند. بنابراین دیتا ماینینگ در این زمینه با طی کردن یک مسیر شش مرحله میتواند ما را به سمت مقصد درست هدایت کند. این شش گام که به CRISP-DM معروف هستند را در ادامه معرفی خواهیم کرد.
گام اول.درک کسب و کار:
- ابتدا لازم است اهداف تجارت را به روشنی درک کرده و بدانید نیازهای کسب و کار شما چیست.
- با پیدا کردن منابع، مفروضات، محدودیتها و سایر عوامل، وضعیت فعلی خود را ارزیابی کنید.
- متناسب با اهداف تجاری و موقیعت فعلی، اهداف داده کاوی را ایجاد کنید تا بتواند شما را از وضعیت فعلی به وضعیت مطلوب برساند.
- متناسب با اهداف داده کاوی، یک برنامهی مناسب که شما را به هدفتان برساند انتخاب کنید.
- درک داده:
- جمعآوری دادههای اولیه از منابع داده موجود و انجام برخی فعالیتهای مهم مانند بار داده و ادغام داده برای دستیابی به موفقیت
- بررسی و گزارش ویژگیهای ناخالص دادههای بدست آمده
- بررسی داده با با پرداختن به سوالات داده کاوی، پرسوجو، گزارش دهی و تجسم داده
از جمله سوالاتی که در مرحلهی آخر درک داده پرسیده میشود میتوان به موارد زیر اشاره کرد:
؟آیا دادههای به دست آمده کامل است؟
؟آیا در دادههای خریداری شده مقادیر گمشدهای وجود دارد که باید کیفیت آن بررسی گردد؟
برای مثال داده های مربوط به دارو در دهها تا صدها پایگاه داده با طراحی بسیار متفاوت و مطابق با استانداردهای مختلف، توزیع می شوند و در سیستم های مختلف مدیریت پایگاه داده نیز ذخیره میشوند. این موضوع تجزیه و تحلیل دادهها را بسیار دشوار میکند. بهطوریکه میلیونها دلار برای تولید خلاصه ایمنی درخواست شده هزینه می شود.
دادهکاوی این شرکت را قادر می سازد که به سرعت دادهها را کشف کرده و فاکتورهای نامزدی مربوط به دارو و بیماران را که نگرانی نظارتی ایجاد کرده، شناسایی کند.
پس از ایجاد دیتابیس داده کاوی، زمان اکتشاف و تجسم دادهها است. تجسم دادهها غالباً بینشهایی را برای کمک به ساختن مدلهای پیشبینی بهتر به دست میآورد. توجه داشته باشید که حتی یک تجسم خوب برای تفسیر، نیاز به آموزش و تجربه دارد.
- تهیه اطلاعات:
تهیه داده به طور معمول حدود 90٪ از زمان پروژه را مصرف می کند. نتیجه مرحله آماده سازی دادهها، مجموعه دادهی نهایی است. پس از شناسایی منابع موجود، آنها باید به فرم مورد نظر انتخاب، تمیز، ساخته و فرمت شوند. وظیفه اکتشاف دادهها در عمق بیشتر ممکن است در طی این مرحله انجام شود تا الگوهای کسب و کار را بهطور واضحتری متوجه شوید.
البته با توجه به ماهیت سلامت، ممکن است نتایج این مرحله با واقعیت کمی متفاوت باشد. چرا که در حالت ایدهآل، شما تمام ویژگیها را به خورد ابزار داده کاوی میدهید و اجازه میدهید تا تعیین کند که بهترین پیشبینیکنندهها کدام هستند.
در این میان شاید برخی از ویژگیها را بهدلیل نامربوط بودن در نظر نگیریم اما همین ویژگیها وقتی بهصورت ترکیبی استفاده شوند، میتوانند بر روی پیشبینی نهایی اثرگذار باشند. برای مثال BMI به عنوان یک شاخصی که در آن اهمیت قد و وزن مشخص میشود، میتواند در پیشبینی اثربخشی دارو مهم باشد.
4.مدل سازی:
- انتخاب تکنیکهای مدل سازی
- ایجاد سناریوی آزمون برای تایید کیفیت و اعتبار مدل
- ایجاد یک یا چند مدل در مجموعه دادههای آماری
5.ارزیابی:
در مرحله ارزیابی، نتایج مدل باید در چارچوب اهداف تجاری در مرحله اول ارزیابی شود. در این مرحله با توجه به الگوهای جدیدی که در نتایج مدل یا سایر عوامل کشف شده است، ممکن است الزامات جدید کسب و کار مطرح شود.
به یاد داشته باشید در عمل، دادههایی که مدلسازی روی آنها صورت میگیرد با دادههای اولیه تفاوت قابل توجهی دارد و ارزیابی فقط مربوط به دادههایی است که در مدلسازی استفاده شدهاند.
6.استقرار:
دانش یا اطلاعاتی که از طریق فرآیند داده کاوی بدست میآید، باید به گونهای ارائه شود که ذینفعان بتوانند از آن استفاده کنند. براساس الزامات تجاری، مرحله استقرار میتواند به سادگی ایجاد یک گزارش یا به پیچیدگی یک فرآیند داده کاوی قابل تکرار در سراسر سازمان باشد.
در مرحله استقرار ، برنامه هایی برای استقرار، نگهداری و نظارت برای اجرا و همچنین پشتیبانیهای آینده ایجاد می شود. از نظر پروژه، گزارش نهایی پروژه خلاصهای از تجربیات پروژه و بررسی پروژه است تا ببیند چه نیازی به بهبود دروس آموخته شده ایجاد شده است.
به عنوان مثال ، هنگامی که میآموزیم که چگونه افراد به یک دارو پاسخ میدهند، ممکن است از یک مدل تعاملی استفاده کنیم تا ایمنترین و مؤثرترین دارو برای تجویز برای آن فرد تعیین شود.
کلام آخر:
به یاد داشته باشید دیتا ماینینگ یک چوب جادویی نیست که بتواند درستترین راهحل را در اختیار شما قرار دهد. شما هنوز هم نیاز دارید تخصص خود را بهخوبی بشناسید، دادههای خود را بشناسید و دیتا ماینینگ تنها ابزاری است تا بتوانید تحلیل دادههایتان را بهتر درک کنید. بنابراین به شما پیشنهاد میکنم حالا که یک دید کلی نسبت به مفهوم دیتا ماینینگ پیدا کردید، با مطالعهی سری مقالات بعدی دیتا ماینینگ، بر این موضوع تسلط یابید و آن را به یک ابزار کاربردی در کسبوکار خود تبدیل کنید.
0 نظر