آبجی
30th July 2010, 02:07 AM
داده کاوی چیست؟
حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟
موضوع مقاله: آموزش الکترونیک
حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟
در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند.
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند .
امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معنی کنکاش داده های موجود در پایگاه داده و انجام تحلیل های مختلف بر روی آن به منظور استخراج اطلاعات می باشد.
داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های کسب وکار و بازار) صورت میگیرد و یافتههابابهکارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده کاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :
"کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند"
فرایند داده کاوی شامل سه مرحله می باشد : 1. کاوش اولیه 2. ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید 3. بهره برداری.
مرحله 1 : کاوش معمولااینمرحله با آماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههایی از رکوردهاباحجمعظیمیاز متغییرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهای پیش بینی ساده یا مدلهایآماریوگرافیکی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
مرحله 2:ساخت و احراز اعتبار مدل اینمرحلهبه بررسیمدلهای مختلف و گزینش بهترین مدل با توجه به کارآیی پیشبینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیکهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یکسانبهکارمیروند تاکارآییشانباهم مقایسهشود ،سپس مدلی کهبهترین کارآیی راداشته باشد، انتخاب میشود.اینتکنیکها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning
مرحله 3 : بهره برداری آخرینمرحلهمدلیراکهد رمرحله قبلانتخابشده است، در دادههایجدیدبه کارمیگیردتا پیشبینیهایخروجیهای مورد انتظاررا تولید نماید.داده کاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده کاوی و EDA وجوددارد.دادهکاویبی تر به برنامه های کاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده کاوی کمتر با شناسایی روابط بین متغیرها سروکار دارد .
مفاهیم اساسی در داده کاوی Bagging: این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،یک رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود که درخت های مختلف آنرا پیش بینی کرده اند . Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به کار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد . Meta-Learning : این مفهوم برای ترکیب پیش بینیهای حاصل از چند مدل به کار میرود.و هنگامی که انواع مدلهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی کرده اند.تجربه نشان میدهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.
حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟
موضوع مقاله: آموزش الکترونیک
حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟
در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند.
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند .
امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معنی کنکاش داده های موجود در پایگاه داده و انجام تحلیل های مختلف بر روی آن به منظور استخراج اطلاعات می باشد.
داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های کسب وکار و بازار) صورت میگیرد و یافتههابابهکارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده کاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :
"کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند"
فرایند داده کاوی شامل سه مرحله می باشد : 1. کاوش اولیه 2. ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید 3. بهره برداری.
مرحله 1 : کاوش معمولااینمرحله با آماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههایی از رکوردهاباحجمعظیمیاز متغییرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهای پیش بینی ساده یا مدلهایآماریوگرافیکی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
مرحله 2:ساخت و احراز اعتبار مدل اینمرحلهبه بررسیمدلهای مختلف و گزینش بهترین مدل با توجه به کارآیی پیشبینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیکهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یکسانبهکارمیروند تاکارآییشانباهم مقایسهشود ،سپس مدلی کهبهترین کارآیی راداشته باشد، انتخاب میشود.اینتکنیکها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning
مرحله 3 : بهره برداری آخرینمرحلهمدلیراکهد رمرحله قبلانتخابشده است، در دادههایجدیدبه کارمیگیردتا پیشبینیهایخروجیهای مورد انتظاررا تولید نماید.داده کاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده کاوی و EDA وجوددارد.دادهکاویبی تر به برنامه های کاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده کاوی کمتر با شناسایی روابط بین متغیرها سروکار دارد .
مفاهیم اساسی در داده کاوی Bagging: این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،یک رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود که درخت های مختلف آنرا پیش بینی کرده اند . Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به کار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد . Meta-Learning : این مفهوم برای ترکیب پیش بینیهای حاصل از چند مدل به کار میرود.و هنگامی که انواع مدلهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی کرده اند.تجربه نشان میدهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.