صبا محمدي
14th January 2010, 12:35 PM
داده كاوی
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. فرایند داده كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.
مرحله 1 : كاوش. معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیاز متغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
http://www.pcworldiran.com/ict/dm1.gif
مرحله 2:ساخت و احراز اعتبار مدل. اینمرحلهبه بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروند تاكارآییشانباهم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله 3 : بهره برداری. آخرینمرحلهمدلیراكهد رمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظاررا تولید نماید.داده كاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجوددارد.دادهكاویبی تربهبرنامههایكاربر ی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. فرایند داده كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.
مرحله 1 : كاوش. معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیاز متغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
http://www.pcworldiran.com/ict/dm1.gif
مرحله 2:ساخت و احراز اعتبار مدل. اینمرحلهبه بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروند تاكارآییشانباهم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله 3 : بهره برداری. آخرینمرحلهمدلیراكهد رمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظاررا تولید نماید.داده كاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجوددارد.دادهكاویبی تربهبرنامههایكاربر ی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .