روابط بین آمار و داده کاوي

, , پیغام بگذارید

رابطه بین داده کاوی وآمار

داده­ کاوي اساسا یک رشتۀ کاربردي است و یک داده کاو باید از رو شهاي آماري درك خوبی داشته باشد. در داده کاوي تلاش میشود بین آمار و علوم رایانه اي رابطه­اي برقرار گردد. برقراري این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیرواضح و دشوار بودن تبدیل مفاهیم نظري به الگوریتم هاي رایانه اي در ادبیات آماري و به دلیل وجود الگوریتمهاي فراوان در ادبیات رایانه اي دشوار است. لذا داشتن درکی درست از مدلسازي و الگوریتمهاي محاسباتی براي کا رهاي داده کاوي ضروري است.

روابط در داده کاوي غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سريهاي زمانی، خوشه ها، رده بنديها، گرافها و غیره ارائه میشوند. در داده کاوي نیز همانند آمار غالباً داده هایی که تحلیل میشوند، نمونه اي از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه اي حجیم مواجه هستیم. در هنگام کار با مجموعه داده هاي حجیم مشکلات تازه اي بروز میکند.

برخی از این مشکلات به نحوه ذخیره سازي یا فراخوانی داده ها مربوط میشود و برخی دیگر مربوط به مسائلی مانند نحوة تحلیل داده ها در زمانی مناسب و استخراج الگو ها و مدلهاي حاکم بر داده ها است [5]. به طور کلی فرآیند کاوش الگوها، مدلها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:

  1. معین ساختن طبیعت و ساختار مورد نظر
  2. تصمیم گیري در مورد میزان برازش نمایشهاي متفاوت به داده ها، یعنی انتخاب یک تابع امتیاز
  3. اتخاذ یک فرآیند الگوریتمی براي بهینه سازي تابع امتیاز
  4. تصمیم گیري در مورد اصول مدیریت داده ها براي اجراي موثر الگوریتم

با توجه به اینکه مد لها و الگوها، توابع امتیاز، روشهاي بهینه سازي و راهکارهاي مدیریت داده ها چهار مولفه اصلی الگوریتمهاي داده کاوي را تشکیل میدهند، با توجه به اینکه ماهیت داده ها در آمار با داده کاوي متفاوت است، داده کاوي به برخی از رو ش هاي آماري که داراي ویژگی هاي خاصی میباشند توجه بیشتري نشان میدهد. پارزن براي آن دسته از رو شهاي آماري که مورد توجه داده کاوها قرار دارند، نام روش هاي کاوش آماري را پیشنهاد نموده است. یکی از ویژگی هاي مورد توجه رو شهاي آماري در داده کاوي، سادگی تعبیر آ نها است. از این رو به استفاده از مد لهاي نسبتاً ساده و قابل تعبیر مانند گراف ها گرایش زیادي وجود دارد. در داده کاوي مواردي که در آ نها با تعداد بسیار زیادي متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوي یک فرآیند اکتشافی و تکراري است به این معنی که در خلال تحلیل داده ها اطلاعات جدید کشف میشوند و فرضیه هاي قبلی اصلاح و فرضیه هاي جدید ارائه میشوند و این کار ممکن است با داده هاي زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش هایی با کارایی محاسباتی بالا، تحلیل هاي محاسباتی و تحلیل هاي تقریبی، مورد توجه خاص داده کاوي هستند. تاکید بیشتر داده کاوي بر بعضی رو شهاي آماري، به معنی عدم استفاده از سایر روش هاي آماري نیست و در عمل از طیف گستر ده­اي از روش هاي آماري براي تحلیل داده ها استفاده میشود [6].

آمار و داده کاوي هر دو با روش هاي تحلیل و مدلبندي داده ها مرتبط میباشند. بنابراین اشتراك زیادي بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سوال اینکه “داده کاوي چیست؟” بیان میکند که “همان آمار است، اما با یک نام خیلی بهتر”.

همانطور که گفتیم یکی از رشته هاي مورد استفاده در داده کاوي آمار میباشد. بر هم کنش این دو رشته سبب به وجود آمدن موضوعات فراوان تحقیقاتی شده است و مورد علاقه بسیاري از آماردانها قرار گرفته است.

براي یک مدت طولانی آماردا نها به داده کاوي به عنوان یک مترادفی از صید داده ها[1]، لایروبی داده ها[2] و دستکاري داده ها مطرح بوده است. در تمامی این موارد داده کاوي داراي یک معناي ضمنی منفی است.

یک تفاوت در نوع داده ها است. آماردا نها با “داده هاي دست اول” که براي تحقیق درستی فر ضهاي خاصی جمع آوري و تولید شده اند، کار میکنند. اما داده کاوها با “تحلیل داده هاي دست دوم”  که اغلب از منابع مختلفی گردآوري شده اند، کار میکنند. منظور پیدا کردن وقایع مورد علاقه و اطلاعات مفیدي است، که در داده ها مخفی شده اند و اغلب با اهداف ابتدایی که داده ها بخاطر آن جمع آوري شده اند، رابطه اي ندارند.

از طرفی داده کاوي با حجم وسیعی از داده ها سر و کار دارد و همچنین بعضی از پایگاه داده ها ساختار مناسب داده هاي آماري را ندارند. جهت درك بهتر و کاملتر تفاوت آمار و داده کاوي موضوع در زیر تشریح شده است.

حجم داده ها

آمار: حجم داده ها کوچک و متوسط.

داده کاوي: حجم داده ها بزرگ.

نوع داده ها

آمار: داده ها براي آزمون یک مدل یا پاسخ دادن به یک سوال خاص جمع آوري شده اند (داده هاي دست اول).

1- مطالعه کنتر لهاي موردي.

2- طرح آزمایشها.

3- بررسی نظر خواهی.

4- مطالعه مشاهده اي.

داده کاوي: داده ها به طور الکترونیکی براي استفاده هاي ممکن آ ینده نگهدار ي می شوند (داده هاي دست دوم).

1- داده هاي تبادلات تجاري.

2- داده هاي ترافیک اینترنت.

3- داده هاي مکالمات تلفنی.

4- داده هاي پزشکی.

پردازش داده ها

آمار: رو شهاي دستی.

پردازش داده ها توسط انسان به کمک کامپیوتر صورت میگیرد.

داده کاوي: رو شهاي قویاٌ خودکار.

پردازش داده ها توسط الگوریتمهاي کامپیوتري با کمک انسان صورت میگیرد.

وظایف معمول

آمار:

1- برازش مدل.

2- آزمون مدل.

3- فواصل اطمینان و پیش بینی.

داده کاوي:

1- جستجو و شناخت الگو ها.

2- دسته بندي.

اهداف تحقیق

آمار:

1- توسعه رو شهاي آماري بهتر.

2- مطالعه خواص آماري و ریاضی روش ها.

داده کاوي:

1- توسعه الگوریتمهاي بهتر و سریعتر جهت اجراي وظایف.

2- مطالعه عملکر دهاي تجربه الگوریتمهاي داده کاوي.

6   داده کاوي چه کاري انجام میدهد؟

داده کاوي نام خود را از شباهت بین جستجو براي یافتن اطلاعات با ارزش تجاري در یک پایگاه اطلاعات بزرگ (مثل یافتن محصولات مرتبط در یک پایگاه اطلا عات بزرگ ) و کاویدن کوه براي یافتن رگه هاي اصلی سنگ معدن گرفته است [8].

هر دو فر آیند شامل حرکت و یا جستجوي هوشمندانه در یک حجم بسیار بزرگ به منظور یافتن ارزش می باشد. امروزه داده کاوي با حمایت سه تکنولوژي که به مرحله بلوغ رسیده اند کاملا آماده استفاده میباشد. این سه تکنولوژي عبارتند از:

– جمع آوري و ذخیره سازي داده هاي حجیم

– کامپیوترهاي با قدرت پردازش چندگانه

– الگوریتمهاي پیشرفته داده کاوي

داده کاوي در دهه اخیر با حمایت تکنولوژي هاي ذکر شده و علومی نظیر آمار , هوش مصنوعی و یادگیري ماشین توسعه بسیار زیادي یافته است.

[1] Data fishing

[2] Data dredging

 

پاسخ دادن

anti spam *