SlideShare une entreprise Scribd logo
1  sur  80
Télécharger pour lire hors ligne
‫دهنده‬ ‫ارائه‬:‫عسگریان‬ ‫احسان‬
9/27/2016
1
‫گسترش‬‫سيستم‬‫هاي‬‫پايگاه‬‫داده‬‫و‬‫ابزارهاي‬‫متعدد‬‫براي‬‫ذخيره‬‫حجم‬
‫باالي‬‫داده‬‫ها‬
‫هزينه‬‫باالي‬‫انجام‬‫عمليات‬‫روي‬‫حجم‬‫انبوه‬‫داده‬‫از‬‫نظر‬‫نيروي‬‫انسا‬‫ني‬‫و‬
‫مادي‬(1-‫کمبود‬‫نيروي‬‫خبره‬‫آشنا‬‫با‬‫کل‬‫کسب‬‫و‬‫کار‬،2-‫محدوديت‬
،‫حافظه‬‫ناتواني‬‫و‬‫خطاي‬‫انسان‬‫در‬‫برخورد‬‫با‬‫حجم‬‫باالي‬‫داده‬)
‫با‬‫وجود‬‫حجم‬‫باالي‬‫داده‬‫و‬‫اطالعات‬‫که‬‫در‬‫اختيار‬‫داريم‬‫ولي‬‫کمبود‬
‫دانش‬‫بشدت‬‫احساس‬‫‌شود‬‫ي‬‫م‬
‫نياز‬‫به‬‫روشهايي‬‫خودکار‬‫براي‬‫کشف‬‫دانش‬‫با‬‫کمترين‬‫دخالت‬‫کاربر‬
9/27/20162
‌‫از‬1960
‌‫ايجاد‬‌‫‌هاي‬‫م‬‫سيست‬‌‫جمع‌آوري‌و‌مديريت‬‌‫‌ها‬‫ه‬‫داد‬‌‫توسط‬IBM, CDC
‌‫ذخيره‬‌‫‌ها‬‫ه‬‫داد‬‌‫روي‬‌‫‌ها‬‫ک‬‫ديس‬‫و‌کامپيوترها‬
‌‫بازيابي‌ايستا‬(‌‫محاسبه‌کل‌سود‌يک‌فروشگاه‌در‬5‫سال‌گذشته‬)
‌‫از‬1970
‌‫طراحي‌مدل‌پايگاه‬‫‌اي‬‫ه‬‫‌هاي‌رابط‬‫ه‬‫داد‬
‫‌اي‌اوليه‬‫ه‬‫‌هاي‌رابط‬‫ه‬‫ايجاد‌پايگاه‌داد‬
‌‌‫ايجاد‌زبان‌پرس‌و‌جو‌براي‌تهيه‌گزارشات‌از‌پايگاه‌داده‬
‌‫بازيابي‌پويا‌در‌سطح‌رکورد‬(‫ميزان‌فروش‌يک‌کاال‌در‌يک‌‌شعبه‌بصورت‌رو‬‫زانه‬)
‌‫از‬1980
‌‫طراحي‬‌‫‌هاي‌پيشرفته‬‫ل‬‫مد‬‌‫پايگاه‬‌‫‌ها‬‫ه‬‫داد‬(‌،‫‌گرا‬‫ي‬‫‌هاي‌ش‬‫ل‬‫‌اي،‌مد‬‫ه‬‫توسعه‌مدل‌رابط‬)...
‌‌‫شاخص‌گذاري‌و‌سازماندهي‌داده‌ها‌با‬DBMS‌‫هاي‬DB2‌،Oracle‌،Sybase
‌‫‌هاي‌وابسته‌به‬‫ه‬‫ايجاد‌پايگاه‌داد‬‌‫کاربرد‬(‌،‫‌هاي‌مکاني،‌مهندسي‬‫ه‬‫داد‬)...
‌‫‌سازي‬‫ه‬‫بهين‬‌‫بازيابي‌پويا‬
9/27/20163
‌‫از‬1990
‫ايجاد‬‌‫پايگاه‬‌‫‌هاي‬‫ه‬‫داد‬‫چند‌بعدي‬Data Warehouse‫و‬OLAP
‌‫بازيابي‌پويا‌در‌چند‌سطح‬(‌‫با‌امکان‬Drill Down)
OLAP‌‫اطالعات‌کاملي‌از‌رخدادهاي‌گذشته‌مي‌دهد،‌ولي‬‌‫‌تواند‬‫ي‬‫نم‬‫بگويد‌چرا‌اتف‬‌‫اق‬
‌‫افتاده‌و‌يا‬‌‫پيشبيني‬‫کند‬‌.
‌‫‌ها‬‫ه‬‫‌هاي‌اوليه‌کاوش‌و‌استخراج‌دانش‌از‌انباره‌داد‬‫ه‬‫پيدايش‌ايد‬(‫‌کاوي‬‫ه‬‫داد‬)
‌‫از‬2000
‫ابزارهاي‌پيشرفته‌مانند‬SPSS/Clementine, SGI, SAS
‌‫کشف‌الگوهاي‌جديد‌در‌پايگاه‬‫‌هاي‌اطالعاتي‌عمومي‬‫م‬‫‌ها‌و‌سيست‬‫ه‬‫داد‬
‫بازيابي‌پويا‌با‌نگاه‌پيشرو‌به‌آينده‬
‫فروش‌يک‌کاال‌در‌ماه‌آينده‌در‌يک‌شعبه‌خاص‌چقدر‌است؟‌و‌چرا‬‫؟‬
‌‫در‌حال‌حاضر‬
‌‫‌ها‬‫ه‬‫داده‌کاوي‌بر‌روي‌کالن‌داده‌و‌جريان‌داد‬(‫‌کاوي‌پويا‬‫ه‬‫داد‬)
‌‫‌هاي‌اجتماعي‬‫ه‬‫کشف‌الگوهاي‌جديد‌در‌منابع‌ناهمگون‌وب‌و‌شبک‬(‫متن،‌تصوير‬‌،‫،‌ويدئو‬
‫صدا‬)
‌‫تحليل‌نظرات‌و‌سليقه‌شخصي‌مشتريان،‌تحليل‌بازار‌بورس‌و‬...
‫‌هاي‌نامتوازن‌و‬‫ه‬‫‌اي‌اطالعات‌متناسب‌با‌کاربردهاي‌خاص،‌داد‬‫ه‬‫بازيابي‌پويا‌و‌لحظ‬...
9/27/20164
9/27/20165
“…The non-trivial process of identifying valid,
novel (previously unknown), potentially useful,
and ultimately understandable (implicit)
patterns in data…”
Fayyad, Piatetsky-Shapiro, Smyth [1996]
data source: databases, texts, web, images, video, etc.
9/27/20166
Statistics
Machine
Learning
Databases
Visualization
Data Mining and
Knowledge Discovery
9/27/20167
Data Analysis
 Tests for statistical
correctness of models
 Are statistical assumptions
of models correct?
 Eg Is the R-Square good?
 Hypothesis testing
 Is the relationship
significant?
 Use a t-test to validate
significance
 Tends to rely on sampling
 Techniques are not
optimised for large
amounts of data
 Requires strong statistical
skills
Data Mining
 Originally developed to
act as expert systems to
solve problems
 Less interested in the
mechanics of the
technique
 If it makes sense then
let’s use it
 Does not require
assumptions to be made
about data
 Can find patterns in very
large amounts of data
 Requires understanding
of data and business
problem
9/27/20168
‌‫حجم‌انبوه‌داده‬(‫گيگا‌يا‌ترابايت‬)
‌‫‌های‬‫ش‬‫رو‬‌‫آماری‌مبتنی‌بر‬‌‫‌گیری‬‫ه‬‫نمون‬‫است‬‌‌.
‌‫‌هاي‬‫ه‬‫داد‬‫با‌حجم‌زياد‌و‌با‌ابعاد‌مختلف‬
‌‫وب،‌تصاویر‬‌‫و‬‌‫‌های‬‫ه‬‫‌ها،‌داد‬‫س‬‫عک‬‌‫ژنتیکی‬
‌‫کشف‌اطالعات‌نهفته‌و‬‌‫الگوهاي‬‫ناشناخته‌مفيد‌از‌درون‌حجم‌انبو‬‌‫ه‬‫‌ها‬‫ه‬‫داد‬
‌‫الگوی‌مفید،‌مدلی‬‌‫برای‌توصیف‬‌‫ارتباط‌میان‬‫ز‬‫یرمجموعه‬‌‫‌ای‬‫از‌داده‬‫ها‬‫س‬‫ت‬‌‫و‬
‫معتبر،‌ساده،‌قابل‌فهم‌و‌جدید‌است‬.
‌‫حجم‌بيشتر‬‌‫‌ها‬‫ه‬‫داد‬‌‫و‌روابط‬‌‫‌تر‬‫ه‬‫پيچيد‬
‫‌تر‬‫ل‬‫‌ها‌مشک‬‫ه‬‫دسترسی‌به‌اطالعات‌نهفته‌در‌میان‌داد‬
‌‫‌تر‬‫ن‬‫نقش‌داده‌کاوی‌روش‬
9/27/20169
‌‫جستجو‌براي‌دانش‬(‫الگوهاي‌جالب‌توجه‬‌)‫‌ها‬‫ه‬‫مخفي‌در‌داد‬
9/27/201610
9/27/201611
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
9/27/201613
Data
Warehouse
Data cleaning & data integration Filtering
Databases
Database or data
warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
‌‫بازيابي‌و‬‌‫پردازش‌حجم‌انبوه‬‫داده‬‫ها‬
‫‌ها‬‫ه‬‫حجم‌باالي‌داد‬
‫‌ها‬‫ه‬‫ابعاد‌باالي‌داد‬
‫‌ها‬‫ه‬‫طبيعت‌توزيع‌شده‌داد‬
‌‫طبيعت‌ناهمگن‬‫‌ها‬‫ه‬‫داد‬
‫‌ها‬‫ت‬‫فرم‬‌‫ي‬‌‫مختلف‬‌‫و‬‌‫نامناسب‌داده‬(‫‌سازي،‌تبديل‬‫ل‬‫نرما‬‌‫و‬
‌‫پااليش‌داده،‌کدگذاري‌و‬)...
‌‫نیاز‌به‬‌‫عملیات‌و‬‫تکنیک‬‌‫‌های‬‫مختلف‌از‌قبیل‌ت‬‌‫عریف‬‫و‬‫‌های‬‫ی‬‫یژگ‬
‌‫جدید‌با‌انجام‌عملیات‌ریاضی‌و‌منطقی‌روی‬‫‌های‬‫ی‬‫ویژگ‬‫موج‬‌‫ود‬
9/27/201614
‌‫مقادير‬‌‫نامعتبر‌و‬‌‫‌هاي‬‫ه‬‫‌کيفيت‌يا‌گمشده‌داد‬‫ي‬‫ب‬‫خ‬‫ام‬
‌‫استفاده‌از‬‌‫‌ها‬‫ش‬‫رو‬‌‫و‬‌‫‌های‬‫م‬‫الگوریت‬‫مختلف‌برای‌‌پاکسازی‌د‬‫اده‬
‌‫بروزرساني‬‌‫و‌يکپارچگي‬‫‌ها‬‫ه‬‫داد‬
‫‌ها‬‫ه‬‫حفظ‌حريم‌شخصي‌داد‬
‫‌هاي‌جريابي‬‫ه‬‫‌ها‌و‌داد‬‫ه‬‫حجم‌باالي‌داد‬
‌‫‌هاي‌کارا‌براي‬‫ش‬‫انتخاب‌رو‬‫کاوش‬
9/27/201615
‌‫‌بيني‬‫ش‬‫پي‬‫وقايع‌آينده‌بر‌اساس‌روند‌گذشته‬
‌‫‌بندي‌اشياء‌،‌افراد‌يا‌اتفاقات‬‫ه‬‫طبق‬‫براي‌شناساي‬‫ي‌الگو‬
‌‫‌بندي‌اشياء‬‫ه‬‫دست‬‌‫و‌افراد‌بر‌اساس‌صفات‌و‬‫ويژگ‬‫‌ها‬‫ي‬
‌‫شناسايي‬‫وقايعي‌که‌احتمال‌دارد‌همزمان‌رخ‌دهند‬
‌‫شناسايي‬‌‫وقايعي‌که‌يکي‌باعث‌وقوع‌ديگري‬‫مي‬‫‌شود‬
9/27/201616
9/27/201617
38
32
20 17 14 13 13 13 12 12 12 11 11 10 9 8 8 8
CRM/Consumer analytics Banking
Fraud detection2 finance
Direct Marketing Other
Investment Credit Scoring
Telecom Retail
Advertising Biotech
Science Insurance
Health care E-Commerce
http://www.kdnuggets.com/polls/2008/data-mining-applications.htm
‫کمک‌به‌مديريت‌ارتباط‌با‌مشتري‬
‌‫تحليل‌سبد‌خريد‌و‬‫چينش‌محصوالت‬
‌‫پيشنهاد‬‌‫محصول‬‌‫مورد‌نياز‌به‌مشتريان‬(‌‫کاالهاي‌مورد‬‫نياز‌و‌عالقه‌مش‬‫تريان‬)
‫شناسايي‌عوامل‌موثر‌در‌جذب‌مشتريان‌جديد‬
‌‫‌هاي‬‫ل‬‫‌بندي‌مد‬‫ه‬‫دست‬‌‫مختلف‌مشتريان‬(‌،‫از‌نظر‌عاليق،‌سطح‌درآمد‬)...
‌‫بازاريابي‌و‌تبليغات‌متناسب‌با‌سليقه‌هر‌مشتري‬(‫تعيين‌الگو‬‫هاي‌خريد‬)
‌‫‌بيني‌ميزان‌فروش‌محصوالت‬‫ش‬‫پي‬
‌‫سفارشات‌و‌تجديد‌فروش،‌خريد‌و‬‫تدارکات‬
‌‫‌سازي‌تجارت‬‫ه‬‫بهين‬‌‫و‌انبارداري‌کاال‬(‫‌ريزي‌انبار‬‫ه‬‫برنام‬)
‌‫توزيع‌و‌تدارکات‌کاال‬‌‫و‌مديريت‌حمل‬‌‫و‌نقل‬
9/27/201618
‌‫تحليل‬‌‫‌ها‬‫س‬‫مشتريان‌براي‌بهبود‌سروي‬
‌‫تحليل‬‫‌ها‬‫ه‬‫ريسک‌انواع‌مشتريان‌و‌بيم‬
‌‫پيشگويي‌ميزان‬‌‫خريد‬‌‫بيمه‬‌‫‌هاي‬‫ه‬‫نام‬‌‫جديد‌توسط‬‫مشتريان‬
‫تشخيص‌موارد‌مشکوک‌به‌تقلب‬
‫شناسايي‌عوامل‌تاثيرگذار‌بر‌رضايت‌مشتريان‌به‌کمک‌ت‬‌‫حليل‬
‌‫ميزان‌ماندگاري‬(‫وفاداري‬‌)‫مشتريان‬
9/27/201619
‫تحليل‌سودبخشي‌مشتريان‬
‌‫مديريت‌اعتبار‌بر‌اساس‌رده‌و‌نوع‬‌‫مشتري‬(‫براي‌وام‬)
‌‫‌هاي‌مختلف‌بانکي‌براي‌بهبود‌فرآيند‬‫س‬‫تحليل‌سروي‬‫خدمات‌ب‬‌‫ه‬
‫مشتريان‬
‫تشخيص‌مشتريان‌ثابت‌و‌معتبر‬
‫‌هاي‌داراي‌گردش‌مالي‌مشکوک‬‫ب‬‫شناسايي‌حسا‬
‌‫‌بيني‬‫ش‬‫پي‬‫‌ها‬‫ش‬‫الگوهاي‌کالهبرداري‌از‌طريق‌سابقه‌تراکن‬
9/27/201620
‌‫پيشبيني‬‌‫ميزان‌موفقيت‌اعمال‌جراحي‌بر‌اساس‌شرايط‬‫بيماران‬
‫‌ها‬‫ي‬‫شناسايي‌علل‌و‌عوامل‌موثر‌در‌بروز‌بيمار‬
‌‫‌هاي‌خاص‌با‌توجه‌به‌عالئم‬‫ي‬‫تشخيص‌نسبي‌بيمار‬
‫‌بيني‌تاثير‌داروها‌بر‌بيمار‬‫ش‬‫پيشنهاد‌دارويي‌و‌پي‬
‫‌ها‌در‌طول‌زمان‬‫ي‬‫شناسايي‌روابط‌بين‌بيمار‬
9/27/201621
‫‌هاي‌وسائل‌نقليه‌عمومي‬‫ه‬‫‌سازي‌مسير‌و‌ايستگا‬‫ه‬‫بهين‬
‌‫‌هااي‌مکااني‬‫ه‬‫تحليل‌داد‬(‫شناساايي‌مسايرها‌و‌زماان‌اوج‌ترافياک‬‌،
‌‫‌ها‌و‬‫ن‬‫‌سازي‌مکان‌دوربرگردا‬‫ه‬‫بهين‬)...
‌‫تحليل‌و‌شناسايي‬‌‫‌خيز‌شاهري‬‫ه‬‫نقاط‌حادث‬(‫اناواع‌حادثاه‌خساارت‬‌،‫ي‬
‫جرحي،‌منجر‌به‌فوت‬‌)‫و‌تشخيص‌عوامل‌موثر‌بر‌آن‬
‌‫‌بيني‌خادمات‌حمال‌و‌نقال‌عماومي‌درون‌شاهري‌ماورد‌نيااز‬‫ش‬‫پي‬
‫شهروندان‬
‫‌ها‬‫ه‬‫‌بندي‌و‌تنظيم‌هوشمند‌چراغ‌قرمز‌چهاررا‬‫ن‬‫زما‬
‌‫مسيريابي‌پويا‬(‫پيشنهاد‌مسير‌هوشمند‬‌)‫بر‌اساس‌تحليل‬‫زمان‌سفر‬
9/27/201622
‌‫‌بيني‬‫ش‬‫پي‬‫‌ها‬‫ي‬‫فروش‌و‌شناسايي‌نيازمند‬
‫‌ريزي‌انبار‬‫ه‬‫برنام‬
‌‫مديريت‌حمل‌و‬‫نقل‬
‌‫پيشنهاد‬‌‫براي‌سفارشات‌و‌تامين‬‫قطعات‌در‌آينده‬
‌‫تحليل‬‌‫و‬‌‫مديريت‌کمي‌و‌کيفي‌نحوه‌توزيع‬‌‫و‌تدارکات‬‫کاال‬
‌‫عوامل‌موثر‌بر‌جذب‌سفارش‬(‫تحليل‌رضايت‌و‌نياز‌مشتريان‬)
‫رقابت‬
‫‌هاي‌رقيب‬‫ت‬‫تحليل‌رفتار‌و‌جهت‌شرک‬
‫‌گذاري‌براي‌هر‌دسته‬‫ت‬‫‌بندي‌مشتريان‌و‌رويه‌قيم‬‫ه‬‫دست‬
‌‫‌گذاري‌براي‌رقابت‌در‌بازار‬‫ت‬‫تعيين‌استراتژي‌قيم‬
9/27/201623
‌‫‌هاي‌ناهمگون‌زيستي‬‫ه‬‫‌سازي‌مجموعه‌داد‬‫ه‬‫يکپارچ‬
‌‫پيشبيني‌ساختار‬(‫اول‬/‫دوم‬/‫سوم‬/‫چهارم‬‌)‫‌ها‌يا‌روابط‌در‌ش‬‫ن‬‫پروتئي‬‌‫بکه‬
‫ژنوم‬
‫تحليل‌الگوهاي‌تکرار‌شونده،‌ترازبندي،‌تشخيص‌ويژگي‌در‌ت‬‌‫‌هاي‬‫ي‬‫وال‬
‫ژني‌و‌پروتئيني‬
‫‌هاي‌زيستي‬‫ه‬‫‌سازي‌و‌تحليل‌داد‬‫م‬‫ابزارهاي‌مجس‬
9/27/201624
‌‫شناسايي‬‌‫‌بندي‬‫م‬‫و‌تقسي‬‌‫مشتريان‬(‫از‌نظر‌رفتاري‌يا‌سود‬‫آوري‬)
‌‫شناسايي‌الگوهاي‌مشکوک‌به‌تقلب‌يا‌سوء‌استفاده‬(‫في‬‫لترگذاري‬)
‌‫‌هاي‌مورد‌نياز‬‫س‬‫‌بيني‌سروي‬‫ش‬‫پي‬(‫ماورد‌عالقاه‬‌)‫مشاتريان‌مخت‬‌‫لاف‬
(‫تبليغات‌و‌پيشنهاد‌به‌مشتريان‌برحسب‌نياز‌و‌عالقمند‬‫ي‌آنها‬)
‌‫شناسايي‌عوامل‌موثر‌در‌رضايت‌مشتريان‬(‫تحليل‌ماندگاري‌يا‬‌‫وفااداري‬
‫مشتريان‬)
9/27/201625
‫‌هاي‌جرياني‬‫ه‬‫تحليل‌الگوهاي‌داد‬
‫‌هاي‌موثر‌در‌انواع‌حمالت‬‫ي‬‫تعيين‌عوامل‌و‌ويژگ‬
‫‌هاي‌غيرمتعارف‌در‌شبکه‬‫ت‬‫شناسايي‌اعمال‌يا‌درخواس‬
‌‫‌سااازي‌عمليااات‌کاااربران‌و‌انااواع‌منااابع‌مااورد‬‫م‬‫ابزارهاااي‌مجس‬
‫درخواست‌آنها‌در‌طول‌زمان‬
9/27/201626
‫‌بندي‌متون‬‫ه‬‫دسته‌بندي‌يا‌خوش‬
‫‌بندي‌اخبار‬‫ه‬‫تعيين‌موضوع‌خبر‌يا‌دست‬
‫‌ها‌در‌پست‌الکترونيک‬‫ه‬‫شناسايي‌هرزنام‬
‫بازيابي‌اطالعات‌مرتبط‌با‌يک‌مفهوم‬
‌‫استخراج‌اطالعات‌از‬‫متن‬
‫تعيين‌شباهت‌متون‬
‌‫کشف‌تقلب‌نگارشي‬(‫سرقت‌ادبي‬)
‌‫‌هاي‌مرتبط‌يا‌دستورات‌مشابه‬‫ه‬‫پيگيري‌نام‬‫‌هاي‌اتوماس‬‫م‬‫در‌سيست‬‫يون‌اداري‬
‫‌هاي‌اتوماسيون‌اداري‬‫م‬‫‌ها‌در‌سيست‬‫ه‬‫‌نام‬‫ن‬‫‌ها‌و‌آيي‬‫ه‬‫‌نام‬‫ش‬‫جستجوي‌بخ‬
‫تشخيص‌نويسنده‌متن‬
9/27/201627
‌‫اشتباه‬1‌‌:
‫‌کند‬‫ي‬‫مجموعه‌اي‌از‌ابزارها‌که‌داده‌هاي‌ناقص‌را‌تکميل‌م‬.
‌‫واقعيت‬1:
‌‫داده‌کاوي‌ابزار‌نيست‌بلکه‌يک‌فرايند‌است‬(CRISP-DM)
‫‌شوند‌به‌تن‬‫ي‬‫ابزارهايي‌که‌براي‌داده‌کاوي‌استفاده‌م‬‌‫هايي‬
‫‌ها‌را‌حل‌کنند‬‫ه‬‫‌توانند‌مشکل‌داد‬‫ي‬‫نم‬.
9/27/201628
‌‫اشتباه‬2‌‌:
‌‫يک‌فرايند‌خودمختار‌و‌از‌قبل‌مشخص‌است‬(‫مستقل‌از‌کس‬‌‫ب‌و‬
‫کار‬‌‌)
‫با‌کمي‌تغيير‌روش‌و‌تکنيک،‌داده‌کاوي‌قابل‌استفاده‌د‬‌‫ر‬
‫‌هاي‌مختلف‌است‬‫ن‬‫سازما‬
‌‫واقعيت‬2:
‌‫در‌هر‌فاز‌داده‌کاوي‌بشدت‌به‌دخالت‌فرد‌خبره‌نياز‌دارد‬
‫‌ب‬‫ي‬‫بعد‌از‌ايجاد‌مدل‌اوليه،‌نياز‌به‌بروزرساني‌و‌اصالح‌آن‌م‬‫اشد‬
9/27/201629
‌‫اشتباه‬3‌‌:
‌‫‌هاي‌خود‌را‌جبران‬‫ه‬‫سود‌ناشي‌از‌داده‌کاوي‌به‌سرعت‌هزين‬
‫‌کند‬‫ي‬‫م‬
‌‫واقعيت‬3:
‌‫نرخ‌بازگشت‌سرمايه‌پروژه‌هاي‌داده‌کاوي‌بسيار‌متغير‬
(‫متفاوت‬‌)‫هست‬
‫بازگشت‌سرمايه‌داده‌کاوي‌بستگي‌به‌عوامل‌زيادي‌از‌قب‬‫يل‬‌:
‌‫‌هاي‌پرسنلي‬‫ه‬‫‌اندازي،‌هزين‬‫ه‬‫ميزان‌هزينه‌را‬(‫شخص‌خبره‬)‫،‌هزي‬‌‫نه‬
‌‫‌ها،‌اهميت‌حوزه‌کسب‌و‌کار‌و‬‫ه‬‫‌سازي‌داد‬‫ه‬‫آماد‬‌...‫دارد‬
9/27/201630
‌‫اشتباه‬4‌‌:
‫‌افزارهاي‌داده‌کاوي‌براحتي‌قابل‌استفاده‌است‬‫م‬‫نر‬
‌‫واقعيت‬4:
‌‫تکنيکهاي‌عمومي‌داده‌کاوي‬(‌‫‌سازي‬‫ه‬‫‌افزارها‌پياد‬‫م‬‫که‌در‌نر‬
‫شدند‬‌)‫‌هاي‌مختلف‌هست‬‫ه‬‫براحتي‌قابل‌استفاده‌براي‌پروژ‬‫ند‬.
‌‫‌ها‌و‌هدف‌داده‌کاوي‌بايد‌ترکيبي‌از‬‫ه‬‫ولي‌تحليل‌داد‬‌‫دانش‬
‫درباره‌تکنيکها،‌روشها‌و‌کاربردهاي‌داده‌کاوي‬‌‫و‬‫شناخت‌دا‬‌‫منه‬
‫مسئله‌خاص‬‫باشد‬.
9/27/201631
‌‫اشتباه‬5‌‌:
‌‫داده‌کاوي‬(‫علت‬‌)‫‌کن‬‫ي‬‫مشکالت‌درون‌کسب‌و‌کار‌سازمان‌را‌شناسايي‌م‬‫د‬
‌‫همه‌مشکالت‬(‫‌ها‬‫ش‬‫نقاط‌مبهم‌و‌پرس‬‌)‌‫در‌کسب‌و‌کار‌با‌داده‌کاوي‌حل‬
‫‌شود‬‫ي‬‫م‬.
‌‫واقعيت‬5:
‫‌دهد‬‫ي‬‫فرايند‌کشف‌دانش‌بسياري‌از‌الگوهاي‌رفتاري‌را‌پوشش‌نم‬‌.
‌‫نتايج‌فرايند‌داده‌کاوي‌بايد‌توسط‌انسان‬(‫فرد‌خبره‌مانند‌مدير‬‌)‫اس‬‌‫تنتاج‬
‌‫شده‌و‌دليل‌مشکالت‬(‫کسب‌و‌کار‬‌)‫سازمان‌مشخص‌گردد‬
‌‫فرايند‌داده‌کاوي‌با‌توجه‌به‌اهداف‌کسب‌و‌کار‌سازمان‬‫تعريف‌و‌انجا‬‌‫م‬
‫‌شود‬‫ي‬‫م‬.
9/27/201632
‌‫اشتباه‬6‌:
‫‌کند‬‫ي‬‫‌سازي‌و‌آماده‌م‬‫ک‬‫‌ها‌را‌پا‬‫ه‬‫داده‌کاوي‌بصورت‌خودکار‌داد‬
‌‫واقعيت‬6:
‫‌کند‬‫ي‬‫‌هاي‌قديمي‌کار‌م‬‫م‬‫‌هاي‌سيست‬‫ه‬‫اغلب‌داده‌کاوي‌برروي‌داد‬
‫‌ها‌نبوده‌و‌اين‬‫ه‬‫خيلي‌اوقات‌نظارت‌و‌دقت‌زيادي‌برروي‌اين‌ورود‌داد‬
‌‫‌ها‌ناقص،‌حاوي‌فيلدهاي‌خالي،‌نويز،‌ناسازگاري‌و‬‫ه‬‫داد‬‌...‫هستند‬
‌‫‌پردازش‬‫ش‬‫‌ترين‌فاز‌داده‌کاوي،‌فاز‌پي‬‫ل‬‫مشک‬(‫‌سازي‬‫ه‬‫آماد‬‌)‫‌هاس‬‫ه‬‫داد‬‫ت‬
9/27/201633
‌‫اشتباه‬7‌‌:
‫داده‌کاوي‌يک‌فرايند‌آنالين‌با‌ابزارهاي‌از‌پيش‌آماده‌هست‬.
‌‫واقعيت‬7:
‫ً‌آفالين‌و‌تکراري‌است‬‫ال‬‫داده‌کاوي‌يک‌فرايند‌کام‬
‌‫تنها‌براي‌برخي‌مراحل‬(‫الگوريتم‌ها‌و‌تکنيکها‬‌)‫ابزارهاي‬‌‫ي‌آماده‬
‫شده‌است‬‌.‫اغلب‌مراحل‌فرايند‌داده‌کاوي‌به‌دانش‌شخص‌خب‬‌‫ره‬
‫وابستگي‌دارد‬.
9/27/201634
‌‫داده‬‌‫کاوي‌مناسب‬‌‫براي‬‌‌:
‌‫هر‬‌‫‌اي‬‫ه‬‫حوز‬‌‫که‌نياز‌به‌شناسايي‬‌‫الگوهاي‬‌‫جديد‌و‌ارتباط‌بين‬‫‌ها‌دارد‬‫ه‬‫داد‬.
‌‫‌بندي‬‫ه‬‫نياز‌به‌گرو‬(‫‌سازي‌و‌توصيف‬‫ه‬‫خالص‬‌)‫‌ها‌احساس‌شود‬‫ه‬‫داد‬.
‫‌ها‌و‌مشخص‌کردن‌نيازهاي‌آتي‬‫ه‬‫‌بيني‌پديد‬‫ش‬‫نياز‌به‌پي‬
‌‫نياز‌به‌تحليل‌و‌بررسي‌نتايج‌حاصل‌از‌انجام‌يا‌رخداد‌يک‌پديده‬
‫‌هاي‌موثر‌در‌رخداد‌يک‌پديده‬‫ي‬‫تحليل‌علت‌و‌ويژگ‬
‌‫داده‌کاوي‬‌‫موفق‬:
‌‫‌ها‬‫ه‬‫شرايط‌اصلي‌داد‬‌:
‌‫حجم‬‌‫زياد‬(‫‌ها‬‫ه‬‫تعداد‌کافي‌نمون‬)‌،
‌‫کافي‌بودن‌ويژگي‬(‫‌هاي‌متناسب‌با‌هدف‬‫ي‬‫ثبت‌ويژگ‬)‌،
‌‫صحت‌داده‬‌:‌‫منابع‬‌‫داده‬‌‫معتبر‬(‫واقعي‬)‌،‌‫با‬‌‫کيفيت‬(‫بدون‌غلط‌و‌نويز‬)‌‫،‌کامل‬(‫بدون‌فيلد‌خالي‬)
‌‫انتخاب‬‌‫روش‌صحيح‌داده‬‌‫کاوي‬(‫‌ها‌و‌هدف‌سازمان‬‫ه‬‫با‌توجه‌به‌داد‬)
9/27/201635
36
9/27/201637
‫‌های‌داده‌کاوی‬‫ش‬‫رو‬
‌‫‌کننده‬‫ف‬‫توصی‬(‫‌ناظر‬‫ن‬‫بدو‬)
Descriptive
‌‫‌بندی‬‫ه‬‫خوش‬(Clustering)
‌‫کشف‌قوانین‌وابستگی‬(Association
Rule Mining)
‌‫کشف‌الگوهای‌ترتیبی‬(Sequential
Pattern Discovery)
‌‫‌کننده‬‫ی‬‫پیشبین‬(‫باناظ‬‫ر‬)
Predictive
‌‫رگرسیون‬(Regression)
‌‫‌بندی‬‫ه‬‫دست‬(Classification)
‌‫تشخیص‌و‌کشف‌تقلب‬(Deviation
Detection)
38
o‌‫يادگيري‌نظارت‌نشده‬
o‌‫‌بندي‬‫ه‬‫گرو‬‌‫طبيعي‬‌‫‌هاي‬‫ه‬‫داد‬‌‫نامتجانس‬‌‫به‌تعدادي‌خوشه‬‫براساس‌خص‬‌‫وصيات‬
‌‫مشابه‬
o‌‫پيوستگي‌داخلي‌‌هر‌دسته‌و‌همبستگي‌خارجي‌کم‌با‌ساير‬‫دست‬‫‌ها‬‫ه‬
o‌‫براساس‌نزديکي‌فاصاله‌مياان‌رکوردهاا‌و‌درصاد‌قارار‌گارفتن‬‫‌هااي‬‫ه‬‫داد‬
‌‫ورودي‌در‬‫‌ها‬‫ه‬‫خوش‬
o‫تفاوت‌با‌طبقه‌بندي‬
–‌‫نامعين‌بودن‬‫خوشه‬‌‫ها‬‫در‌شروع‬‫کار‬
9/27/2016
‫ب‬ ‫یکدیگر‬ ‫شبیه‬ ‫خوشه‬ ‫هر‬ ‫درون‬ ‫اشیاء‬ ‫بطوریکه‬ ‫اشیاء‬ ‫های‬ ‫گروه‬ ‫نمودن‬ ‫پیدا‬‫و‬ ‫وده‬
‫باشند‬ ‫یکدیگر‬ ‫یا‬ ‫غیرمرتبط‬ ‫یا‬ ‫متفاوت‬ ‫مختلف‬ ‫های‬‫خوشه‬ ‫اشیاء‬.
Inter-cluster
distances are
maximized
Intra-cluster
distances are
minimized
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 6
p4
p1
p3
p2
p4
p1
p3
p2
p4p1 p2 p3
p4p1 p2 p3
Traditional Hierarchical Clustering
Non-traditional Hierarchical Clustering Non-traditional Dendrogram
Traditional Dendrogram
42
‫معايب‬
‫‌هاي‌با‌خصوصيات‌نامربوط‌و‌داراي‬‫ه‬‫نامناسب‌براي‌داد‬‌‫افزونگي‬
‌‫‌هاي‌ديگر‬‫ش‬‫دقت‌کمتر‌از‌رو‬
‫کاربرد‬
‫‌بندي‌بازار‌محصول‬‫م‬‫تقسي‬
‫شناسايي‌مشتريان‬
‌‫بازاريابي‌مستقيم‬
‫‌بندي‌اسناد‬‫ه‬‫خوش‬
9/27/2016
43
‫کشف‌و‌توليد‌الگوهايي‌که‌وقوع‌يک‌رخداد‌را‌براساس‌واق‬‌‫عه‬
‫ديگر‌پيش‌گويي‌کند‬
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
Support
‌‫تنها‌در‬0001‌.‌/‌‫درصد‬‌‫از‬‌‫تراکنشهاي‌خريد‬
‌‫،‌شير‌و‌پيچ‌گوشتي‌با‌هم‬‌،‫داشتند‬‫ب‬‌‫نابراين‬
‫درجه‌پشتيباني‌براي‌قانون‌زير‌پايي‬‫ن‌است‬:
"‌‌‫پيچ‌گوشتي‬→‌‫شير‬"
Confidence
‌‫درجه‌اطمينان‌قانون‬"‌‫پنير‬→‌‫نان‬"80‌%
‫است‬‌.‌‫در‬80‌%‌‫تراکنشهاي‌خريد‌،‌اگر‌نان‬
‌‫وجود‌داشته‬‌،‫باشد‬‌‫پنير‌نيز‌وجود‌دارد‬‌‌.
9/27/2016
44
‫مديريت‌موجودي‌و‌انبار‬
‫تبليغات‌و‌بازاريابي‌چند‌کاال‬
‫‌هاي‌فروشگاه‬‫ه‬‫مديريت‌چيدمان‌قفس‬
‫‌گر‬‫ه‬‫‌هاي‌توصي‬‫م‬‫سيست‬
9/27/2016
‫شناسايي‌ترتيب‌وقايع‌براساس‌اطالعات‌گذشته‬
‫مثال‬1‌:40‌%‌‫مشتريان‌که‌کت‌خاکستري‌خريده‌اند،‌شش‌ماه‌بعد‬
‫‌اند‬‫ه‬‫شلوار‌مشکي‌‌خريد‬‌‌.
‫مثال‬2‌:‫يک‌ماه‌بعد‌از‌فروش‌سيستم،‌فروش‌نرم‌افزار‌افزايش‌مي‬‫‌يابد‬.
‫نيازبه‬
‫‌هاي‌کامل،‌دقيق‌و‌معتبر‬‫ه‬‫داد‬
‫نتيجه‬
‌‫‌ريزي‌توليد‌بهتر‬‫ه‬‫برنام‬
‫مديريت‌بهينه‌انبار‬
9/27/201645
46
•‫‌بینی‬‫ش‬‫پی‬‫یک‬‫متغیر‬‫پیوسته‬‫براساس‬‫س‬‫ایر‬‫متغیرها‬
‫بر‬‫مبنای‬‫یک‬‫مدل‬‫وابستگی‬‫خطی‬‫یا‬‫غیرخط‬‫ی‬
‌‫‌بینی‌سری‌زمانی‬‫ش‬‫پی‬‌:‌‫متغیر‌اصلی‌زمان‌است‬(‫مثل‌ت‬‌‫حلیل‬
‫‌ها‌بورس‌یا‌تغییر‌وضعیت‌آب‌و‌هو‬‫ه‬‫تغییرات‌سهام‌در‌داد‬‫ا‬)
‫‌بینی‌میزان‌فروش‌یک‌محصول‌جدید‌براساس‌فر‬‫ش‬‫پی‬‌‫وش‬
‫محصوالت‌مشابه‌در‌گذشته،‌مشخصات‌آنها‌و‌میزان‌تبل‬‌‫یغات‬
‫انجام‌شده‌برای‌آنها‬
9/27/2016
47 9/27/2016
48
•‫طبقه‌بندی‌اشیا‌و‌افراد‌برای‌شناسایی‬‫الگو‬
•‫یادگیری‌نظارت‌شده‬
-‫درخت‌تصمیم‬
-‫شبکه‌عصبی‬
-‫بیزین‬
-....
9/27/2016
49
‫بازاريابي‌مستقيم‬
‫تشخيص‌اسپم‬
‫شناسايي‌و‌طبقه‌بندي‌مشتري‬
‫‌بيني‌وضعيت‌آينده‬‫ش‬‫پي‬
9/27/2016
50
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Refund
Mar St
Tax Inc
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Best when the predictor variables are
categorical
9/27/2016
51
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Training
Set
Model
Learn Classifier
Refund Marital
Status
Taxable
Income Cheat
No Single 75K ?
Yes Married 50K ?
No Married 150K ?
Yes Divorced 90K ?
No Single 40K ?
No Married 80K ?
10
Test
Set
9/27/2016
Support Vectors
Small Margin Large Margin
52
53
‫‌ها‌براساس‌رفتار‌نرمال‌گذشت‬‫ه‬‫کشف‌تغييرات‌در‌داد‬‌‫ه‬
‌‫کشف‌حمالت‌جديد‬(‫‌بندي‬‫ه‬‫‌هاي‌دست‬‫ش‬‫تفاوت‌اصلي‌با‌رو‬):
‫اين‬‫دسته‬‫‌ها‬‫ش‬‫رو‬‫قادر‬‫به‬‫کشف‬‫موارد‬‫تقلب‬‫يا‬‫نفوذ‬‫هس‬‫تند‬‫که‬
ً‫ال‬‫قب‬‫مشابه‬‫آنها‬‫رخ‬‫نداده‬‫است‬
‫در‬‫حاليکه‬‫روشهاي‬‫‌بندي‬‫ه‬‫دست‬‫قادر‬‫به‬‫تشخيص‬‫اينگ‬‫ونه‬‫موارد‬
(‫که‬‫مورد‬‫آموزشي‬‫در‬‫ارتباط‬‫با‬‫آنها‬‫وجود‬‫ندارد‬)‫نيستند‬.
‫مثال‌کاربرد‬
‫تشخيص‌حمله‌يا‌نفوذ‌در‌شبکه‬
‫‌هاي‌اعتب‬‫ت‬‫کشف‌الگوهاي‌خريد‌غيرنرمال‌توسط‌کار‬‫اري‬
9/27/2016
9/27/201654
55
56 9/27/2016
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
30.0%
35.0%
40.0%
45.0%
50.0%
2011
2013
2014
www.kdnuggets.com/
57 9/27/2016
58 9/27/2016
59 9/27/2016
60 9/27/2016
61 9/27/2016
62 9/27/2016
63 9/27/2016
64 9/27/2016
65 9/27/2016
66
‫مناسب‬ ‫گیری‬‫نمونه‬:‫ها‬‫داده‬ ‫استخراج‬ ‫و‬ ‫انتخاب‬‫های‬‫داده‬ ‫از‬ ‫بخش‬‫مناس‬‫ب‬
‫انبوه‬ ‫میان‬ ‫از‬ ‫کاوی‬ ‫داده‬ ‫انجام‬ ‫برای‬‫سازمان‬ ‫های‬‫داده‬(‫کار‬ ‫و‬ ‫کسب‬)
‫ها‬‫داده‬ ‫اکتشافی‬ ‫تحلیل‬:‫انحراف‬ ‫یا‬ ‫احتمالی‬ ‫روابط‬ ‫یافتن‬ ‫برای‬‫از‬
‫معیارهای‬‫غیرمعمول‬‫در‬‫ها‬‫داده‬‫و‬ ‫اهداف‬ ‫به‬ ‫رسیدن‬ ‫و‬‫های‬‫ایده‬‫تحقیق‬
‫تعدیل‬‫ها‬‫داده‬:‫الحاق‬ ‫واسطه‬ ‫به‬‫انتخاب‬ ،‫ف‬ ‫برای‬ ‫متغیرها‬ ‫تبدیل‬ ‫و‬‫راهم‬
‫ساختن‬‫شرایط‬‫ساخت‬‫ها‬‫مدل‬
‫سازی‬‫مدل‬:‫رسی‬ ‫و‬ ‫بینی‬‫پیش‬ ‫که‬ ‫متغیرها‬ ‫بین‬ ‫روابط‬ ‫شناسایی‬‫هدف‬ ‫به‬ ‫دن‬
‫نماید‬‫می‬ ‫تسهیل‬ ‫را‬ ‫ما‬ ‫مطلوب‬.
‫ارزیابی‬‫ها‬‫مدل‬:‫انج‬ ‫برای‬ ‫مدل‬ ‫کیفیت‬ ‫واقعی‬ ‫های‬‫داده‬ ‫از‬ ‫استفاده‬ ‫با‬‫ام‬
‫شود‬‫می‬ ‫ارزیابی‬ ‫کاوی‬‫داده‬.
9/27/201667
‫مساله‬ ‫درک‬(Business understanding)
‫داده‬ ‫فهم‬(Data understanding)
‫داده‬ ‫سازی‬‫آماده‬(Data preparation)
‫سازی‬‫مدل‬(Modeling)
‫ارزیابی‬(Evaluation)
‫توسعه‬(Deployment)
9/27/201668
9/27/201669
‫درك‬‫تجارت‬ ‫داد‬ ‫درك‬‫ه‬‫ها‬
‫پردازش‬‫پيش‬
‫سازي‬‫مدل‬
‫ارزيابي‬
‫بکارگيري‬
‫‌ها‬‫ه‬‫داد‬
9/27/201670
‫فرایند‬CRISP-DM‫در‬‫یک‬‫پروسه‬‫چرخشی‬(‫تکرار‬-‫بهبود‬‫یا‬‫اصالح‬)
‫هدف‬‫داده‬‫کاوی‬‫را‬‫انجام‬‫دهد‬‫می‬.
‫در‬‫شکل‬‫تنها‬‫های‬‫وابستگی‬‫مهم‬‫مراحل‬‫مختلف‬‫نمایش‬‫داده‬‫شده‬‫است‬.
‫بصورت‬‫کلی‬‫فاز‬‫بعد‬(‫در‬‫شکل‬)‫به‬‫نتایج‬‫فازهای‬‫قبل‬‫نیاز‬‫دارد‬.
‫بعد‬‫از‬‫انجام‬‫هر‬‫فاز‬(‫بجای‬‫رفتن‬‫به‬‫فاز‬‫بعد‬)‫ممکن‬‫است‬‫نیاز‬‫به‬‫ب‬‫رگشت‬‫به‬
‫فازهای‬‫قبل‬‫باشد‬.
Data
Understanding
Collect Initial Data
Initial Data Collection
Report
Describe Data
Data Description Report
Explore Data
Data Exploration Report
Verify Data Quality
Data Quality Report
Business
Understanding
Determine
Business Objectives
Background
Business Objectives
Business Success Criteria
Situation Assessment
Inventory of Resources
Requirements,
Assumptions, and
Constraints
Risks and Contingencies
Terminology
Costs and Benefits
Determine
Determine
Data Mining
Goal
Data Mining Goals
Data Mining
Success
Criteria
Produce Project
Plan
Project Plan
Initial Asessment of
Tools and
Techniques
9/27/201671
9/27/201672
Data Preparation
Data Set
Data Set Description
Select Data
Rationale for Inclusion /
Exclusion
Clean Data
Data Cleaning Report
Construct Data
Derived Attributes
Generated Records
Integrate Data
Merged Data
Format Data
Reformatted Data
Modeling
Select Modeling
Technique
Modeling Technique
Modeling Assumptions
Generate Test Design
Test Design
Build Model
Parameter Settings
Models
Model Description
Assess Model
Model Assessment
Revised Parameter
Settings
Evaluation
Evaluate Results
Assessment of Data
Mining Results w.r.t.
Business Success
Criteria
Approved Models
Review Process
Review of Process
Determine Next Steps
List of Possible Actions
Decision
Plan Deployment
Deployment Plan
Plan Monitoring and
Maintenance
Monitoring and
Maintenance Plan
Produce Final Report
Final Report
Final Presentation
Review Project
Experience
Documentation
Deployment
9/27/201673
.‫کسب‬ ‫یا‬ ‫کاربرد‬ ‫دامنه‬ ‫با‬ ‫آشنایی‬ ‫و‬ ‫شناسایی‬ 1‫کار‬ ‫و‬(‫حوزه‬ ‫انتخاب‬‫های‬
‫سازمان‬ ‫مهم‬)
.‫سازمان‬ ‫در‬ ‫کاوی‬‫داده‬ ‫مفید‬ ‫کاربردهای‬ ‫یا‬ ‫بکارگیری‬ ‫اهداف‬ ‫تشخیص‬ 2
(‫کار‬ ‫و‬ ‫کسب‬)‫نظر‬ ‫مورد‬
.‫ها‬‫ویژگی‬ ‫و‬ ‫داده‬ ‫منابع‬ ‫شناسایی‬ 3(‫عوامل‬ ‫یا‬ ‫متغیرها‬ ،‫فیلدها‬)‫مربوط‬‫به‬
‫هدف‬
.‫برداری‬‫نمونه‬ 4‫داده‬ ‫محدود‬ ‫حجم‬(‫محدود‬ ‫زمانی‬ ‫بازه‬)‫سازمان‬ ‫های‬‫داده‬ ‫میان‬ ‫از‬
.‫ها‬‫داده‬ ‫سازی‬‫آماده‬ ‫و‬ ‫پردازش‬‫پیش‬ 5(‫داده‬ ‫کدینگ‬ ‫و‬ ‫تبدیل‬ ‫و‬ ‫سازی‬‫پاک‬،‫ها‬
‫و‬ ‫هدف‬ ‫بر‬ ‫تاثیرگذار‬ ‫و‬ ‫مهم‬ ‫های‬‫ویژگی‬ ‫انتخاب‬)...
.‫موجود‬ ‫مختلف‬ ‫های‬‫الگوریتم‬ ‫میان‬ ‫از‬ ‫روش‬ ‫بهترین‬ ‫انتخاب‬ 6(‫توس‬ ‫یا‬‫عه‬
‫فعلی‬ ‫کاربرد‬ ‫و‬ ‫ها‬‫داده‬ ‫به‬ ‫مختص‬ ‫جدید‬ ‫الگوریتم‬ ‫یک‬)‫تنظیم‬ ‫و‬
‫شده‬ ‫انتخاب‬ ‫روش‬ ‫پارامترهای‬
.‫الگوهای‬ ‫استخراج‬ ‫یا‬ ‫مدل‬ ‫ساخت‬ ‫و‬ ‫کاوی‬ ‫داده‬ ‫اصلی‬ ‫فرایند‬ ‫انجام‬ 7
‫ها‬‫داده‬ ‫میان‬ ‫مخفی‬
.‫های‬‫روش‬ ‫برای‬ ‫شده‬ ‫مشخص‬ ‫معیارهای‬ ‫توسط‬ ‫خودکار‬ ‫ارزیابی‬ 8
‫مدل‬ ‫کیفیت‬ ‫تعیین‬ ‫برای‬ ‫کاوی‬‫داده‬/‫شده‬ ‫کشف‬ ‫دانش‬(‫برگشت‬‌‫به‬
‌‫مرحله‬5‌‫یا‬6‫بسته‌به‌کیفیت‌نتایج‬)
.‫نتایج‬ ‫پردازش‬‫پس‬ ‫و‬ ‫واقعی‬ ‫های‬‫داده‬ ‫روی‬ ‫بر‬ ‫فرایند‬ ‫اجرای‬ 9(‫تفسی‬‫ر‬
‫ارزش‬ ‫با‬ ‫و‬ ‫مفید‬ ‫دانش‬ ‫یا‬ ‫الگوها‬ ‫انتخاب‬ ‫و‬ ‫شناسایی‬ ‫و‬ ‫نتایج‬)
.‫الگو‬ ‫از‬ ‫استفاده‬ 01/‫کار‬ ‫و‬ ‫کسب‬ ‫در‬ ‫آمده‬ ‫بدست‬ ‫دانش‬(‫واقعی‬ ‫دنیای‬)‫یا‬
‫گیری‬‫تصمیم‬‫مدیران‬(‫حکمت‬ ‫به‬ ‫دانش‬ ‫تبدیل‬)
76 9/27/2016
‫‌ها‌و‌ابزارهاي‌داده‌کاوي‬‫ک‬‫آشنايي‌با‌روشها،‌تکني‬
‫آشنايي‌کلي‌با‌مفاهيم‌فرايندکاوي،‌انباره‌داده‌و‌داشبوردهاي‌مديريتي‬
‫‌هاي‌بدون‌ناظر،‌باناظر‌و‌نيمه‌ناظر‬‫ک‬‫تکني‬
‌‫ابزارهاي‬‫‌کاوي‬‫ه‬‫‌نويسي‌داد‬‫ه‬‫‌هاي‌عظيم‌و‌برنام‬‫ه‬‫آماده،‌ابزارهاي‌پردازش‌داد‬
‫پيش‌پردازش‌داده‌و‌تحليل‌الگ‬
‌‫آشنايي‌با‌کسب‌و‌کار‌سازمان‬
‌‫‌ها‬‫ه‬‫فرايند‌و‌گردش‌کار؛‌گردش‌داد‬
‫‌ها‌و‌مشکالت‌سطح‌کالن‌سيستم‬‫ش‬‫مصاحبه‌با‌مديران‌براي‌شناسايي‌چال‬
‫‌ها‌و‌مشکالت‌عملياتي‌سيستم‬‫ش‬‫مصاحبه‌با‌کارشناسان‌براي‌شناسايي‌چال‬
‫‌هاي‌تقلب‌در‌سيستم‌موجود‬‫ه‬‫شناخت‌مشکالت‌و‌را‬
‌‫آشنايي‌با‌گزارشات‌موجود‌و‌گزارشات‌مورد‌نياز‬(‫ناموجود‬‌)‌‫در‌سيستم‬‫فعلي‬
9/27/201677
‫‌هاي‌مشابه‬‫ه‬‫آشنايي‌با‌کاربردهاي‌داده‌کاوي‌در‌حوز‬
‫‌هاي‌آموزشي،‌بانکداري‬‫ط‬‫ً‌اهداف‌و‌کاربردهاي‌داده‌کاوي‌در‌محي‬‫ال‬‫معمو‬‌،‌،‫بيمه‬
‌،‫‌ها‬‫ه‬‫فروشگا‬‌‫شرکتهاي‬‌‫توليدي‌و‬‌...‫تکراري‌هستند‬.
‌‫نگاشت‌نيازهاي‌سازمان‬(‫‌وکار‬‫ب‬‫با‌توجه‌به‌شناخت‌کس‬‌)‫‌هاي‌د‬‫ک‬‫‌ها‌و‌تکني‬‌‌‫ش‬‫با‌رو‬‫اده‌کاوي‬
‫‌ها‌دارد‬‫ه‬‫‌اي‌که‌نياز‌به‌شناسايي‌الگوهاي‌جديد‌و‌ارتباط‌بين‌داد‬‫ه‬‫هر‌حوز‬.
‌‫‌بندي‬‫ه‬‫نياز‌به‌گرو‬(‫‌سازي‌و‌توصيف‬‫ه‬‫خالص‬‌)‫‌ها‌احساس‌شود‬‫ه‬‫داد‬.
‫‌ها‌و‌مشخص‌کردن‌نيازهاي‌آتي‬‫ه‬‫‌بيني‌پديد‬‫ش‬‫نياز‌به‌پي‬
‌‫نياز‌به‌تحليل‌و‌بررسي‌نتايج‌حاصل‌از‌انجام‌يا‌رخداد‌يک‌پديده‬
‌‫‌هاي‌موثر‌در‌رخداد‌يک‬‫ي‬‫تحليل‌علت‌و‌ويژگ‬‫پديده‬
9/27/201678
79
‌‫معیارهای‬
‌‫انتخاب‌حوزه‬
‫‌کننده‌هر‌معیار‬‫ن‬‫فاکتورهای‌تعیی‬
‫‌پذیر‬‫ی‬‫دسترس‬‫ی‬
‫خبره‬ ‫شخص‬ ‫بودن‬ ‫موجود‬(‫آشنا‬)‫سیستم‬ ‫با‬(business expert)
‫ها‬‫داده‬ ‫به‬ ‫دسترسی‬(‫سازمان‬ ‫درون‬)
‫داده‬ ‫امنیت‬ ‫سطح‬ ‫نظر‬ ‫از‬ ‫دسترسی‬(‫خصوصی‬ ‫حریم‬ ‫و‬ ‫حراست‬ ‫نظر‬ ‫از‬)
‫اهمیت‌حوزه‬
‫توسط‬ ‫استفاده‬ ‫میزان‬‫مدیران‬(‫ذینفعان‬ ‫اهمیت‬ ‫درجه‬)
‫و‬ ‫رجوع‬ ‫ارباب‬ ‫توسط‬ ‫استفاده‬ ‫میزان‬‫کاربران‬(‫بهتر‬ ‫خدمات‬ ‫یا‬ ‫ذیفعان‬ ‫تعداد‬)
‫بودن‬ ‫بردار‬‫هزینه‬ ‫یا‬ ‫درآمدزایی‬ ‫میزان‬(‫هدف‬‫فرایندهای‬ ‫اغلب‬DM‫کردن‬ ‫کم‬
‫است‬ ‫سازمان‬ ‫درآمدزایی‬ ‫افزایش‬ ‫یا‬ ‫ها‬‫هزینه‬)
‫موجود‬ ‫های‬‫چالش‬ ‫تعداد‬(‫نیاز‬ ‫مورد‬ ‫های‬‫تحلیل‬)‫سیستم‬ ‫در‬
‫های‬‫گیری‬‫تصمیم‬ ‫و‬ ‫سازمان‬ ‫برای‬ ‫کاوی‬ ‫داده‬ ‫احتمالی‬ ‫نتایج‬ ‫بودن‬ ‫مفید‬‫بعدی‬
(‫استراتژیک‬ ‫اهمیت‬ ‫دیدگاه‬ ‫از‬ ‫مدیران‬ ‫نیاز‬ ‫مورد‬ ‫تحلیلی‬ ‫گزارشات‬)
‫کیفیت‌داده‬
‫داده‬ ‫حجم‬(‫فیلد‬ ‫و‬ ‫رکورد‬ ،‫جدول‬ ‫تعداد‬)
‫سابقه‬‫داده‬ ‫داده‬(‫رفتار‬ ‫تحلیل‬ ‫برای‬ ‫گذشته‬ ‫سالهای‬ ‫های‬‫داده‬ ‫از‬ ‫استفاده‬)
‫بودن‬ ‫دقیق‬ ‫و‬ ‫واقعی‬(‫فیلدها‬ ‫خودکار‬ ‫شدن‬ ‫پر‬ ‫و‬ ‫ّی‬‫م‬‫ک‬ ‫های‬‫داده‬)
‫ها‬‫داده‬ ‫بودن‬ ‫تمیز‬(‫کم‬‫یا‬ ‫داده‬ ‫خطای‬ ‫بودن‬noise‫یا‬ ‫خالی‬ ‫داده‬ ‫و‬missing)
80 9/27/2016

Contenu connexe

En vedette

مراکز اقامتی هتلداری
مراکز اقامتی هتلداریمراکز اقامتی هتلداری
مراکز اقامتی هتلداریHossein Abbasi
 
1 النسبة و المعدل
1  النسبة و المعدل1  النسبة و المعدل
1 النسبة و المعدلhanaa1390
 
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرختدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخSeyedbahira Farzadkish
 
ضرورت پیاده سازی Isms
ضرورت پیاده سازی Ismsضرورت پیاده سازی Isms
ضرورت پیاده سازی IsmsMuhammad Bayat
 
Dss dr monem- first session
Dss dr monem- first sessionDss dr monem- first session
Dss dr monem- first sessionHossein Monem
 
Answer the question of trojan tech. case study
Answer the question of trojan tech. case studyAnswer the question of trojan tech. case study
Answer the question of trojan tech. case studySeyedbahira Farzadkish
 
آشنایی با مدلهای سر آمدی
آشنایی با مدلهای سر آمدیآشنایی با مدلهای سر آمدی
آشنایی با مدلهای سر آمدیHamid Nazer
 
SAP Business Objects
SAP Business ObjectsSAP Business Objects
SAP Business ObjectsPaniz Fazlali
 
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیگزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیSeyedbahira Farzadkish
 
Equipment and human resource management in construction project
Equipment and human resource management in construction projectEquipment and human resource management in construction project
Equipment and human resource management in construction projectBabak Farahmand Shad
 
ساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیMorteza Noshad
 
Finance project about housing investment company (hic)
Finance project about housing investment company (hic)Finance project about housing investment company (hic)
Finance project about housing investment company (hic)Seyedbahira Farzadkish
 
مدلهای فرایندی مدیریت دانش
مدلهای فرایندی مدیریت دانشمدلهای فرایندی مدیریت دانش
مدلهای فرایندی مدیریت دانشArash Omidi
 
First successful experience of sap erp implementation in iran
First successful experience of sap erp implementation in iranFirst successful experience of sap erp implementation in iran
First successful experience of sap erp implementation in iranPaniz Fazlali
 

En vedette (20)

مراکز اقامتی هتلداری
مراکز اقامتی هتلداریمراکز اقامتی هتلداری
مراکز اقامتی هتلداری
 
1 النسبة و المعدل
1  النسبة و المعدل1  النسبة و المعدل
1 النسبة و المعدل
 
Project about economic engineering
Project about economic engineeringProject about economic engineering
Project about economic engineering
 
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرختدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
 
ضرورت پیاده سازی Isms
ضرورت پیاده سازی Ismsضرورت پیاده سازی Isms
ضرورت پیاده سازی Isms
 
C#fasl3 2
C#fasl3 2C#fasl3 2
C#fasl3 2
 
Dss dr monem- first session
Dss dr monem- first sessionDss dr monem- first session
Dss dr monem- first session
 
ERP Implementation
ERP ImplementationERP Implementation
ERP Implementation
 
Rasis stragey-web 950126
Rasis stragey-web 950126Rasis stragey-web 950126
Rasis stragey-web 950126
 
Answer the question of trojan tech. case study
Answer the question of trojan tech. case studyAnswer the question of trojan tech. case study
Answer the question of trojan tech. case study
 
آشنایی با مدلهای سر آمدی
آشنایی با مدلهای سر آمدیآشنایی با مدلهای سر آمدی
آشنایی با مدلهای سر آمدی
 
SAP Business Objects
SAP Business ObjectsSAP Business Objects
SAP Business Objects
 
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیگزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
 
Equipment and human resource management in construction project
Equipment and human resource management in construction projectEquipment and human resource management in construction project
Equipment and human resource management in construction project
 
پروژه سیستم کنفرانس مخابرات استان کرمانشاه
پروژه سیستم کنفرانس مخابرات استان کرمانشاهپروژه سیستم کنفرانس مخابرات استان کرمانشاه
پروژه سیستم کنفرانس مخابرات استان کرمانشاه
 
DB Indexing
DB IndexingDB Indexing
DB Indexing
 
ساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیساختار سازماني و سازماندهی
ساختار سازماني و سازماندهی
 
Finance project about housing investment company (hic)
Finance project about housing investment company (hic)Finance project about housing investment company (hic)
Finance project about housing investment company (hic)
 
مدلهای فرایندی مدیریت دانش
مدلهای فرایندی مدیریت دانشمدلهای فرایندی مدیریت دانش
مدلهای فرایندی مدیریت دانش
 
First successful experience of sap erp implementation in iran
First successful experience of sap erp implementation in iranFirst successful experience of sap erp implementation in iran
First successful experience of sap erp implementation in iran
 

Similaire à Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences) - داده کاوی (مفاهیم، کاربردها، تکنیک ها، ابزارها، فرایند و تجربیات داده کاوی در ایران)

cloud computing , رایانش ابری
cloud computing , رایانش ابریcloud computing , رایانش ابری
cloud computing , رایانش ابریvhd-abdarbashi
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracleghanadbashi
 
Cloud Computing7
Cloud Computing7Cloud Computing7
Cloud Computing7amiriano
 
هوش تجاری (Business intelligence)
هوش تجاری (Business intelligence)هوش تجاری (Business intelligence)
هوش تجاری (Business intelligence)RayBPMS
 

Similaire à Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences) - داده کاوی (مفاهیم، کاربردها، تکنیک ها، ابزارها، فرایند و تجربیات داده کاوی در ایران) (6)

cloud computing , رایانش ابری
cloud computing , رایانش ابریcloud computing , رایانش ابری
cloud computing , رایانش ابری
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracle
 
Microsoft BI Sumery
Microsoft BI SumeryMicrosoft BI Sumery
Microsoft BI Sumery
 
Cloud Computing7
Cloud Computing7Cloud Computing7
Cloud Computing7
 
هوش تجاری (Business intelligence)
هوش تجاری (Business intelligence)هوش تجاری (Business intelligence)
هوش تجاری (Business intelligence)
 
E-business
E-businessE-business
E-business
 

Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences) - داده کاوی (مفاهیم، کاربردها، تکنیک ها، ابزارها، فرایند و تجربیات داده کاوی در ایران)