Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Big Data Processing in Cloud Computing Environments

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 39 Publicité

Big Data Processing in Cloud Computing Environments

This is my Seminar presentation, adopted from a paper with the same name (Big Data Processing in Cloud Computing Environments), and it is about various issues of Big Data, from its definitions and applications to processing it in cloud computing environments. It also addresses the Big Data technologies and focuses on MapReduce and Hadoop.

This is my Seminar presentation, adopted from a paper with the same name (Big Data Processing in Cloud Computing Environments), and it is about various issues of Big Data, from its definitions and applications to processing it in cloud computing environments. It also addresses the Big Data technologies and focuses on MapReduce and Hadoop.

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (19)

Publicité

Similaire à Big Data Processing in Cloud Computing Environments (20)

Publicité

Plus récents (20)

Big Data Processing in Cloud Computing Environments

  1. 1. ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬ ‫ابری‬ ‫رایانش‬ ‫نوذریان‬ ‫فرزاد‬ fnozarian@gmail.com ‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬ ‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬ 10/‫اردیبهشت‬/93 ‫ابری‬ ‫رایانش‬ ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬ ‫نوذریان‬ ‫فرزاد‬ fnozarian@gmail.com ‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬ ‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬ 17/‫شهریور‬/93
  2. 2. ‫مطالب‬ ‫فهرست‬ ‫‌داده‬‫گ‬‫بزر‬ ‫‌داده‬‫گ‬‫اندازه‌بزر‬ ‫‌داده‬‫گ‬‫اجزای‌بزر‬ ‫‌داده‬‫گ‬‫‌های‌بزر‬‫ی‬‫فناور‬ ‫خالصه‬ 3
  3. 3. ‫است‬ ‫جدیدی‬ ‫نفت‬ ،‫داده‬! ،‫است‬ ‫ارزشمند‬ ‫خام‬ ‫نفت‬ ‫مثل‬ ‫درست‬ ،‫داده‬ ‫کرد‬ ‫استفاده‬ ‫توان‬‫نمی‬ ‫آن‬ ‫از‬ ‫نشود‬ ‫تصفیه‬ ‫اگر‬ ‫اما‬. ‫های‬‫فعالیت‬ ‫همواره‬ ‫که‬ ‫ارزش‬ ‫با‬ ‫محصوالت‬ ‫تولید‬ ‫برای‬ ‫باید‬ ‫کرد‬ ‫تحلیل‬ ‫را‬ ‫آن‬ ،‫دارد‬ ‫دنبال‬ ‫به‬ ‫را‬ ‫سودآوری‬. ‫مفسر‬‫بازاریابی‬‫مایکل‬‫پالمر‬ Source: http://ana.blogs.com/maestros/2006/11/data_is_the_new.html
  4. 4. ‫داده‬‫بزرگ‬‫چیست؟‬ ‫داده‬‫بزرگ‬‫به‬‫هایی‬‫داده‬‫گفته‬‫شود‬‫می‬‫که‬‫فرات‬‫ر‬‫از‬ ‫توان‬‫پردازشی‬‫های‬‫سیستم‬‫پایگاه‬‫ای‬‫داده‬‫رای‬‫ج‬ ‫هستند‬.‫ها‬‫داده‬‫بسیار‬‫بزرگ‬،‫هستند‬‫با‬‫سرع‬‫ت‬ ‫زیادی‬‫در‬،‫حرکتند‬‫یا‬‫مناسب‬‫ساختار‬‫معماری‬ ‫پایگاه‬‫ی‬‫داده‬‫شما‬‫نیستند‬.‫برای‬‫وری‬‫بهره‬‫از‬ ‫ارزش‬‫ها‬‫داده‬‫شما‬‫باید‬‫راه‬‫دیگری‬‫را‬‫برای‬ ‫پردازش‬‫ها‬‫آن‬‫انتخاب‬‫کنید‬. Edd Dumbill, O’Reilly ‫داده‬‫بزرگ‬4
  5. 5. ‫حجم‬‫سرعت‬‫تنوع‬ 201020152020 0.36ZB ‫حجم‬10.5ZB 2.37ZB ‫تولیدی‬ ‫های‬‫داده‬ ‫جهان‬ ‫در‬ ‫داده‬‫بزرگ‬/‫حجم‬5
  6. 6. ‫حجم‬‫سرعت‬‫تنوع‬ 2×14 ‫هر‬ ‫ماه‬ ‫جهان‬ ‫های‬‫داده‬ ‫رشد‬‫سرعت‬‫به‬ ‫حال‬ ‫در‬‫افزایش‬‫است‬ ‫سرعت‬ ‫هر‬14‫ماه‬‫های‬‫داده‬ ‫ها‬‫شرکت‬‫برابر‬ ‫دو‬‫شود‬‫می‬ ‫داده‬‫بزرگ‬/‫سرعت‬6
  7. 7. ‫بالدرنگ‬ ‫تحلیل‬ ‫ها‬‫داده‬‫بزرگ‬ 8 ‫سرعت‬ ‫در‬ ‫ها‬‫داده‬ ‫دقیقه‬ ‫یک‬ +600‫ویدئو‬ ‫یوتیوب‬ ‫در‬ +200‫میلیون‬ ‫وجوی‬‫جست‬‫گوگلی‬ +400,000 ‫تماس‬ ‫دقیقه‬ ‫اسکایپی‬ +400,000 ‫توییت‬ +700,000 ‫بروزرسانی‬ ‫فیسبوکی‬ +7000‫عکس‬ ‫در‬‫فلیکر‬ +1500‫پست‬ ‫در‬‫ها‬‫بالگ‬ +300,000 ‫خرید‬ ‫دالر‬ ‫آنالین‬ +3500 ‫امنیتی‬ ‫هشدار‬ Source: Industry reporting; CRISIL GR&A analysis ‫داده‬‫بزرگ‬/‫سرعت‬ +200‫میلیون‬ ‫ایمیل‬ 8
  8. 8. ‫حجم‬‫سرعت‬‫تنوع‬ ‫جدید‬ ‫های‬‫داده‬ ‫منابع‬ ‫از‬ ‫ها‬‫شرکت‬‫متنوعی‬‫شوند‬‫می‬ ‫تولید‬: 50% ‫کارها‬‫جریان‬‫در‬‫ابرها‬ ‫انتهای‬ ‫تا‬2014 ‫د‬ ‫تجاری‬ ‫تراکنش‬‫ر‬ ‫اینترنت‬‫تا‬2020 450 ‫میلیار‬‫د‬ ‫جدید‬ ‫ایمیل‬‫در‬60‫پیش‬ ‫ثانیه‬ 204,166,667 200,000,000 ‫گوگلی‬ ‫جوی‬‫و‬‫پرس‬ ‫دقیقه‬ ‫هر‬ ‫در‬ 100‫میلیون‬ ‫جدید‬ ‫تجارت‬ ‫سال‬ ‫هر‬ ‫در‬ ‫داده‬‫بزرگ‬/‫تنوع‬9
  9. 9. 1 ‫های‬‫داده‬ ‫ساختاریاف‬‫ته‬ ‫های‬‫داده‬ ‫ساخت‬ ‫شبه‬‫ار‬ ‫های‬‫داده‬ ‫ساختا‬ ‫بدون‬‫ر‬ Source: Industry reporting; CRISIL GR&A analysis •‫‌ها،‌گروه‌بندی‌شده‌به‌شکل‌سطری‌و‬‫ه‬‫‌های‌موجود‌در‌پایگاه‌داد‬‫ه‬‫داد‬ ‫ستونی‬ •‌ً‫ا‬‫تقریب‬5‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ •‫‌های‌ساختار‬‫ه‬‫شکلی‌از‌داد‬‌‫‌های‬‫ل‬‫‌اند‌ولی‌با‌ساختارهای‌رسمی‌مد‬‫ه‬‫یافت‬ ‫‌ای‌مطابقت‌ندارند‬‫ه‬‫داد‬. •‌ً‫ا‬‫تقریب‬10‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ •‫‌ها‌به‌شکل‌سطری‌و‌ستونی‌ذخیره‌کر‬‫ن‬‫‌توان‌آ‬‫ی‬‫‌هایی‌که‌نم‬‫ه‬‫داد‬‌‫د،‌مثل‬ ‫‌ها‬‫ک‬‫‌های‌صوتی،‌ویدئو،‌جریان‌کلی‬‫ل‬‫فای‬ •‌ً‫ا‬‫تقریب‬80‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ ‫داده‬‫بزرگ‬/‫تنوع‬10
  10. 10. ‫داده‬‫بزرگ‬ ‫است؟‬ ‫بزرگ‬ ‫چقدر‬ ‫مخابرات‬ ‫صنعت‬: ‫رکوردهای‬‫تماس‬ ‫جزئیات‬‫ها‬‫تلفن‬‫آمریکا‬ ‫در‬
  11. 11. ‫آمریکا‬ ‫در‬ ‫بزرگسال‬ ‫و‬ ‫نوجوان‬ 250,000,000 X
  12. 12. 10 ‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬
  13. 13. 2,500,000,000 ‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬ X
  14. 14. 2K ‫تماس‬ ‫جزئیات‬ ‫رکورد‬ ‫اندازه‬ ‫میانگین‬ 5‫اطالعات‬ ‫ترابایت‬
  15. 15. ‫در‬ ‫داده‬ ‫مقدار‬ ‫میانگین‬ ‫ای‬‫خوشه‬‫با‬100‫گره‬ 3200 TB 5‫ترابایت‬/‫رو‬‫ز‬
  16. 16. ‫بزرگ‬ ‫علوم‬ ‫ِرن‬‫س‬ ‫ذرات‬ ‫دهنده‬‫شتاب‬(LHC) •‫ثانیه‬ ‫هر‬ ‫در‬40‫از‬ ‫داده‬ ‫بار‬ ‫میلیون‬150‫کند‬‫می‬ ‫تولید‬ ‫حسگر‬ ‫میلیون‬ •ً‫ا‬‫تقریب‬60‫ثانیه‬ ‫هر‬ ‫در‬ ‫برخورد‬ ‫میلیون‬ •‫با‬ ‫کار‬‫حسگرها‬ ‫همه‬ 150‫سالیانه‬ ‫نرخ‬ ‫پتابایت‬ ‫میلیون‬ 500‫روز‬ ‫هر‬ ‫در‬ ‫اگزابایت‬ •500‫کوینتیلیون‬(1020×5)‫روز‬ ‫هر‬ ‫در‬ ‫بایت‬ ً‫ا‬‫تقریب‬200‫برابر‬ ‫ه‬ ‫ترکیب‬ ‫از‬ ‫بیشتر‬‫مه‬ ‫جهان‬ ‫در‬ ‫دیگر‬ ‫منابع‬! •‫با‬ ‫کار‬0.001%‫حسگرها‬ ‫از‬25‫سال‬ ‫در‬ ‫اطالعات‬ ‫پتابایت‬ http://en.wikipedia.org/wiki/Big_data
  17. 17. ‫بردار‬‫نقشه‬‫دیجیتال‬ ‫آسمانی‬‫اسلون‬(SDSS) •‫سال‬ ‫در‬ ‫نجوم‬ ‫تاریخ‬ ‫اطالعات‬ ‫تمام‬ ‫اندازه‬ ‫به‬ ‫رسیدن‬2000 •200‫گیگابایت‬‫شب‬ ‫هر‬ ‫در‬ •‫سال‬ ‫در‬ ‫آن‬ ‫بعدی‬ ‫نسل‬2016-140‫روز‬ ‫پنج‬ ‫هر‬ ‫در‬ ‫ترابایت‬ http://en.wikipedia.org/wiki/Big_data
  18. 18. ‫بخش‬‫خصوصی‬ ‫داده‬‫بزرگ‬ ‫اندازه‬ •‫شرکت‬eBay.com‫حجم‬ ‫به‬ ‫داده‬ ‫انبار‬ ‫دو‬ ‫از‬7.5‫و‬40‫برای‬ ‫پتابایت‬ ‫و‬ ‫جستجو‬‫پیشنهاددهی‬‫به‬‫کنندگان‬‫مصرف‬‫ک‬‫می‬ ‫استفاده‬ ‫تجارت‬ ‫و‬‫ند‬. •‫والمارت‬‫از‬ ‫بیش‬ ‫ساعت‬ ‫هر‬ ‫در‬1‫این‬ ‫که‬ ‫کند‬‫می‬ ‫اداره‬ ‫را‬ ‫تراکنش‬ ‫میلیون‬ ‫ها‬‫تراکنش‬‫از‬ ‫بیش‬ ‫تخمینی‬ ‫حجم‬ ‫به‬ ‫ای‬‫داده‬ ‫پایگاه‬ ‫داخل‬2.5‫پتابایت‬ ‫شود‬‫می‬ ‫وارد‬.‫اطالعات‬ ‫از‬ ‫مقدار‬ ‫این‬167‫در‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫برابر‬ ‫است‬ ‫موجود‬ ‫آمریکا‬ ‫کنگره‬ ‫کتابخانه‬. •‫فیسبوک‬‫کم‬‫دست‬50‫از‬ ‫عکس‬ ‫میلیارد‬‫کاربرانش‬‫کند‬‫می‬ ‫اداره‬ ‫را‬. •FICO‫اعتباری‬ ‫کارت‬ ‫تقلب‬ ‫تشخیص‬ ‫سیستم‬Falcon‫از‬2.1‫میلیارد‬ ‫کند‬‫می‬ ‫حفاظت‬ ‫جهان‬ ‫در‬ ‫فعال‬ ‫حساب‬. 19 http://en.wikipedia.org/wiki/Big_data
  19. 19. ‫تحل‬ ‫و‬ ‫تجزیه‬‫یل‬ ‫استفاده‬ ‫و‬ ‫و‬ ‫مدیریت‬ ‫داده‬ ‫ذخیره‬ ‫بزرگ‬ ‫های‬‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫توسعه‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫استفاده‬‫داده‬ ‫از‬ ‫ها‬‫برنامه‬ BI‫مصورسازی‬ ‫و‬ ‫داده‬ ‫ساختاریافته‬ ‫ساختار‬ ‫بدون‬ ‫داده‬‫بزرگ‬ ‫ابزارهای‬ Source: Karmasphere ‫داده‬‫بزرگ‬ ‫اجزای‬(‫نشده‬ ‫تکمیل‬)20
  20. 20. ‫ها‬‫سیستم‬ ‫گونه‬ ‫این‬ ‫های‬‫محدودیت‬ ‫ای‬‫رابطه‬ ‫داده‬‫پایگاه‬ ‫مدیریت‬ ‫های‬‫سیستم‬(RDBMS) • • • ‫موازی‬ ً‫ا‬‫شدید‬ ‫رایانش‬ ‫های‬‫سیستم‬ (Massively parallel processing) ‫ها‬‫داده‬ ‫انبار‬(Data Warehouse) ‫اجزای‬‫داده‬‫بزرگ‬/‫مدیریت‬21 Source: Karmasphere
  21. 21. ‫داد‬‫بزرگ‬ ‫های‬‫فناوری‬ ‫بندی‬‫دسته‬‫ه‬ •‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬ •‫های‬‫داده‬‫پایگاه‬NoSQL •‫کاهش‬‫نگاشت‬ 22
  22. 22. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گ‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫را‬ ‫داده‬ ‫پایگاه‬ ‫از‬ ‫نوعی‬ ‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫ها‬ ‫ش‬ ‫می‬ ‫ذخیره‬ ‫ستونی‬ ‫ها‬‫داده‬ ‫آن‬ ‫در‬ ‫که‬ ‫هستند‬‫وند‬. EmpId Lastname Firstname Salary 10 Smith Joe 40000 12 Jones Mary 50000 11 Johnson Cathy 44000 22 Jones Bob 55000 001:10,Smith,Joe,40000;002:12,Jones,Mary,50000;003:11, Johnson,Cathy,44000;004:22,Jones,Bob,55000; Seeks‫ترین‬‫پرهزینه‬‫است‬ ‫ها‬ ‫دیسک‬ ‫هارد‬ ‫در‬ ‫عملیات‬. ‫بین‬ ‫ها‬‫آن‬ ‫حقوق‬ ‫که‬ ‫هایی‬ ‫رکورد‬ ‫تمام‬40000‫و‬50000 23
  23. 23. 10:001,12:002,11:003,22:004;Smith:001,Jones:002, Johnson:003,Jones:004;Joe:001,Mary:002,Cathy:003,B ob:004;40000:001,50000:002,44000:003,55000:004; 001:40000;002:50000;003:44000;004:55000; …;Smith:001,Jones:002,004,Johnson:003;… ‫ها‬‫آن‬ ‫خانوادگی‬ ‫نام‬ ‫که‬ ‫افرادی‬ ‫تمام‬ ‫یافتن‬Jones‫است‬ ‫‌گذاری‬‫س‬‫اندی‬‌‫بر‌روی‌ستون‬Salary ‫‌های‌جدول‬‫ه‬‫ذخیره‌ستونی‌داد‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬24
  24. 24. Column Accumulo Cassandra Druid HBase Document Clusterpoint CouchDB Couchbase MarkLogic MongoDB Key-Value Dynamo FoundationDB MemcachDB Redis Graph Allegro Neo4J InfiniteGraph OrientDB ‫های‬‫داده‬‫پایگاه‬NoSQL‫یا‬Not Only SQL‫سازوکاری‬‫را‬ ‫ب‬ ‫آن‬ ‫مدل‬ ‫که‬ ‫طوری‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫ذخیره‬ ‫برای‬‫ا‬ ‫ا‬‫رابطه‬ ‫های‬‫داده‬‫پایگاه‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫ای‬‫رابطه‬ ‫جداول‬‫ی‬ ‫است‬ ‫متفاوت‬. ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/NoSQL25
  25. 25. ‫های‬‫الگوریتم‬ ‫اجرای‬ ‫برای‬ ‫چارچوبی‬ ‫کاهش‬‫نگاشت‬ ‫عظیم‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫بر‬ ‫شده‬‫توزیع‬ ‫و‬ ‫موازی‬ ‫است‬ ‫معمولی‬ ‫کامپیوترهای‬ ‫از‬ ‫زیادی‬ ‫تعداد‬ ‫توسط‬. ‫ش‬‫توزیع‬ ‫پردازش‬ ‫از‬ ‫پشتیبانی‬ ‫برای‬‫بر‬ ‫ده‬ ‫شده‬‫توزیع‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫سال‬ ‫در‬2004‫توسط‬ ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬26
  26. 26. Map Shuffle Reduce ‫کاهش‬‫نگاشت‬ ‫از‬ ‫تصویری‬ ‫مثال‬ ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬27
  27. 27. (K1 , V1) (K2 , V2)‫نگاشت‬ (K2 , V2) ‫مرتب‬ (K2 , }V2, V2 ,…}) (K2 , }V2, V2 ,…}) ‫کاهش‬ (K3 , V3) ‫کاهش‬‫نگاشت‬ ‫کار‬(MapReduce Job) ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬28
  28. 28. ‫مهم‬ ‫بسیار‬ ‫های‬‫ویژگی‬ ‫کاهش‬‫نگاشت‬ •‫ای‬‫خوشه‬ ‫مدیریت‬ ‫های‬‫پیچیدگی‬‫در‬‫های‬‫ماشین‬ ‫را‬ ‫ها‬‫گره‬ ‫بین‬ ‫کار‬ ‫اجرای‬ ‫هماهنگی‬ ‫و‬ ‫بزرگ‬ ‫شده‬‫توزیع‬ ‫دارد‬‫می‬ ‫نگه‬ ‫مخفی‬ ‫کامل‬ ‫طور‬‫به‬. •‫است‬ ‫آسان‬ ‫بسیار‬ ‫آن‬ ‫نویسی‬‫برنامه‬ ‫توسعه‬ ‫مدل‬‫؛‬ ‫توابع‬ ‫نوشتن‬ ‫مسئول‬ ‫تنها‬ ‫دهنده‬ ‫توسعه‬ ‫زیرا‬ ‫است‬ ‫کاهش‬ ‫و‬ ‫نگاشت‬. ‫آن‬ ‫ی‬‫وظیفه‬‫فراهم‬ ‫کلی‬ ‫هماهنگی‬ ‫آوردن‬ ‫عملیات‬ ‫اجرای‬ ‫برای‬ •‫های‬‫ماشین‬ ‫انتخاب‬(‫ها‬‫گره‬)‫نگاشتگ‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬‫رها‬ •‫نگاشتگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬ •‫کاهشگرها‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬ ‫موقعیت‬ ‫انتخاب‬ •‫تحویل‬ ‫و‬ ‫نگاشتگرها‬ ‫خروجی‬ ‫کردن‬ ‫مخلوط‬ ‫و‬ ‫مرتب‬ ‫به‬ ‫خروجی‬‫کاهشگرها‬ •‫کاهشگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬29
  29. 29. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬30
  30. 30. ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/Hadoop ‫و‬ ‫ذخیره‬ ‫برای‬ ‫باز‬‫متن‬ ‫افزاری‬‫نرم‬ ‫چارچوب‬ ‫یک‬ ‫پردازش‬‫های‬‫داده‬‫مجموعه‬‫روی‬ ‫بر‬ ‫بزرگ‬‫ای‬‫خوشه‬ ‫از‬‫افزارهای‬‫سخت‬‫است‬ ‫معمولی‬ ‫و‬ ‫رایج‬. 31
  31. 31. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop 2002 •‫سال‬ ‫در‬2002‫که‬‫درحالی‬Doug Cutting‫و‬Mike Cafarella‫ای‬‫پروژه‬ ‫روی‬ ‫بر‬ ‫نام‬ ‫به‬Nutch‫زیا‬ ‫مقدار‬ ‫پردازش‬ ‫برای‬ ‫را‬ ‫حلی‬‫راه‬ ‫تا‬ ‫کردند‬‫می‬ ‫تالش‬ ‫کردند‬‫می‬ ‫کار‬‫دی‬ ‫کنند‬ ‫پیدا‬ ‫اطالعات‬ ‫از‬. 2004 •‫گوگل‬ ‫سیستم‬ ‫فایل‬ ‫مورد‬ ‫در‬ ‫ای‬‫مقاله‬ ‫گوگل‬(GFS)‫و‬ ‫الگوریتم‬ ‫که‬ ،‫کاهش‬‫نگاشت‬ ‫و‬ ‫ارائ‬ ‫بود‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫پردازش‬ ‫برای‬ ‫ای‬‫شده‬‫توزیع‬ ‫نویسی‬‫برنامه‬ ‫بستر‬‫داد‬ ‫ه‬. 2006 •‫سال‬ ‫در‬2006‫د‬ ‫داده‬‫بزرگ‬ ‫های‬‫چالش‬ ‫با‬ ‫کردن‬ ‫نرم‬ ‫وپنجه‬‫دست‬ ‫از‬ ‫بعد‬ ‫یاهو‬ ‫شرکت‬ ،‫ر‬ ‫پس‬ ‫و‬ ‫خود‬ ‫جستجوی‬ ‫موتور‬ ‫اطالعات‬ ‫از‬ ‫زیادی‬ ‫مقدار‬ ‫روی‬ ‫بر‬ ‫گذاری‬‫اندیس‬ ‫با‬ ‫رابطه‬ ‫پروژه‬ ‫های‬‫پیشرفت‬ ‫مشاهده‬ ‫از‬Nutch،Doug Cutting‫کرد‬ ‫استخدام‬ ‫را‬. ‫تاریخچه‬ 32
  32. 32. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫دیگر‬ ‫از‬ ‫هادوپ‬ ‫شده‬‫توزیع‬ ‫رویکردهای‬ ‫متفاوت‬ ‫مورد‬ ‫چند‬ ‫در‬ ‫است‬ ‫ها‬‫داده‬‫طور‬‫به‬‫پیشرفته‬‫توزیع‬‫شوند؛‬‫می‬ ‫ها‬‫داده‬‫برای‬‫برقراری‬‫قابلیت‬‫اطمینان‬‫و‬‫دستر‬‫سی‬ ‫در‬‫تمام‬‫خوشه‬‫تکرار‬‫شوند؛‬‫می‬ ‫پردازش‬‫ها‬‫داده‬‫جایی‬‫اتفاق‬‫افتد‬‫می‬‫که‬‫ها‬‫داده‬ ‫قرار‬‫دارند؛‬‫بنابراین‬‫گلوگاه‬‫شدن‬‫پهنای‬‫بان‬‫د‬‫از‬ ‫بین‬‫رود‬‫می‬. 33
  33. 33. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫هادوپ‬ ‫های‬‫ویژگی‬ ‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬ ‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬ ‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬ ‫جداسازی‬ ‫هادوپ‬ ‫ویژگی‬ ‫ترین‬‫مهم‬ ‫شفاف‬‫نویسی‬‫برنامه‬ ‫منطق‬ ‫بین‬‫و‬ ‫است‬ ‫تجهیزات‬ ‫پشتیبانی‬. 34
  34. 34. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫هادوپ‬ ‫های‬‫ویژگی‬ ‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬ ‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬ ‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬ 35
  35. 35. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫معماری‬ 36
  36. 36. ‫اجزای‬‫داده‬‫بزرگ‬(‫کامل‬)37
  37. 37. • http://consumer.media.seagate.com/2012/06/the-digital-den/how-much- data-is-generated-in-a-minute/ • http://www.moyak.com/papers/business-startups-entrepreneurs.html • http://visual.ly/how-big-big-data • http://visual.ly/forces-disrupting-network • http://knowwpcarey.com/article.cfm?cid=25&aid=1171 • http://www.csc.com/insights/flxwd/78931- big_data_growth_just_beginning_to_explode • http://visual.ly/data-overload-how-will-we-deal-650-enterprise-data-growth • http://sites.amd.com/us/Documents/IDC_AMD_Big_Data_Whitepaper.pdf ‫منابع‬38
  38. 38. ‫تشکر‬ ‫با‬

Notes de l'éditeur

  • It is perhaps no coincidence that the Hadoop mascot is an elephant.
  • پیش‌بینی به‌جای 6 فاکتور از 300 فاکتور
  • عصر اینترنت و موبایل
    لیست پیشنهادی علاوه بر خرید‌های شخص
    جریان‌های مکانی یا صوتی
    انبار کردن و پردازش آن‌ها
    مثال آی بی ام
    دو دلیل اصلی در پردازش جریانی داده‌ها وجود دارد
    نیازمندی‌های ابزار‌های ذخیره‌سازی
    برنامه مجبور به پاسخی در مقابل دریافت داده‌ها
    برنامه‌های موبایلی و بازی‌های آنلاین
  • Today 80% of Data Existing in any Enterprise is Unstructured Data

    Structured Data
    Structured Data by definition already resides in formal data stores, typically in an RDBMS, a Data Warehouse or an MPP system, and accounts for approximately 5% of the total data deluge9 (the rest is unstructured). It is often categorized as “legacy data” carried forward from before Big Data had currency, but can also be recently derived data stored in pre-Big Data paradigms (RDBMS, DW, MPP, etc.). The “structure” typically refers to formal data groupings into database records with named fields and/or row and column organization, with established associations among the data elements.
    Unstructured Data
    Unstructured Data, by contrast, comprises data collected during other activities and stored in amorphous logs or other files in a file system. Unstructured data can include raw text or binary and contain a rich mix of lexical information and/or numerical values, with or without delimitation, punctuation or metadata.

    A distinguishing feature of Big Data:
    is a mixture of traditional structured data together with unstructured massive amounts of information. The data can come from legacy databases and data warehouses, from web server logs of ecommerce companies and other high-traffic web sites, from M2M (Machine-to-Machine) data traffic and sensor nets.

  • آزمایش‌های برخورددهنده هادرون بزرگ در هر ثانیه 40 میلیون بار داده از 150 میلیون حسگر تولید می‌کند. تقریباً 60 میلیون برخورد در هر ثانیه وجود دارد. بعد از پالایش و صرف‌نظر از بیش از 99.999% این جریان اطلاعاتی، 100 میلیون برخورد در هر ثانیه وجود دارد که مورداستفاده و علاقه دانشمندان است [3].
    درنتیجه، تنها کار کردن با کمتر از 0.001% از جریان داده‌های حسگر، جریان داده‌ای با حجم 25 پتابایت در هر سال از هر چهار آزمایش LHC پیش از تکرار داده‌ها حاصل می‌شود. این مقدار به تقریباً 200 پتابایت بعد از تکرار و رونوشت می‌رسد.
    اگر همه حسگرها برای ضبط استفاده شوند، کار با جریان داده به‌شدت سخت خواهد بود. جریان داده از 150 میلیون پتابایت نرخ سالیانه خواهد گذشت یا تقریباً به 500 اگزابایت در هر روز پیش از تکرار و رونوشت از آن خواهد رسید. برای تجسم بهتر، این عدد برابر خواهد بود با 500 کوینتیلیون (1020×5) بایت در هر روز، تقریباً 200 برابر بیشتر از ترکیب همه منابع دیگر در جهان!
  • زمانی که نقشه‌بردار آسمانی دیجیتال اسلون (SDSS) در سال 2000 شروع به جمع‌کردن اطلاعات ستاره‌شناسی کرد، اطلاعات جمع‌آوری‌شده تنها در چند هفته اول بیش از تمام اطلاعات جمع شده در تاریخ نجوم بود. با ادامه نرخ 200 گیگابایت در هر شب، SDSS بیش از 140 ترابایت اطلاعات جمع کرده است. زمانی که تلسکوپ نقشه‌برداری بزرگ هم دیدی که نسل بعد از SDSS به شمار می‌آید، در سال 2016 شروع به فعالیت کند، پیش‌بینی می‌شود که این مقدار داده را هر پنج روز یک‌بار به دست می‌آورد [4].
    مرکز شبیه‌سازی آب‌وهوای ناسا (NCCS) 32 پتابایت از شبیه‌سازی‌ها و مشاهدات خود را در ابررایانه Discover نگه‌داری می‌کند [5]
  • • Data Management – data storage infrastructure, and resources to manipulate it
    • Data Analysis – technologies and tools to analyze the data and glean insight from it
    • Data Use – putting Big Data insights to work in Business Intelligence and end-user applications
  • For the last two decades, Data Management has built upon three related primary technologies:
    • Relational Data Base Management Systems – to store and manipulate structured data
    • MPP Systems – to crunch increasingly massive data sets and scale with data growth
    • Data Warehousing – to subset and host data for subsequent reporting
    Limitations in Legacy Systems
    • Scalability: as data sets on RDBMSs grow, performance slows, requiring major (not incremental)
    investments in compute capacity. These investments are today outstripping the budgets of organizations,
    especially as data grows exponentially.
    • Representative Data: With declining ability to process whole data sets, information in Data Warehouses is
    no longer statistically representative of the data from which it is derived. As such, business intelligence
    derived from it is less reliable.
    • Unstructured Data: RDBMS and Data Warehousing are definitively structured data entities. However, data
    growth is focused on unstructured data by a factor of 20:1.
    RDBMS, MPP and DW are not going away any time soon. Rather, they are taking on new roles in support of Big
    Data management, most importantly to process and host the output of paradigms such as MapReduce and to
    continue to provide input to BI software and to applications.

  • Row-based systems are designed to efficiently return data for an entire row, or record, in as few operations as possible. This matches the common use-case where the system is attempting to retrieve information about a particular object
    contact information for a user
    Row-based systems are not efficient at performing operations that apply to the entire data set, as opposed to a specific record.
  •  it is the mapping of the data that differs dramatically
    Indexing
    all the values from a set of columns along with pointers back into the original rowed
    However, maintaining indexes adds overhead to the system, especially when new data is written to the database.
    There are a number of row-oriented databases that are designed to fit entirely in RAM, an in-memory database.
  • A NoSQL or Not Only SQL database provides a mechanism for storage and retrieval of data that is modeled in means other than the tabular relations used in relational databases.
     simplicity of design, horizontal scaling and finercontrol over availability
    The data structure (e.g. key-value, graph, or document) differs from the RDBMS, and therefore some operations are faster in NoSQL and some in RDBMS.
  • مدل نگاشت‌کاهش از ترکیبی از مفاهیم نگاشت و کاهش زبان‌های برنامه‌نویسی تابعی مانند Lisp نشأت گرفته است
  • ذخیره‌سازی مقدار عظیمی از داده‌ها: هادوپ برنامه‌ها را قادر می‌سازد تا با هزاران کامپیوتر و پتابایت‌ها داده کار کنند. در دهه‌های گذشته متخصصین کامپیوتر دریافته‌اند که از دستگاه‌های کم‌هزینه رایج و معمولی می‌توانند برای برنامه‌های پردازشی با کارایی بالا استفاده کنند که قبلاً این کار فقط از طریق ابَرکامپیوترها قابل امکان بود. صدها کامپیوتر کوچک می‌توانند در یک خوشه طوری پیکربندی شوند که مجموع توان پردازشی آن‌ها می‌تواند بسیار بیشتر از یک ابَرکامپیوتر و با قیمت کمتری باشد. هادوپ می‌تواند از خوشه‌ای بیش از هزاران ماشین بهره برده تا بستر ذخیره‌سازی و توان پردازشی عظیمی را با قیمتی مناسب سازمان‌ها ارائه دهد.
    پردازش توزیع‌شده با دسترسی سریع به داده‌ها: خوشه‌های هادوپ این امکان را فراهم می‌کنند تا به‌طور کارا داده‌های عظیمی را ذخیره کنند و درعین‌حال دسترسی سریعی را به داده‌ها فراهم آورند. پیش از هادوپ، برنامه‌های پردازشی موازی سختی توزیع اجرا را بین ماشین‌های موجود در خوشه تجربه می‌کردند. این امر به این دلیل بود که مدل اجرای خوشه درخواستی برای داده‌های مشترک با کارایی آی/او بالا می‌ساخت. هادوپ اجرا را به سمت داده‌ها هدایت کرد. انتقال برنامه به سمت داده‌ها بسیاری از چالش‌های کارایی را کاهش داد. بعلاوه، برنامه‌های هادوپ معمولاً طوری سازمان‌دهی می‌شوند که داده‌ها را ترتیبی پردازش کنند. این امر موجب پرهیز از دسترسی داده‌ها به‌صورت تصادفی شده و بیشتر از قبل باعث کاهش سربار آی/او می‌شود.
    قابلیت اطمینان، failover و مقیاس‌پذیری: در گذشته برنامه‌های موازی زمانی که به خوشه‌ای از ماشین‌ها منتقل می‌شدند با مشکلات قابلیت اطمینان دست‌وپنجه نرم می‌کردند. بااینکه قابلیت اطمینان هرکدام از ماشین‌ها تقریباً بالاست اما احتمال ازکارافتادن ماشین‌ها با بالا رفتن اندازه خوشه وجود دارد. اینکه در یک خوشه (با هزاران ماشین) در هر روز خرابی‌هایی داشته باشیم غیرطبیعی نیست. به همین خاطر طوری طراحی و پیاده‌سازی شده است که یک یا مجموعه‌ای از خرابی‌ها منجر به نتایج ناسازگاری نشود. هادوپ خرابی‌ها را شناسایی کرده و اجرا عملیات را با استفاده از گره‌های دیگر از سر می‌گیرد. علاوه بر این، قابلیت مقیاس‌پذیری‌ای که پیاده‌سازی هادوپ از آن پشتیبانی می‌کند این امکان را می‌دهد که سرورهای اضافی (تعمیر شده) را به‌طور ناملموس به خوشه اضافه کنیم و از آن‌ها برای ذخیره‌سازی و اجرای عملیات بهره ببریم.

  • ذخیره‌سازی مقدار عظیمی از داده‌ها: هادوپ برنامه‌ها را قادر می‌سازد تا با هزاران کامپیوتر و پتابایت‌ها داده کار کنند. در دهه‌های گذشته متخصصین کامپیوتر دریافته‌اند که از دستگاه‌های کم‌هزینه رایج و معمولی می‌توانند برای برنامه‌های پردازشی با کارایی بالا استفاده کنند که قبلاً این کار فقط از طریق ابَرکامپیوترها قابل امکان بود. صدها کامپیوتر کوچک می‌توانند در یک خوشه طوری پیکربندی شوند که مجموع توان پردازشی آن‌ها می‌تواند بسیار بیشتر از یک ابَرکامپیوتر و با قیمت کمتری باشد. هادوپ می‌تواند از خوشه‌ای بیش از هزاران ماشین بهره برده تا بستر ذخیره‌سازی و توان پردازشی عظیمی را با قیمتی مناسب سازمان‌ها ارائه دهد.
    پردازش توزیع‌شده با دسترسی سریع به داده‌ها: خوشه‌های هادوپ این امکان را فراهم می‌کنند تا به‌طور کارا داده‌های عظیمی را ذخیره کنند و درعین‌حال دسترسی سریعی را به داده‌ها فراهم آورند. پیش از هادوپ، برنامه‌های پردازشی موازی سختی توزیع اجرا را بین ماشین‌های موجود در خوشه تجربه می‌کردند. این امر به این دلیل بود که مدل اجرای خوشه درخواستی برای داده‌های مشترک با کارایی آی/او بالا می‌ساخت. هادوپ اجرا را به سمت داده‌ها هدایت کرد. انتقال برنامه به سمت داده‌ها بسیاری از چالش‌های کارایی را کاهش داد. بعلاوه، برنامه‌های هادوپ معمولاً طوری سازمان‌دهی می‌شوند که داده‌ها را ترتیبی پردازش کنند. این امر موجب پرهیز از دسترسی داده‌ها به‌صورت تصادفی شده و بیشتر از قبل باعث کاهش سربار آی/او می‌شود.
    قابلیت اطمینان، failover و مقیاس‌پذیری: در گذشته برنامه‌های موازی زمانی که به خوشه‌ای از ماشین‌ها منتقل می‌شدند با مشکلات قابلیت اطمینان دست‌وپنجه نرم می‌کردند. بااینکه قابلیت اطمینان هرکدام از ماشین‌ها تقریباً بالاست اما احتمال ازکارافتادن ماشین‌ها با بالا رفتن اندازه خوشه وجود دارد. اینکه در یک خوشه (با هزاران ماشین) در هر روز خرابی‌هایی داشته باشیم غیرطبیعی نیست. به همین خاطر طوری طراحی و پیاده‌سازی شده است که یک یا مجموعه‌ای از خرابی‌ها منجر به نتایج ناسازگاری نشود. هادوپ خرابی‌ها را شناسایی کرده و اجرا عملیات را با استفاده از گره‌های دیگر از سر می‌گیرد. علاوه بر این، قابلیت مقیاس‌پذیری‌ای که پیاده‌سازی هادوپ از آن پشتیبانی می‌کند این امکان را می‌دهد که سرورهای اضافی (تعمیر شده) را به‌طور ناملموس به خوشه اضافه کنیم و از آن‌ها برای ذخیره‌سازی و اجرای عملیات بهره ببریم.

×