На презентації показано деякі сучасні програмні засоби для статистичної та аналітичної обробки даних, розкриті деякі методичні аспекти аналітичної роботи.
2. Аналітика в сучасному світі
●
Джозеф Джаггер проти казино Beaux-Arts (Монте-Карло,
1875) — загальний виграш у сучасному еквіваленті склав
більше 6 млн. USD
●
Р.Д. Кларк та система наведення ракет ФАУ-2 (Лондон,
1944); доведено випадковість попадань, що було
свідченням відсутності у ракет точної системи наведення
●
Стівен Дойг — стаття «Що пішло не так?» (Майамі Геральд,
1992): основною причиною значних матеріальних збитків
від урагану Ендрю було тотальне порушення будівельних
норм
●
Moneyball — аналітика результатів гри бейсбольних
гравців; в 2002 році команда Oakland Athletics виграє 20
ігор поспіль
2
3. Обробка інформації в сучасній науці
●
математична статистика (Mathematical Statistics)
●
прикладна статистика (Applied Statistics)
●
дослідницький аналіз даних (Data Mining)
●
дослідницький аналіз текстів (Text Mining)
●
машинне навчання (Machine Learning)
●
«великі дані» (Big Data)
●
наука про дані, даталогія (Data Science, Datalogy)
3
4. Специфіка сучасної аналітики
●
дані мають просторово-часові реквізити
●
за наявності великого масиву даних — аналіз можна
виконувати «нескінченно»
●
об’єднання даних із різних джерел призводить до
синергетичного ефекту їхньої корисності
●
аналітичні інструменти відкриті та доступні: більшість
програмного забезпечення з відкритим програмним кодом
●
візуалізація обов’язкова на всіх етапах аналізу
●
у багатьох галузях застосовуються схожі методики:
маркетингові дослідження, соціологічні дослідження,
екологічний моніторинг, електоральні дослідження
4
12. Технології взаємозалежні!12
●
апаратно-програмний комплекс Big Data Appliance (Oracle)
— містить інтегровані інструменти R та Apache Hadoop
●
Oracle Database — містить інтегрований модуль R
●
… Statistica, SPSS, SAS, Netezza, Microsoft Azure — містять
або інтегровані модулі, або мають плагіни для підтримки R
●
геоінформаційна система QGIS — містить модулі підтримки
R та багатьох форматів баз даних
●
всі аналітичні інструменти мають модулі для роботи зі
«сторонніми» форматами даних
13. Збирання даних
Підготовка
ВІЗУАЛІЗАЦІЯ
Описова
статистика
Data Mining
та інші
Аналіз
«Постаналітика»
Послідовність роботи з даними
середні значення;
мінімум;
максимум;
мінливість...
відповідь на питання
«що відбувається?»
асоціація;
класифікація;
послідовність;
кластеризація;
прогнозування
відповідь на питання
«чому так
відбувається?»
та «що далі?»
інколи до
90% часу
13
14. Де взяти дані???14
●
сайти підприємств та установ
●
портали відкритих даних: data.gov.ua; ukrcensus.gov.ua;
datahub.io (здебільшого — технологія CKAN)
●
запити на доступ до інформації: dostup.pravda.com.ua
●
попросити у друзів...
18. Нечислова статистика
Survived: No Yes
Class Sex Age
1st Male Child 0 5
Adult 118 57
Female Child 0 1
Adult 4 140
2nd Male Child 0 11
Adult 154 14
Female Child 0 13
Adult 13 80
3rd Male Child 35 13
Adult 387 75
Female Child 17 14
Adult 89 76
Crew Male Child 0 0
Adult 670 192
Female Child 0 0
Adult 3 20
●
жінок з 1-го та 2-го класів вижило
більше, ніж за випадкових обставин
●
майже половина жінок з 3-го класу —
вижили (більше, ніж очікувалось)
●
більшість дітей перебувало у каютах
3-го класу
●
загалом дітей вижило більше, ніж за
випадкових обставин
●
чоловіків з екіпажу Титаніка загинуло
більше, ніж за випадкових обставин
18
21. Висновки
●
аналітика необхідна як для власного розуміння, так і для
доведення даних кінцевому споживачу
●
машинне зберігання великих масивів інформації значно
полегшуе всебічне використання аналітичних методів
●
аналітичні інструменти відкриті та доступні
●
візуалізація обов’язкова на всіх етапах аналізу
●
відбувається уніфікація методик у різних галузях науки та
техніки
●
великий масив вільно доступної інформації дозволяє
швидко впровадити методики «власними силами»
●
відкриття раніше невідомих закономірностей приносить
дуже значний ефект
21