SlideShare a Scribd company logo
1 of 25
Лекция №2

Введение в анализ данных




                           1
План лекции
●   Основные понятия анализа данных
●   Основные подходы анализа данных
●   Основные инструменты анализа данных


    Цель лекции — получить представление о
    процессе анализа данных и применяемых
    методиках


                                             2
Основы Анализа данных

●   Теория вероятности и математическая
    статистика
●   Математический анализ
●   Вычислительная математика
●   Для тех, кто забыл — khanacademy.org




                                           3
Основные понятия

●   Атрибут
       –   Зависимая переменная
       –   Независимая переменная
●   Объект
●   Значение атрибута у объекта
●   Измерение



                                     4
Шкалы

●   Номинальная (=, <>)
●   Дихотомическая
●   Порядковая (=, <>, >, <)
●   Интервальная (=, <>, >, <, +, -)
●   Относительная (=, <>, >, <, +, -, *, /)




                                              5
Процесс анализа данных

●   Постановка задачи
●   Сбор данных
●   Выдвижение гипотез
●   Очистка данных
●   Выбор алгоритма анализа
●   «Обучение» (Machine Learning)
●   Оценка результата
●   Применение построенного в результате
    обучения
                                           6
Постановка задачи

●   Следует сформулировать, что мы хотим
    изучить, какие возможные закономерности
    выявить
●   Предварительные «гипотезы»




                                              7
Сбор данных

●   Из реальности
●   При помощи программных инструментов
●   Или опросов
●   Или наблюдений




                                          8
Выдвижение гипотез

●   Основываясь на собранных данных
●   Их визуализации
●   Их структуре




                                      9
Очистка данных

●   Удаление избыточных
●   Проверка независимости
●   Корреляционный и факторный анализ




                                        10
Выбор алгоритма анализа

●   На основании данных
●   Исходя из задачи
●   Можно несколько, комбинируя (чаще
    последовательно)




                                        11
Обучение

●   Алгоритм анализа часто сам данные не
    анализирует
●   Он строит анализатор данных
●   Который основан на конкретных данных
●   И который как раз доказывает или
    опровергает гипотезу



                                           12
Оценка результата

●   Полученный набор правил следует
    проверить
●   Хотя бы визуализацией
●   При помощи данных, опять же
●   Иногда — на тех же, по которым строили
●   Чаще — на независимых (отобранных
    заранее и не участвовавших в построении)
●   Различными методами
●   Если качество результата не устраивает —   13

    то меняем что-то и заново
Применение построенного
                анализатора
●   Его объяснение
●   Его визуализация
●   Его интерпретация
●   Его использование в реальности




                                     14
Пример

●   Автоводитель (Нейронная сеть)




                                    15
Средства анализа данных

●   Статистические/математические пакеты
●   Среды анализа данных
●   Библиотеки анализа данных
●   Пакеты анализа данных
●   Средства добычи данных
●   Средства очистки данных
●   Средства хранения данных
●   Средства визуализации данных
                                           16
Статистические пакеты

●   SPSS
●   Matlab




                                     17
Среды анализа данных

●   Orange
●   Weka
●   RapidMiner




                                    18
Библиотеки анализа
                   данных
●   Xelopes
●   DTML
●   Waffles
●   Apache Mahout




                                   19
Пакеты анализа данных

●   R
●   GNU Octave
●   Python + Numpy




                                    20
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          21
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          22
Средства очистки данных

●   Парсеры
●   Табличные процессоры
       –   Google Refine
       –   LO Calc
       –   MS Excel




                                        23
Средства хранения данных

●   MS SQL Server
●   MySQL Server
●   Apache Hadoop




                                 24
Средства визуализации

●   Gephi
●   Tulip
●   Google Fusion Tables/ Chart Tools
●   Tableau Public
●   ManyEyes
●   Protovis
●   D3.js
●   Data.js
                                        25
●   ….

More Related Content

What's hot

Будова кісткової, хрящової та м'язової тканин
Будова кісткової, хрящової та м'язової тканинБудова кісткової, хрящової та м'язової тканин
Будова кісткової, хрящової та м'язової тканинlabinskiir-33
 
เอกสารประกอบการเรียน เรื่องเซต
เอกสารประกอบการเรียน เรื่องเซตเอกสารประกอบการเรียน เรื่องเซต
เอกสารประกอบการเรียน เรื่องเซตPoochai Bumroongta
 
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"Olena Коленченко
 
Управління проектами. визначення та концепції
Управління проектами. визначення та концепціїУправління проектами. визначення та концепції
Управління проектами. визначення та концепціїOleg Nazarevych
 
การผันวรรณยุกต์ ป.1
การผันวรรณยุกต์ ป.1การผันวรรณยุกต์ ป.1
การผันวรรณยุกต์ ป.1s6527718t
 
різноманітність травних систем у тварин
різноманітність травних систем у тваринрізноманітність травних систем у тварин
різноманітність травних систем у тваринЕлена Новохатняя
 
формування ключових компетентностей
формування ключових  компетентностейформування ключових  компетентностей
формування ключових компетентностейlika1308
 
Презентація: Колообіг оксигену в природі
Презентація: Колообіг оксигену в природіПрезентація: Колообіг оксигену в природі
Презентація: Колообіг оксигену в природіsveta7940
 
особливості травлення
особливості травленняособливості травлення
особливості травленняgalushko29
 
Педагогічне дослідження. Структура. Методи
Педагогічне дослідження. Структура. МетодиПедагогічне дослідження. Структура. Методи
Педагогічне дослідження. Структура. МетодиMarina Radchenko
 
ปริมาตรของปริซึม3
ปริมาตรของปริซึม3ปริมาตรของปริซึม3
ปริมาตรของปริซึม3Piriya Sisod
 
Pretest เรขาคณิตวิเคราะห์
Pretest เรขาคณิตวิเคราะห์Pretest เรขาคณิตวิเคราะห์
Pretest เรขาคณิตวิเคราะห์nongyao9
 
склад методичного об’єднання вчителів природничо математичного циклу
склад методичного об’єднання вчителів природничо математичного циклусклад методичного об’єднання вчителів природничо математичного циклу
склад методичного об’єднання вчителів природничо математичного циклуssuser6e005d1
 

What's hot (20)

Будова кісткової, хрящової та м'язової тканин
Будова кісткової, хрящової та м'язової тканинБудова кісткової, хрящової та м'язової тканин
Будова кісткової, хрящової та м'язової тканин
 
Аналіз роботи МО класних керівників
Аналіз роботи МО класних керівниківАналіз роботи МО класних керівників
Аналіз роботи МО класних керівників
 
ряд жуки
ряд жукиряд жуки
ряд жуки
 
เอกสารประกอบการเรียน เรื่องเซต
เอกสารประกอบการเรียน เรื่องเซตเอกสารประกอบการเรียน เรื่องเซต
เอกสารประกอบการเรียน เรื่องเซต
 
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"
методична розробка інтегрованого заняття на тему: " Пластиди та фотосинтез"
 
Управління проектами. визначення та концепції
Управління проектами. визначення та концепціїУправління проектами. визначення та концепції
Управління проектами. визначення та концепції
 
การผันวรรณยุกต์ ป.1
การผันวรรณยุกต์ ป.1การผันวรรณยุกต์ ป.1
การผันวรรณยุกต์ ป.1
 
різноманітність травних систем у тварин
різноманітність травних систем у тваринрізноманітність травних систем у тварин
різноманітність травних систем у тварин
 
формування ключових компетентностей
формування ключових  компетентностейформування ключових  компетентностей
формування ключових компетентностей
 
поведінка тварин
поведінка тваринповедінка тварин
поведінка тварин
 
Презентація: Колообіг оксигену в природі
Презентація: Колообіг оксигену в природіПрезентація: Колообіг оксигену в природі
Презентація: Колообіг оксигену в природі
 
особливості травлення
особливості травленняособливості травлення
особливості травлення
 
Йонний зв'язок
Йонний зв'язокЙонний зв'язок
Йонний зв'язок
 
Педагогічне дослідження. Структура. Методи
Педагогічне дослідження. Структура. МетодиПедагогічне дослідження. Структура. Методи
Педагогічне дослідження. Структура. Методи
 
Вода як електроліт. рН
Вода як електроліт. рНВода як електроліт. рН
Вода як електроліт. рН
 
Unit4
Unit4Unit4
Unit4
 
ปริมาตรของปริซึม3
ปริมาตรของปริซึม3ปริมาตรของปริซึม3
ปริมาตรของปริซึม3
 
Pretest เรขาคณิตวิเคราะห์
Pretest เรขาคณิตวิเคราะห์Pretest เรขาคณิตวิเคราะห์
Pretest เรขาคณิตวิเคราะห์
 
Доручення учнів у класі
Доручення учнів у класіДоручення учнів у класі
Доручення учнів у класі
 
склад методичного об’єднання вчителів природничо математичного циклу
склад методичного об’єднання вчителів природничо математичного циклусклад методичного об’єднання вчителів природничо математичного циклу
склад методичного об’єднання вчителів природничо математичного циклу
 

Viewers also liked

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animationsyukha23
 
Impact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckImpact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckEmily Sicely
 
Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Alex Gisak
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиTechart Marketing Group
 
Станислав Завертайло
Станислав ЗавертайлоСтанислав Завертайло
Станислав ЗавертайлоRestoPraktiki
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)CimanConsalt
 
Язык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхЯзык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхMatrunich Consulting
 
Маленькие секреты больших данных
Маленькие секреты больших данныхМаленькие секреты больших данных
Маленькие секреты больших данныхAndrey Ustyuzhanin
 
All About Waffles
All About WafflesAll About Waffles
All About Waffleswoodson27
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleNetpeak
 
Sweet Belgian Waffels
Sweet Belgian WaffelsSweet Belgian Waffels
Sweet Belgian Waffelsrh99int
 
How to Start a Food Truck Business
How to Start a Food Truck BusinessHow to Start a Food Truck Business
How to Start a Food Truck BusinessRestaurant Engine
 
Text Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхText Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхAlexey Kononenko
 

Viewers also liked (14)

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animations
 
Impact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckImpact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food Truck
 
Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
 
Станислав Завертайло
Станислав ЗавертайлоСтанислав Завертайло
Станислав Завертайло
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
 
Язык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхЯзык R: анализ и визуализация данных
Язык R: анализ и визуализация данных
 
Маленькие секреты больших данных
Маленькие секреты больших данныхМаленькие секреты больших данных
Маленькие секреты больших данных
 
All About Waffles
All About WafflesAll About Waffles
All About Waffles
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Sweet Belgian Waffels
Sweet Belgian WaffelsSweet Belgian Waffels
Sweet Belgian Waffels
 
How to Start a Food Truck Business
How to Start a Food Truck BusinessHow to Start a Food Truck Business
How to Start a Food Truck Business
 
Text Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхText Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данных
 

Similar to Введение в анализ данных

AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...JSC “Arcadia Inc”
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Nikolay Grebenshikov
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Ivan Ignatyev
 
Анализ данных
Анализ данныхАнализ данных
Анализ данныхABC Consulting
 
ACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleSQALab
 
Знакомство с проектом
Знакомство с проектомЗнакомство с проектом
Знакомство с проектомNazira Sheraly
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgWG_ Events
 
Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Alexey Lesovsky
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Nikita Makarov
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхSveta Smirnova
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Ontico
 
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Mail.ru Group
 
Mail.ru: Как вырастить в себе автоматизатора и разработчика
Mail.ru:  Как вырастить в себе автоматизатора и разработчикаMail.ru:  Как вырастить в себе автоматизатора и разработчика
Mail.ru: Как вырастить в себе автоматизатора и разработчикаMaxim Boguslavsky
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Levon Avakyan
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmapundera
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Alexey Kachalin
 

Similar to Введение в анализ данных (20)

апрель
апрельапрель
апрель
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3
 
лекц11
лекц11лекц11
лекц11
 
Анализ данных
Анализ данныхАнализ данных
Анализ данных
 
ACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом Google
 
Знакомство с проектом
Знакомство с проектомЗнакомство с проектом
Знакомство с проектом
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.org
 
Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
 
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
 
Mail.ru: Как вырастить в себе автоматизатора и разработчика
Mail.ru:  Как вырастить в себе автоматизатора и разработчикаMail.ru:  Как вырастить в себе автоматизатора и разработчика
Mail.ru: Как вырастить в себе автоматизатора и разработчика
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей.
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmap
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
 

More from Ivan Ignatyev

Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Ivan Ignatyev
 
Административная информация по практике
Административная информация по практикеАдминистративная информация по практике
Административная информация по практикеIvan Ignatyev
 
Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииIvan Ignatyev
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Ivan Ignatyev
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системеIvan Ignatyev
 
Приватность
ПриватностьПриватность
ПриватностьIvan Ignatyev
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связиIvan Ignatyev
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписиIvan Ignatyev
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказовIvan Ignatyev
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияIvan Ignatyev
 
Криптография
КриптографияКриптография
КриптографияIvan Ignatyev
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объектIvan Ignatyev
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияIvan Ignatyev
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностьюIvan Ignatyev
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к даннымIvan Ignatyev
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Ivan Ignatyev
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализIvan Ignatyev
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализIvan Ignatyev
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Ivan Ignatyev
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Ivan Ignatyev
 

More from Ivan Ignatyev (20)

Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.
 
Административная информация по практике
Административная информация по практикеАдминистративная информация по практике
Административная информация по практике
 
Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите Информации
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системе
 
Приватность
ПриватностьПриватность
Приватность
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
 
Криптография
КриптографияКриптография
Криптография
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2
 

Введение в анализ данных

  • 1. Лекция №2 Введение в анализ данных 1
  • 2. План лекции ● Основные понятия анализа данных ● Основные подходы анализа данных ● Основные инструменты анализа данных Цель лекции — получить представление о процессе анализа данных и применяемых методиках 2
  • 3. Основы Анализа данных ● Теория вероятности и математическая статистика ● Математический анализ ● Вычислительная математика ● Для тех, кто забыл — khanacademy.org 3
  • 4. Основные понятия ● Атрибут – Зависимая переменная – Независимая переменная ● Объект ● Значение атрибута у объекта ● Измерение 4
  • 5. Шкалы ● Номинальная (=, <>) ● Дихотомическая ● Порядковая (=, <>, >, <) ● Интервальная (=, <>, >, <, +, -) ● Относительная (=, <>, >, <, +, -, *, /) 5
  • 6. Процесс анализа данных ● Постановка задачи ● Сбор данных ● Выдвижение гипотез ● Очистка данных ● Выбор алгоритма анализа ● «Обучение» (Machine Learning) ● Оценка результата ● Применение построенного в результате обучения 6
  • 7. Постановка задачи ● Следует сформулировать, что мы хотим изучить, какие возможные закономерности выявить ● Предварительные «гипотезы» 7
  • 8. Сбор данных ● Из реальности ● При помощи программных инструментов ● Или опросов ● Или наблюдений 8
  • 9. Выдвижение гипотез ● Основываясь на собранных данных ● Их визуализации ● Их структуре 9
  • 10. Очистка данных ● Удаление избыточных ● Проверка независимости ● Корреляционный и факторный анализ 10
  • 11. Выбор алгоритма анализа ● На основании данных ● Исходя из задачи ● Можно несколько, комбинируя (чаще последовательно) 11
  • 12. Обучение ● Алгоритм анализа часто сам данные не анализирует ● Он строит анализатор данных ● Который основан на конкретных данных ● И который как раз доказывает или опровергает гипотезу 12
  • 13. Оценка результата ● Полученный набор правил следует проверить ● Хотя бы визуализацией ● При помощи данных, опять же ● Иногда — на тех же, по которым строили ● Чаще — на независимых (отобранных заранее и не участвовавших в построении) ● Различными методами ● Если качество результата не устраивает — 13 то меняем что-то и заново
  • 14. Применение построенного анализатора ● Его объяснение ● Его визуализация ● Его интерпретация ● Его использование в реальности 14
  • 15. Пример ● Автоводитель (Нейронная сеть) 15
  • 16. Средства анализа данных ● Статистические/математические пакеты ● Среды анализа данных ● Библиотеки анализа данных ● Пакеты анализа данных ● Средства добычи данных ● Средства очистки данных ● Средства хранения данных ● Средства визуализации данных 16
  • 18. Среды анализа данных ● Orange ● Weka ● RapidMiner 18
  • 19. Библиотеки анализа данных ● Xelopes ● DTML ● Waffles ● Apache Mahout 19
  • 20. Пакеты анализа данных ● R ● GNU Octave ● Python + Numpy 20
  • 21. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 21
  • 22. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 22
  • 23. Средства очистки данных ● Парсеры ● Табличные процессоры – Google Refine – LO Calc – MS Excel 23
  • 24. Средства хранения данных ● MS SQL Server ● MySQL Server ● Apache Hadoop 24
  • 25. Средства визуализации ● Gephi ● Tulip ● Google Fusion Tables/ Chart Tools ● Tableau Public ● ManyEyes ● Protovis ● D3.js ● Data.js 25 ● ….