SlideShare une entreprise Scribd logo
1  sur  45
ПРАКТИЧЕСКИЙ КУРС
«ОСНОВЫ DATA MINING
ДЛЯ ВСЕХ»
Шевченко Г. Я., к.т.н.,
Руководитель научного отдела компании Ноосфера
Шумейко А. А., д.т.н., профессор
Зав.каф.электроники и компьютерной техники Днепровского
государственного технического университета
О DATA MINING И НЕ ТОЛЬКО
 Структурирование и классификация – две
основные задачи в познании мира
СПОСОБЫ ОБУЧЕНИЯ
У людей обучение происходит :
- в результате ознакомления с правилами, теориями, инструкциями – это
аналитическое обучение
- или на основе опыта (собственного или чужого) – это индуктивное
обучение.
В искусственных системах также присутствуют аналогичные виды
обучения:
- аналитическое обучение - относится к области экспертных систем
- индуктивное обучение - относится к области Machine Learning ( Data
Mining) и будет являться предметом нашего дальнейшего рассмотрения
В случае индуктивного обучения программа обучается на основе
предъявленных ей эмпирических данных. Другими словами, программа
строит некое общее правило на основе предъявленных ей эмпирических
данных, полученных, в частности, путём наблюдения или эксперимента.
!
КЛАССИФИКАЦИЯ ЗАДАЧ
ИНДУКТИВНОГО ОБУЧЕНИЯ
Обучение без учителя
(unsupervised learning)
Обучение с учителем
(supervised learning)
ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ БЕЗ
УЧИТЕЛЯ - ПРИЗНАК, ОБЪЕКТ, ТОС
Признак (свойство) х - количественное или качественное описание того
или иного свойства исследуемого объекта или явления.
Объект Х= (х1 ,..., хn) - это набор значений признаков (х1 ,..., хn) в
пространстве признаков размерностью n, по осям х1, х2, ... , хn которого
откладываются значения этих признаков.
ТОС – таблица "объект-свойство" – основной способ организации данных
ПРИЗНАКОВОЕ ОПИСАНИЕ ОБЪЕКТОВ
Объект Х – это точка в n-мерном пространстве признаков.
Категориальный или
Дискретный тип
(ранг, номер градации и т.п.)
в частном случае, бинарный тип
(пол, наличие и т.п.).
Количественный
тип
(рост, вес и т.п.)
Признаки бывают,
в основном, двух типов
ПРИМЕРЫ ТОС, ПРИЗНАКА, ЗНАЧЕНИЯ ПРИЗНАКА И
ОБЪЕКТА
x1 x2 x3 x4
5,1 0 2 -29,42
4,9 1 4 -2,49
4,7 1 5 0,56
4,6 1 8 -0,02
X1 – количественный признак
X2 – бинарный признак
X3– категориальный признак
5,1 – значение признака X1
(5,1 0 2 -29,42) – объект X1 (набор значений признаков x1,x2,x3,x4)
Вся таблица носит название таблица «объект-свойство» – сокращенно ТОС,
основной способ организации данных
ТОС
ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
(ОСНОВНЫЕ ТЕРМИНЫ-СИНОНИМЫ)
 Кластеризация или "кластерный анализ"
 Автоматическая классификация
 Численная таксономия
 Структуризация
 Самообучение
 Распознавание образов без учителя
 Алгоритм разбиения на группы и т.д.
КЛАСТЕРИЗАЦИЯ
 Кластеризация – это задача разбиения
заданной выборки объектов на
непересекающиеся подмножества, называемые
кластерами, так, чтобы каждый кластер состоял
из «схожих» объектов, а объекты разных
кластеров существенно отличались.
 В основе кластеризации лежит гипотеза
компактности (практически все алгоритмы используют
этот принцип) - считается, что реализации одного
и того же хорошо организованного образа
обычно отражаются в признаковом
пространстве в геометрически близкие точки,
образуя "компактные" сгустки.
ПРИМЕРЫ ЗАДАЧ КЛАСТЕРИЗАЦИИ (ПО
ВЫЯВЛЕНИЮ СТРУКТУРЫ)
 Задача 1. Найти области, «похожие» по
потреблению электроэнергии различными
типами клиентов.
 Задача 2. Найти страны, «похожие» по уровню
развития.
 Задача 3. Найти предприятия, «похожие» по
виду деятельности.
 Задача 4. Найти регионы, "похожие" по развитию
малого и среднего бизнеса.
 Во всех этих задачах исходные данные
представлены в виде ТОС.
 Пример ТОС представлен на следующем слайде
ПРИМЕР МНОГОМЕРНОЙ ТОС – КАКИЕ СТРАНЫ
«ПОХОЖИ» МЕЖДУ СОБОЙ
Страны
ВВП на душу
населения,
долл. Доля с/х в %
Доля
пром. в %
Доля
сферы
услуг в %
Доля
городского
населения, %
Болгария 9600 9 30 61 67
Буркина —
Фасо 1300 32 20 48 17
Мозамбик 1300 26 35 39 34
Россия 11100 5 37 58 73
США 41800 1 20 79 78
Швейцария 32300 2 34 64 68
ЧТО ОБЩЕГО ПРИСУТСТВУЕТ В ПРЕДСТАВЛЕННЫХ
ВЫШЕ ЗАДАЧАХ:
 Таблица «объект – свойство» (ТОС)
 Многомерность (несколько признаков)
 Разнотипность данных
 Одинаковость решаемой задачи – поиск
структуры (поиск «похожих» объектов)
 «Похожесть» оценивается по
«расстоянию» между объектами
(строками таблицы)
ХАРАКТЕРИСТИКИ ЗАДАЧИ ОБУЧЕНИЯ БЕЗ
УЧИТЕЛЯ
(UNSUPERVISED LEARNING)
 Данные: должны быть организованы в виде таблицы "объект -
свойство" (ТОС). Например, в таблице на слайде №11 свойствами
являются показатели развития ряда стран, приведенных в таблице.
 Цель: Группировка объектов по «похожести» их свойств. Это
упрощает решение многих практических задач анализа данных.
 Допущения: Практически все алгоритмы этого типа используют или
основаны на так называемой гипотезе компактности.
 Применение: Алгоритмы кластеризации нашли широкое применение в
самых различных областях: при изучении социальных проблем,
задачах анализа статистических данных экономического характера и
многих других.
ДРУГИЕ ЦЕЛИ КЛАСТЕРИЗАЦИИ
 Упростить дальнейшую обработку данных.
Разбить множество X на группы схожих объектов, чтобы
работать с каждой группой в отдельности
 Сократить объём хранимых данных,
оставив по одному представителю от каждого кластера
(задачи сжатия данных).
 Выделить нетипичные объекты,
которые не подходят ни к одному из кластеров.
 Построить иерархию множества объектов
(задачи таксономии)
ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР
(Многомерный ABC-анализ ассортимента)
1
0
100
200
300
400
500
600
0 5,000 10,000 15,000 20,000 25,000 30,000 35,000
Series1
Объем
продаж
Частота
продаж
ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР
(Различные группы клиентов-покупателей
недвижимости)
1
ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
1
2
3
Сгущения: внутрикластерные
расстояния, как правило, меньше
межкластерных
Кластеры с центром: в каждом
кластере найдётся объект, такой, что
почти все объекты кластера лежат
внутри шара с центром в этом
объекте.
Ленты: для любого объекта найдётся
близкий к нему объект другого
кластера, в то же время существуют
объекты одного кластера, которые не
являются близкими.
ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
4
5
6
Кластеры могут соединяться
перемычками, что затрудняет работу
многих алгоритмов кластеризации.
Кластеры могут накладываться на
разреженный фон из редких
нетипичных объектов.
Кластеры могут перекрываться
ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
7
8
Кластеры могут образовываться не по
принципу сходства, а по каким-либо иным,
заранее неизвестным, свойствам объектов.
Стандартные методы кластеризации здесь
бессильны.
Кластеры могут вообще
отсутствовать. В этом случае надо
применять не кластеризацию, а
иные методы анализа данных.
Первостепенная задача – правильный выбор
пространства признаков! - к математике не относится
ПРИМЕР ФОРМАЛИЗОВАННОЙ ТОС
Х1 Х2 Х3 У
0 1 1
1 1 1
0 0 1
1 0 0
1 0 1
0 0 0
0 1 0
РЕЗУЛЬТАТ ПРИМЕНЕНИЯ АЛГОРИТМА
КЛАСТЕРИЗАЦИИ К ТОС
Х1 Х2 Х3 У
0 1 1 А
1 1 1 В
0 0 1 А
1 0 0 С
1 0 1 В
0 0 0 В
0 1 0 В
Для кластеризации использовался сервис, расположенный
по адресу: http://sciencehunter.net/Services/analysis
ВИЗУАЛИЗАЦИЯ
 Шкалирование – один из видов визуализации.
 Шкалирование позволяет отобразить многомерную
выборку в виде множества точек на плоскости или в
пространстве. Такое представление, как правило, искажено,
но в целом отражает ее основные структурные особенности, в
частности, её кластерную структуру.
 Поэтому двумерное или трехмерное шкалирование
часто используют для наглядной визуализации
многомерной выборки.
 Многомерное шкалирование позволяет визуально
оценить число кластеров и качество собранной ТОС!
 Поэтому перед проведением кластеризации
желательно провести шкалирование (сервис расположен
по адресу: http://sciencehunter.net/Services/visualization/viz2)
ВИЗУАЛИЗАЦИЯ
ПРИМЕР ВИЗУАЛИЗАЦИИ НА ОСНОВЕ ШКАЛИРОВАНИЯ МНОГОМЕРНОЙ ВЫБОРКИ (1500
ОБЪЕКТОВ), ОПИСЫВАЮЩЕЙ 9 ВИДОВ ЗАБОЛЕВАНИЯ ПЕЧЕНИ С ИСПОЛЬЗОВАНИЕМ 12
ПОКАЗАТЕЛЕЙ ОБЩЕГО И БИОХИМИЧЕСКОГО АНАЛИЗОВ КРОВИ
РЕШАЕМ ЗАДАЧУ: НАЙТИ РЕГИОНЫ, «ПОХОЖИЕ» ПО
ПОТРЕБЛЕНИЮ ЭЛЕКТРОЭНЕРГИИ РАЗЛИЧНЫМИ ТИПАМИ КЛИЕНТОВ
 На входе: данные по потреблению электроэнергии
различными типами клиентов за некоторый период
по областям Украины.
 Методы: шкалирование и кластеризация.
 На выходе: структура – области, сгруппированные
по «похожести» потребления эл-энергии.
 Эффект: «Типизируем» управление потреблением
эл-энергии в различных областях.
 Пример данных: https://goo.gl/uBbHSa
 Инструменты: http://sciencehunter.net/Services/visualization
 http://sciencehunter.net/Services/analysis
 Результат: https://goo.gl/G1ZvGN
ИТОГО: КАК ПРОВЕСТИ КЛАСТЕРИЗАЦИЮ
Основные этапы при проведении кластеризации
 Предобработка
 Визуализация
 Оценка качества выборки
 Разбиение на классы
 Интерпретация
 Эксплуатация (Практическая реализация)
Проблемы
 Выбор метрики (метода вычисления расстояния)
 Какие точки считать близкими?
 (Влияет на количество задаваемых кластеров)
ОБУЧЕНИЕ С УЧИТЕЛЕМ
НЕФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ
Data Mining - это процесс обнаружения в сырых
данных ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Одно из основных положений Data Mining - поиск
неочевидных закономерностей.
Основная гипотеза в задаче обучения с учителем:
«Похожие входные ситуации приводят к похожим
выходным реакциям системы».
ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ С УЧИТЕЛЕМ
- КЛАСС, ОБУЧАЮЩАЯ ВЫБОРКА (ОВ), КЛАССИФИКАТОР
Классом принято называть множество объектов Х, имеющих некоторые
общие свойства, отсутствующие у объектов других классов. Класс будем
обозначать через Y.
Множество пар {Хi,Yi} (i=1 … m), где m - количество объектов, принято
называть обучающей выборкой (ОВ).
Классификатор – правило (функция), с помощью которого принимается
решение о принадлежности к классу предъявленного к распознаванию
объекта Х.
ПРИМЕРЫ КЛАССА, ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ)
x1 x2 x3 x4 Y
5,1 3,5 2 -12,72 А
4,9 3 4 9,34 А
4,7 3,2 5 19,06 А
4,6 3,1 4 15,22 С
5 3,6 7 9,22 С
5,4 3,9 8 34,41 С
Y – класс , А и С – значения Y
Класс А – множество объектов (строк) {X1, X2, X3} (выделены синим
цветом)
Класс C – множество объектов (строк) {X4, X5, X6} (выделены красным
цветом)
Вся таблица носит название обучающей выборки – сокращенно ОВ,
основной способ организации данных в задаче обучения с учителем
ПРИМЕР ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ) –
ЗАДАЧА КЛАССИФИКАЦИИ
Х1 Х2 Х3 У
0 1 1 0
1 1 1 0
0 0 1 0
1 0 0 1
1 0 1 1
0 0 0 1
0 1 0 1
ПРИМЕР КЛАССИФИКАТОРА В ВИДЕ
РАСПОЗНАЮЩЕГО ДЕРЕВА (РД)
Принятие решения с помощью РД
Пример РД приведен на рисунке справа.
Для классификации предъявлен объект
X=(0020), т.е. x1=0, x2=0, x3=2, x4=0.
Движение по РД начинаем с
начальной вершины, в которой
расположен признак x4.
Процесс классификации (принятия
решения) обозначен на рисунке красными
стрелками. В результате классификации
(прохождения по РД) получаем, что
предъявленный объект Х=(0020)
относится к классу с номером 2.
РАСПОЗНАЮЩИЕ ДЕРЕВЬЯ
(ДЕРЕВЬЯ РЕШЕНИЙ)
Достоинствами РД являются:
 быстрое время работы,
 наглядность,
 простота использования,
 хорошая интерпретируемость,
 последовательное, а не одновременное
предъявление признаков при классификации
Дискриминантные
функции
Другие правила распознавания
Некоторые из них приведены ниже.
Правило
Байеса
Логические
методы
Нейронные
сети
1 2 3
Другие примеры задач распознавания
Автоматизация
обработки
медицинских
изображений.
Распознавание
геологических
структур по данным
полевых
измерений.
Выделение групп
«похожих» друг на
друга предприятий,
описываемых с
помощью ТОС.
Построение
номенклатуры
изделий.
5 64
Выбор недвижимости
(офисов, квартир) –
построение правила,
позволяющего
назначить правильную
цену в зависимости от
признаков, таких как
город, район,
количество комнат,
этаж, тип дома и т.д.
Урожайность агрокультур.
Измерения - сорт, регион,
почва, удобрение, средняя
температура воздуха,
уровень осадков, другие
признаки, влияющие на
урожайность. Как найти
правило, которое
позволило бы выявить
лучшие сорта для данного
региона?
 Экономика и финансы
 Маркетинг
 Биология и медицина
 «Умная» энергетика
 Обработка естественных языков
 Распознавание изображений и речи
 Планирование техобслуживания и ремонта
 Добыча полезных ископаемых
 Интеллектуальные транспортные системы
 Анализ социальных сетей
 …
ГДЕ ЕЩЕ НАХОДИТ ПРИМЕНЕНИЕ DATA MINING
ИТОГО: КАК ПРОВЕСТИ КЛАССИФИКАЦИЮ
Основные этапы при проведении классификации
 Предобработка
 Оценка качества выборки
 Оценка и отбор информативных признаков и
информативных групп признаков (ИГП)
 Построение РП и коллектива РП на основе ИГП
с приемлемой точностью распознавания
 Эксплуатация (Практическая реализация)
 Дообучение
Проблемы
 Снижение размерности
 Проблема перебора
ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
1 часть - не математическая:
Математика обычно не имеет дела с этапом выдвижения гипотез
о том, какие характеристики должны включаться в модель
объекта и какой должна быть эта модель.
 Изучение предметной области
 Выбор признакового пространства
 Сбор экспериментального материала
 Верификация/Разметка – создание ОВ, очень
большая проблема. (Рынок ОВ в будущем)
 Предобработка – от 60% до 80% времени уходит
на нее
ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
2 часть - Где и когда появляется математика:
 Оценка качества выборки
 Разделение выборки на ОВ и ЭВ
 Оценка информативности признаков
 Основная проблема – перебор, как его
сократить или избежать
 Поиск ИГП
 Построение Решающего правила (РП)
 Проверка РП
 Дообучение РП
 Эксплуатация РП
ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
3 часть – что присходит после применения
математики
 Получили модель, эмпирические
закономерности, знания - отвечает на вопрос «Что
происходит»
 Интерпретация результатов (после получения и
проверки решения – результатов кластеризации
или получения Решающего правила)
Углубление – модели 2-го и далее порядков:
 Объяснение - как это происходит
 Понимание - почему именно так, а не иначе
 Модели должны ответить на вопросы: «Что?», «Как?»,
«Почему?».
ЧТО МОЖЕТ И ЧТО НЕ МОЖЕТ DATA MINING
 Что учитывать и что принимать во внимание?
 Ограничения
 Понимание
 Что не может Data mining пока принципиально
ЧТО ТАКОЕ DATA SCIENCE И BIG DATA
 Массивы данных, накопленные в IT, – это не
просто числа
 Анализируя эти массивы, можно делать выводы
и прогнозы о природе этих данных
 Эти выводы и прогнозы представляют
самостоятельную ценность для бизнеса (гос.
управления, науки и т.д.)
 Если данных очень много (помещаются на
нескольких жестких дисках), то говорят о
«Больших данных» (Big Data)
О ПОРТАЛЕ HTTP://SCIENCEHUNTER.NET/
 Одна сторона медали - "Наука есть
коллективное творчество свободных личностей"
В.И.Вернадский
 Другая сторона медали – творчество
индивидуально, но в нем есть рутинные
операции
 Личный кабинет
 Биржа
 Сервисы
 Персоналии
ЧТО МЫ БУДЕМ ИЗУЧАТЬ
 Где и как накапливаются и хранятся данные,
откуда брать данные для обработки
 Как представить огромные числовые массивы в
виде наглядных картинок
 Как определять сложные закономерности в
данных и как выделить главные
 Как, зная прошлое, предсказывать будущее
 Изучим реальные кейсы анализа данных из
разных областей знания
 Упор на практическом применении готовых
алгоритмов к реальным данным, а не изучение
самих алгоритмов
Решение задач анализа данных
У Вас есть реальные данные и Вы
хотите провести их анализ?
Воспользуйтесь сервисом
http://sciencehunter.net/Services/
Практический курс «Основы Data Mining для всех»

Contenu connexe

Tendances

Java. Конструкторы класса и инициализация
Java. Конструкторы класса и инициализация Java. Конструкторы класса и инициализация
Java. Конструкторы класса и инициализация Unguryan Vitaliy
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектовLiloSEA
 
Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Unguryan Vitaliy
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Andrii Gakhov
 
о моделях
о моделяхо моделях
о моделяхserge_luch
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Andrii Gakhov
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыАлександр Дьяконов
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub-IT-School
 
системология
системологиясистемология
системологияElena Nazarova
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Andrii Gakhov
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для HrEdward Babushkin
 
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Александр Дьяконов
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HRAnna Nesmeeva
 

Tendances (18)

Java. Конструкторы класса и инициализация
Java. Конструкторы класса и инициализация Java. Конструкторы класса и инициализация
Java. Конструкторы класса и инициализация
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
 
Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
о моделях
о моделяхо моделях
о моделях
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методы
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
лезин
лезинлезин
лезин
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
 
дисертацIя костьян
дисертацIя костьяндисертацIя костьян
дисертацIя костьян
 
системология
системологиясистемология
системология
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
 
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
Uml
UmlUml
Uml
 
Data mining
Data mining Data mining
Data mining
 

Similaire à Практический курс «Основы Data Mining для всех»

Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
03 кластеризация документов
03 кластеризация документов03 кластеризация документов
03 кластеризация документовLidia Pivovarova
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Pavel Rastyannikov
 
Data base
Data baseData base
Data basesng
 
197.моделирование систем в среде bp win
197.моделирование систем в среде bp win197.моделирование систем в среде bp win
197.моделирование систем в среде bp winivanov156633595
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Skolkovo Robotics Center
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиYandex
 
Методики получения бизнес-информации
Методики получения бизнес-информацииМетодики получения бизнес-информации
Методики получения бизнес-информацииOlya Kollen, PhD
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сетиIvan Kavalerov
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...NLPseminar
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Alexey Kachalin
 
Как решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыКак решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыAntony Kleyman
 
Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализVladimir Burdaev
 
Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обученияДмитрий Колодезев
 
Тема 4. Методы описания сложных систем
Тема 4. Методы описания сложных системТема 4. Методы описания сложных систем
Тема 4. Методы описания сложных системСергей Солнечный
 
основы ооп
основы оопосновы ооп
основы оопDmitry Savin
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
презентация дипломной работы
презентация дипломной работыпрезентация дипломной работы
презентация дипломной работыCherkashinaMS
 
Бизнес и системный анализ весна 2013 лекция 5
Бизнес и системный анализ весна 2013 лекция 5Бизнес и системный анализ весна 2013 лекция 5
Бизнес и системный анализ весна 2013 лекция 5Technopark
 

Similaire à Практический курс «Основы Data Mining для всех» (20)

Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
03 кластеризация документов
03 кластеризация документов03 кластеризация документов
03 кластеризация документов
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)
 
Data base
Data baseData base
Data base
 
197.моделирование систем в среде bp win
197.моделирование систем в среде bp win197.моделирование систем в среде bp win
197.моделирование систем в среде bp win
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
 
Методики получения бизнес-информации
Методики получения бизнес-информацииМетодики получения бизнес-информации
Методики получения бизнес-информации
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
 
Как решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыКак решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемы
 
Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализ
 
л 2 13
л 2 13л 2 13
л 2 13
 
Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обучения
 
Тема 4. Методы описания сложных систем
Тема 4. Методы описания сложных системТема 4. Методы описания сложных систем
Тема 4. Методы описания сложных систем
 
основы ооп
основы оопосновы ооп
основы ооп
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
презентация дипломной работы
презентация дипломной работыпрезентация дипломной работы
презентация дипломной работы
 
Бизнес и системный анализ весна 2013 лекция 5
Бизнес и системный анализ весна 2013 лекция 5Бизнес и системный анализ весна 2013 лекция 5
Бизнес и системный анализ весна 2013 лекция 5
 

Практический курс «Основы Data Mining для всех»

  • 1. ПРАКТИЧЕСКИЙ КУРС «ОСНОВЫ DATA MINING ДЛЯ ВСЕХ» Шевченко Г. Я., к.т.н., Руководитель научного отдела компании Ноосфера Шумейко А. А., д.т.н., профессор Зав.каф.электроники и компьютерной техники Днепровского государственного технического университета
  • 2. О DATA MINING И НЕ ТОЛЬКО  Структурирование и классификация – две основные задачи в познании мира
  • 3. СПОСОБЫ ОБУЧЕНИЯ У людей обучение происходит : - в результате ознакомления с правилами, теориями, инструкциями – это аналитическое обучение - или на основе опыта (собственного или чужого) – это индуктивное обучение. В искусственных системах также присутствуют аналогичные виды обучения: - аналитическое обучение - относится к области экспертных систем - индуктивное обучение - относится к области Machine Learning ( Data Mining) и будет являться предметом нашего дальнейшего рассмотрения В случае индуктивного обучения программа обучается на основе предъявленных ей эмпирических данных. Другими словами, программа строит некое общее правило на основе предъявленных ей эмпирических данных, полученных, в частности, путём наблюдения или эксперимента. !
  • 4. КЛАССИФИКАЦИЯ ЗАДАЧ ИНДУКТИВНОГО ОБУЧЕНИЯ Обучение без учителя (unsupervised learning) Обучение с учителем (supervised learning)
  • 5. ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ БЕЗ УЧИТЕЛЯ - ПРИЗНАК, ОБЪЕКТ, ТОС Признак (свойство) х - количественное или качественное описание того или иного свойства исследуемого объекта или явления. Объект Х= (х1 ,..., хn) - это набор значений признаков (х1 ,..., хn) в пространстве признаков размерностью n, по осям х1, х2, ... , хn которого откладываются значения этих признаков. ТОС – таблица "объект-свойство" – основной способ организации данных
  • 6. ПРИЗНАКОВОЕ ОПИСАНИЕ ОБЪЕКТОВ Объект Х – это точка в n-мерном пространстве признаков. Категориальный или Дискретный тип (ранг, номер градации и т.п.) в частном случае, бинарный тип (пол, наличие и т.п.). Количественный тип (рост, вес и т.п.) Признаки бывают, в основном, двух типов
  • 7. ПРИМЕРЫ ТОС, ПРИЗНАКА, ЗНАЧЕНИЯ ПРИЗНАКА И ОБЪЕКТА x1 x2 x3 x4 5,1 0 2 -29,42 4,9 1 4 -2,49 4,7 1 5 0,56 4,6 1 8 -0,02 X1 – количественный признак X2 – бинарный признак X3– категориальный признак 5,1 – значение признака X1 (5,1 0 2 -29,42) – объект X1 (набор значений признаков x1,x2,x3,x4) Вся таблица носит название таблица «объект-свойство» – сокращенно ТОС, основной способ организации данных ТОС
  • 8. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ (ОСНОВНЫЕ ТЕРМИНЫ-СИНОНИМЫ)  Кластеризация или "кластерный анализ"  Автоматическая классификация  Численная таксономия  Структуризация  Самообучение  Распознавание образов без учителя  Алгоритм разбиения на группы и т.д.
  • 9. КЛАСТЕРИЗАЦИЯ  Кластеризация – это задача разбиения заданной выборки объектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из «схожих» объектов, а объекты разных кластеров существенно отличались.  В основе кластеризации лежит гипотеза компактности (практически все алгоритмы используют этот принцип) - считается, что реализации одного и того же хорошо организованного образа обычно отражаются в признаковом пространстве в геометрически близкие точки, образуя "компактные" сгустки.
  • 10. ПРИМЕРЫ ЗАДАЧ КЛАСТЕРИЗАЦИИ (ПО ВЫЯВЛЕНИЮ СТРУКТУРЫ)  Задача 1. Найти области, «похожие» по потреблению электроэнергии различными типами клиентов.  Задача 2. Найти страны, «похожие» по уровню развития.  Задача 3. Найти предприятия, «похожие» по виду деятельности.  Задача 4. Найти регионы, "похожие" по развитию малого и среднего бизнеса.  Во всех этих задачах исходные данные представлены в виде ТОС.  Пример ТОС представлен на следующем слайде
  • 11. ПРИМЕР МНОГОМЕРНОЙ ТОС – КАКИЕ СТРАНЫ «ПОХОЖИ» МЕЖДУ СОБОЙ Страны ВВП на душу населения, долл. Доля с/х в % Доля пром. в % Доля сферы услуг в % Доля городского населения, % Болгария 9600 9 30 61 67 Буркина — Фасо 1300 32 20 48 17 Мозамбик 1300 26 35 39 34 Россия 11100 5 37 58 73 США 41800 1 20 79 78 Швейцария 32300 2 34 64 68
  • 12. ЧТО ОБЩЕГО ПРИСУТСТВУЕТ В ПРЕДСТАВЛЕННЫХ ВЫШЕ ЗАДАЧАХ:  Таблица «объект – свойство» (ТОС)  Многомерность (несколько признаков)  Разнотипность данных  Одинаковость решаемой задачи – поиск структуры (поиск «похожих» объектов)  «Похожесть» оценивается по «расстоянию» между объектами (строками таблицы)
  • 13. ХАРАКТЕРИСТИКИ ЗАДАЧИ ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ (UNSUPERVISED LEARNING)  Данные: должны быть организованы в виде таблицы "объект - свойство" (ТОС). Например, в таблице на слайде №11 свойствами являются показатели развития ряда стран, приведенных в таблице.  Цель: Группировка объектов по «похожести» их свойств. Это упрощает решение многих практических задач анализа данных.  Допущения: Практически все алгоритмы этого типа используют или основаны на так называемой гипотезе компактности.  Применение: Алгоритмы кластеризации нашли широкое применение в самых различных областях: при изучении социальных проблем, задачах анализа статистических данных экономического характера и многих других.
  • 14. ДРУГИЕ ЦЕЛИ КЛАСТЕРИЗАЦИИ  Упростить дальнейшую обработку данных. Разбить множество X на группы схожих объектов, чтобы работать с каждой группой в отдельности  Сократить объём хранимых данных, оставив по одному представителю от каждого кластера (задачи сжатия данных).  Выделить нетипичные объекты, которые не подходят ни к одному из кластеров.  Построить иерархию множества объектов (задачи таксономии)
  • 15. ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР (Многомерный ABC-анализ ассортимента) 1 0 100 200 300 400 500 600 0 5,000 10,000 15,000 20,000 25,000 30,000 35,000 Series1 Объем продаж Частота продаж
  • 16. ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР (Различные группы клиентов-покупателей недвижимости) 1
  • 17. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ КЛАСТЕРНЫХ СТРУКТУР 1 2 3 Сгущения: внутрикластерные расстояния, как правило, меньше межкластерных Кластеры с центром: в каждом кластере найдётся объект, такой, что почти все объекты кластера лежат внутри шара с центром в этом объекте. Ленты: для любого объекта найдётся близкий к нему объект другого кластера, в то же время существуют объекты одного кластера, которые не являются близкими.
  • 18. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ КЛАСТЕРНЫХ СТРУКТУР 4 5 6 Кластеры могут соединяться перемычками, что затрудняет работу многих алгоритмов кластеризации. Кластеры могут накладываться на разреженный фон из редких нетипичных объектов. Кластеры могут перекрываться
  • 19. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ КЛАСТЕРНЫХ СТРУКТУР 7 8 Кластеры могут образовываться не по принципу сходства, а по каким-либо иным, заранее неизвестным, свойствам объектов. Стандартные методы кластеризации здесь бессильны. Кластеры могут вообще отсутствовать. В этом случае надо применять не кластеризацию, а иные методы анализа данных. Первостепенная задача – правильный выбор пространства признаков! - к математике не относится
  • 20. ПРИМЕР ФОРМАЛИЗОВАННОЙ ТОС Х1 Х2 Х3 У 0 1 1 1 1 1 0 0 1 1 0 0 1 0 1 0 0 0 0 1 0
  • 21. РЕЗУЛЬТАТ ПРИМЕНЕНИЯ АЛГОРИТМА КЛАСТЕРИЗАЦИИ К ТОС Х1 Х2 Х3 У 0 1 1 А 1 1 1 В 0 0 1 А 1 0 0 С 1 0 1 В 0 0 0 В 0 1 0 В Для кластеризации использовался сервис, расположенный по адресу: http://sciencehunter.net/Services/analysis
  • 22. ВИЗУАЛИЗАЦИЯ  Шкалирование – один из видов визуализации.  Шкалирование позволяет отобразить многомерную выборку в виде множества точек на плоскости или в пространстве. Такое представление, как правило, искажено, но в целом отражает ее основные структурные особенности, в частности, её кластерную структуру.  Поэтому двумерное или трехмерное шкалирование часто используют для наглядной визуализации многомерной выборки.  Многомерное шкалирование позволяет визуально оценить число кластеров и качество собранной ТОС!  Поэтому перед проведением кластеризации желательно провести шкалирование (сервис расположен по адресу: http://sciencehunter.net/Services/visualization/viz2)
  • 23. ВИЗУАЛИЗАЦИЯ ПРИМЕР ВИЗУАЛИЗАЦИИ НА ОСНОВЕ ШКАЛИРОВАНИЯ МНОГОМЕРНОЙ ВЫБОРКИ (1500 ОБЪЕКТОВ), ОПИСЫВАЮЩЕЙ 9 ВИДОВ ЗАБОЛЕВАНИЯ ПЕЧЕНИ С ИСПОЛЬЗОВАНИЕМ 12 ПОКАЗАТЕЛЕЙ ОБЩЕГО И БИОХИМИЧЕСКОГО АНАЛИЗОВ КРОВИ
  • 24. РЕШАЕМ ЗАДАЧУ: НАЙТИ РЕГИОНЫ, «ПОХОЖИЕ» ПО ПОТРЕБЛЕНИЮ ЭЛЕКТРОЭНЕРГИИ РАЗЛИЧНЫМИ ТИПАМИ КЛИЕНТОВ  На входе: данные по потреблению электроэнергии различными типами клиентов за некоторый период по областям Украины.  Методы: шкалирование и кластеризация.  На выходе: структура – области, сгруппированные по «похожести» потребления эл-энергии.  Эффект: «Типизируем» управление потреблением эл-энергии в различных областях.  Пример данных: https://goo.gl/uBbHSa  Инструменты: http://sciencehunter.net/Services/visualization  http://sciencehunter.net/Services/analysis  Результат: https://goo.gl/G1ZvGN
  • 25. ИТОГО: КАК ПРОВЕСТИ КЛАСТЕРИЗАЦИЮ Основные этапы при проведении кластеризации  Предобработка  Визуализация  Оценка качества выборки  Разбиение на классы  Интерпретация  Эксплуатация (Практическая реализация) Проблемы  Выбор метрики (метода вычисления расстояния)  Какие точки считать близкими?  (Влияет на количество задаваемых кластеров)
  • 26. ОБУЧЕНИЕ С УЧИТЕЛЕМ НЕФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Одно из основных положений Data Mining - поиск неочевидных закономерностей. Основная гипотеза в задаче обучения с учителем: «Похожие входные ситуации приводят к похожим выходным реакциям системы».
  • 27. ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ С УЧИТЕЛЕМ - КЛАСС, ОБУЧАЮЩАЯ ВЫБОРКА (ОВ), КЛАССИФИКАТОР Классом принято называть множество объектов Х, имеющих некоторые общие свойства, отсутствующие у объектов других классов. Класс будем обозначать через Y. Множество пар {Хi,Yi} (i=1 … m), где m - количество объектов, принято называть обучающей выборкой (ОВ). Классификатор – правило (функция), с помощью которого принимается решение о принадлежности к классу предъявленного к распознаванию объекта Х.
  • 28. ПРИМЕРЫ КЛАССА, ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ) x1 x2 x3 x4 Y 5,1 3,5 2 -12,72 А 4,9 3 4 9,34 А 4,7 3,2 5 19,06 А 4,6 3,1 4 15,22 С 5 3,6 7 9,22 С 5,4 3,9 8 34,41 С Y – класс , А и С – значения Y Класс А – множество объектов (строк) {X1, X2, X3} (выделены синим цветом) Класс C – множество объектов (строк) {X4, X5, X6} (выделены красным цветом) Вся таблица носит название обучающей выборки – сокращенно ОВ, основной способ организации данных в задаче обучения с учителем
  • 29. ПРИМЕР ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ) – ЗАДАЧА КЛАССИФИКАЦИИ Х1 Х2 Х3 У 0 1 1 0 1 1 1 0 0 0 1 0 1 0 0 1 1 0 1 1 0 0 0 1 0 1 0 1
  • 30. ПРИМЕР КЛАССИФИКАТОРА В ВИДЕ РАСПОЗНАЮЩЕГО ДЕРЕВА (РД)
  • 31. Принятие решения с помощью РД Пример РД приведен на рисунке справа. Для классификации предъявлен объект X=(0020), т.е. x1=0, x2=0, x3=2, x4=0. Движение по РД начинаем с начальной вершины, в которой расположен признак x4. Процесс классификации (принятия решения) обозначен на рисунке красными стрелками. В результате классификации (прохождения по РД) получаем, что предъявленный объект Х=(0020) относится к классу с номером 2.
  • 32. РАСПОЗНАЮЩИЕ ДЕРЕВЬЯ (ДЕРЕВЬЯ РЕШЕНИЙ) Достоинствами РД являются:  быстрое время работы,  наглядность,  простота использования,  хорошая интерпретируемость,  последовательное, а не одновременное предъявление признаков при классификации
  • 33. Дискриминантные функции Другие правила распознавания Некоторые из них приведены ниже. Правило Байеса Логические методы Нейронные сети
  • 34. 1 2 3 Другие примеры задач распознавания Автоматизация обработки медицинских изображений. Распознавание геологических структур по данным полевых измерений. Выделение групп «похожих» друг на друга предприятий, описываемых с помощью ТОС. Построение номенклатуры изделий. 5 64 Выбор недвижимости (офисов, квартир) – построение правила, позволяющего назначить правильную цену в зависимости от признаков, таких как город, район, количество комнат, этаж, тип дома и т.д. Урожайность агрокультур. Измерения - сорт, регион, почва, удобрение, средняя температура воздуха, уровень осадков, другие признаки, влияющие на урожайность. Как найти правило, которое позволило бы выявить лучшие сорта для данного региона?
  • 35.  Экономика и финансы  Маркетинг  Биология и медицина  «Умная» энергетика  Обработка естественных языков  Распознавание изображений и речи  Планирование техобслуживания и ремонта  Добыча полезных ископаемых  Интеллектуальные транспортные системы  Анализ социальных сетей  … ГДЕ ЕЩЕ НАХОДИТ ПРИМЕНЕНИЕ DATA MINING
  • 36. ИТОГО: КАК ПРОВЕСТИ КЛАССИФИКАЦИЮ Основные этапы при проведении классификации  Предобработка  Оценка качества выборки  Оценка и отбор информативных признаков и информативных групп признаков (ИГП)  Построение РП и коллектива РП на основе ИГП с приемлемой точностью распознавания  Эксплуатация (Практическая реализация)  Дообучение Проблемы  Снижение размерности  Проблема перебора
  • 37. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ? 1 часть - не математическая: Математика обычно не имеет дела с этапом выдвижения гипотез о том, какие характеристики должны включаться в модель объекта и какой должна быть эта модель.  Изучение предметной области  Выбор признакового пространства  Сбор экспериментального материала  Верификация/Разметка – создание ОВ, очень большая проблема. (Рынок ОВ в будущем)  Предобработка – от 60% до 80% времени уходит на нее
  • 38. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ? 2 часть - Где и когда появляется математика:  Оценка качества выборки  Разделение выборки на ОВ и ЭВ  Оценка информативности признаков  Основная проблема – перебор, как его сократить или избежать  Поиск ИГП  Построение Решающего правила (РП)  Проверка РП  Дообучение РП  Эксплуатация РП
  • 39. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ? 3 часть – что присходит после применения математики  Получили модель, эмпирические закономерности, знания - отвечает на вопрос «Что происходит»  Интерпретация результатов (после получения и проверки решения – результатов кластеризации или получения Решающего правила) Углубление – модели 2-го и далее порядков:  Объяснение - как это происходит  Понимание - почему именно так, а не иначе  Модели должны ответить на вопросы: «Что?», «Как?», «Почему?».
  • 40. ЧТО МОЖЕТ И ЧТО НЕ МОЖЕТ DATA MINING  Что учитывать и что принимать во внимание?  Ограничения  Понимание  Что не может Data mining пока принципиально
  • 41. ЧТО ТАКОЕ DATA SCIENCE И BIG DATA  Массивы данных, накопленные в IT, – это не просто числа  Анализируя эти массивы, можно делать выводы и прогнозы о природе этих данных  Эти выводы и прогнозы представляют самостоятельную ценность для бизнеса (гос. управления, науки и т.д.)  Если данных очень много (помещаются на нескольких жестких дисках), то говорят о «Больших данных» (Big Data)
  • 42. О ПОРТАЛЕ HTTP://SCIENCEHUNTER.NET/  Одна сторона медали - "Наука есть коллективное творчество свободных личностей" В.И.Вернадский  Другая сторона медали – творчество индивидуально, но в нем есть рутинные операции  Личный кабинет  Биржа  Сервисы  Персоналии
  • 43. ЧТО МЫ БУДЕМ ИЗУЧАТЬ  Где и как накапливаются и хранятся данные, откуда брать данные для обработки  Как представить огромные числовые массивы в виде наглядных картинок  Как определять сложные закономерности в данных и как выделить главные  Как, зная прошлое, предсказывать будущее  Изучим реальные кейсы анализа данных из разных областей знания  Упор на практическом применении готовых алгоритмов к реальным данным, а не изучение самих алгоритмов
  • 44. Решение задач анализа данных У Вас есть реальные данные и Вы хотите провести их анализ? Воспользуйтесь сервисом http://sciencehunter.net/Services/

Notes de l'éditeur

  1. Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора
  2. Привести примеры кластеров
  3. Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора
  4. Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора