1. ПРАКТИЧЕСКИЙ КУРС
«ОСНОВЫ DATA MINING
ДЛЯ ВСЕХ»
Шевченко Г. Я., к.т.н.,
Руководитель научного отдела компании Ноосфера
Шумейко А. А., д.т.н., профессор
Зав.каф.электроники и компьютерной техники Днепровского
государственного технического университета
2. О DATA MINING И НЕ ТОЛЬКО
Структурирование и классификация – две
основные задачи в познании мира
3. СПОСОБЫ ОБУЧЕНИЯ
У людей обучение происходит :
- в результате ознакомления с правилами, теориями, инструкциями – это
аналитическое обучение
- или на основе опыта (собственного или чужого) – это индуктивное
обучение.
В искусственных системах также присутствуют аналогичные виды
обучения:
- аналитическое обучение - относится к области экспертных систем
- индуктивное обучение - относится к области Machine Learning ( Data
Mining) и будет являться предметом нашего дальнейшего рассмотрения
В случае индуктивного обучения программа обучается на основе
предъявленных ей эмпирических данных. Другими словами, программа
строит некое общее правило на основе предъявленных ей эмпирических
данных, полученных, в частности, путём наблюдения или эксперимента.
!
5. ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ БЕЗ
УЧИТЕЛЯ - ПРИЗНАК, ОБЪЕКТ, ТОС
Признак (свойство) х - количественное или качественное описание того
или иного свойства исследуемого объекта или явления.
Объект Х= (х1 ,..., хn) - это набор значений признаков (х1 ,..., хn) в
пространстве признаков размерностью n, по осям х1, х2, ... , хn которого
откладываются значения этих признаков.
ТОС – таблица "объект-свойство" – основной способ организации данных
6. ПРИЗНАКОВОЕ ОПИСАНИЕ ОБЪЕКТОВ
Объект Х – это точка в n-мерном пространстве признаков.
Категориальный или
Дискретный тип
(ранг, номер градации и т.п.)
в частном случае, бинарный тип
(пол, наличие и т.п.).
Количественный
тип
(рост, вес и т.п.)
Признаки бывают,
в основном, двух типов
7. ПРИМЕРЫ ТОС, ПРИЗНАКА, ЗНАЧЕНИЯ ПРИЗНАКА И
ОБЪЕКТА
x1 x2 x3 x4
5,1 0 2 -29,42
4,9 1 4 -2,49
4,7 1 5 0,56
4,6 1 8 -0,02
X1 – количественный признак
X2 – бинарный признак
X3– категориальный признак
5,1 – значение признака X1
(5,1 0 2 -29,42) – объект X1 (набор значений признаков x1,x2,x3,x4)
Вся таблица носит название таблица «объект-свойство» – сокращенно ТОС,
основной способ организации данных
ТОС
8. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
(ОСНОВНЫЕ ТЕРМИНЫ-СИНОНИМЫ)
Кластеризация или "кластерный анализ"
Автоматическая классификация
Численная таксономия
Структуризация
Самообучение
Распознавание образов без учителя
Алгоритм разбиения на группы и т.д.
9. КЛАСТЕРИЗАЦИЯ
Кластеризация – это задача разбиения
заданной выборки объектов на
непересекающиеся подмножества, называемые
кластерами, так, чтобы каждый кластер состоял
из «схожих» объектов, а объекты разных
кластеров существенно отличались.
В основе кластеризации лежит гипотеза
компактности (практически все алгоритмы используют
этот принцип) - считается, что реализации одного
и того же хорошо организованного образа
обычно отражаются в признаковом
пространстве в геометрически близкие точки,
образуя "компактные" сгустки.
10. ПРИМЕРЫ ЗАДАЧ КЛАСТЕРИЗАЦИИ (ПО
ВЫЯВЛЕНИЮ СТРУКТУРЫ)
Задача 1. Найти области, «похожие» по
потреблению электроэнергии различными
типами клиентов.
Задача 2. Найти страны, «похожие» по уровню
развития.
Задача 3. Найти предприятия, «похожие» по
виду деятельности.
Задача 4. Найти регионы, "похожие" по развитию
малого и среднего бизнеса.
Во всех этих задачах исходные данные
представлены в виде ТОС.
Пример ТОС представлен на следующем слайде
11. ПРИМЕР МНОГОМЕРНОЙ ТОС – КАКИЕ СТРАНЫ
«ПОХОЖИ» МЕЖДУ СОБОЙ
Страны
ВВП на душу
населения,
долл. Доля с/х в %
Доля
пром. в %
Доля
сферы
услуг в %
Доля
городского
населения, %
Болгария 9600 9 30 61 67
Буркина —
Фасо 1300 32 20 48 17
Мозамбик 1300 26 35 39 34
Россия 11100 5 37 58 73
США 41800 1 20 79 78
Швейцария 32300 2 34 64 68
12. ЧТО ОБЩЕГО ПРИСУТСТВУЕТ В ПРЕДСТАВЛЕННЫХ
ВЫШЕ ЗАДАЧАХ:
Таблица «объект – свойство» (ТОС)
Многомерность (несколько признаков)
Разнотипность данных
Одинаковость решаемой задачи – поиск
структуры (поиск «похожих» объектов)
«Похожесть» оценивается по
«расстоянию» между объектами
(строками таблицы)
13. ХАРАКТЕРИСТИКИ ЗАДАЧИ ОБУЧЕНИЯ БЕЗ
УЧИТЕЛЯ
(UNSUPERVISED LEARNING)
Данные: должны быть организованы в виде таблицы "объект -
свойство" (ТОС). Например, в таблице на слайде №11 свойствами
являются показатели развития ряда стран, приведенных в таблице.
Цель: Группировка объектов по «похожести» их свойств. Это
упрощает решение многих практических задач анализа данных.
Допущения: Практически все алгоритмы этого типа используют или
основаны на так называемой гипотезе компактности.
Применение: Алгоритмы кластеризации нашли широкое применение в
самых различных областях: при изучении социальных проблем,
задачах анализа статистических данных экономического характера и
многих других.
14. ДРУГИЕ ЦЕЛИ КЛАСТЕРИЗАЦИИ
Упростить дальнейшую обработку данных.
Разбить множество X на группы схожих объектов, чтобы
работать с каждой группой в отдельности
Сократить объём хранимых данных,
оставив по одному представителю от каждого кластера
(задачи сжатия данных).
Выделить нетипичные объекты,
которые не подходят ни к одному из кластеров.
Построить иерархию множества объектов
(задачи таксономии)
17. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
1
2
3
Сгущения: внутрикластерные
расстояния, как правило, меньше
межкластерных
Кластеры с центром: в каждом
кластере найдётся объект, такой, что
почти все объекты кластера лежат
внутри шара с центром в этом
объекте.
Ленты: для любого объекта найдётся
близкий к нему объект другого
кластера, в то же время существуют
объекты одного кластера, которые не
являются близкими.
18. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
4
5
6
Кластеры могут соединяться
перемычками, что затрудняет работу
многих алгоритмов кластеризации.
Кластеры могут накладываться на
разреженный фон из редких
нетипичных объектов.
Кластеры могут перекрываться
19. ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
7
8
Кластеры могут образовываться не по
принципу сходства, а по каким-либо иным,
заранее неизвестным, свойствам объектов.
Стандартные методы кластеризации здесь
бессильны.
Кластеры могут вообще
отсутствовать. В этом случае надо
применять не кластеризацию, а
иные методы анализа данных.
Первостепенная задача – правильный выбор
пространства признаков! - к математике не относится
21. РЕЗУЛЬТАТ ПРИМЕНЕНИЯ АЛГОРИТМА
КЛАСТЕРИЗАЦИИ К ТОС
Х1 Х2 Х3 У
0 1 1 А
1 1 1 В
0 0 1 А
1 0 0 С
1 0 1 В
0 0 0 В
0 1 0 В
Для кластеризации использовался сервис, расположенный
по адресу: http://sciencehunter.net/Services/analysis
22. ВИЗУАЛИЗАЦИЯ
Шкалирование – один из видов визуализации.
Шкалирование позволяет отобразить многомерную
выборку в виде множества точек на плоскости или в
пространстве. Такое представление, как правило, искажено,
но в целом отражает ее основные структурные особенности, в
частности, её кластерную структуру.
Поэтому двумерное или трехмерное шкалирование
часто используют для наглядной визуализации
многомерной выборки.
Многомерное шкалирование позволяет визуально
оценить число кластеров и качество собранной ТОС!
Поэтому перед проведением кластеризации
желательно провести шкалирование (сервис расположен
по адресу: http://sciencehunter.net/Services/visualization/viz2)
23. ВИЗУАЛИЗАЦИЯ
ПРИМЕР ВИЗУАЛИЗАЦИИ НА ОСНОВЕ ШКАЛИРОВАНИЯ МНОГОМЕРНОЙ ВЫБОРКИ (1500
ОБЪЕКТОВ), ОПИСЫВАЮЩЕЙ 9 ВИДОВ ЗАБОЛЕВАНИЯ ПЕЧЕНИ С ИСПОЛЬЗОВАНИЕМ 12
ПОКАЗАТЕЛЕЙ ОБЩЕГО И БИОХИМИЧЕСКОГО АНАЛИЗОВ КРОВИ
24. РЕШАЕМ ЗАДАЧУ: НАЙТИ РЕГИОНЫ, «ПОХОЖИЕ» ПО
ПОТРЕБЛЕНИЮ ЭЛЕКТРОЭНЕРГИИ РАЗЛИЧНЫМИ ТИПАМИ КЛИЕНТОВ
На входе: данные по потреблению электроэнергии
различными типами клиентов за некоторый период
по областям Украины.
Методы: шкалирование и кластеризация.
На выходе: структура – области, сгруппированные
по «похожести» потребления эл-энергии.
Эффект: «Типизируем» управление потреблением
эл-энергии в различных областях.
Пример данных: https://goo.gl/uBbHSa
Инструменты: http://sciencehunter.net/Services/visualization
http://sciencehunter.net/Services/analysis
Результат: https://goo.gl/G1ZvGN
25. ИТОГО: КАК ПРОВЕСТИ КЛАСТЕРИЗАЦИЮ
Основные этапы при проведении кластеризации
Предобработка
Визуализация
Оценка качества выборки
Разбиение на классы
Интерпретация
Эксплуатация (Практическая реализация)
Проблемы
Выбор метрики (метода вычисления расстояния)
Какие точки считать близкими?
(Влияет на количество задаваемых кластеров)
26. ОБУЧЕНИЕ С УЧИТЕЛЕМ
НЕФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ
Data Mining - это процесс обнаружения в сырых
данных ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Одно из основных положений Data Mining - поиск
неочевидных закономерностей.
Основная гипотеза в задаче обучения с учителем:
«Похожие входные ситуации приводят к похожим
выходным реакциям системы».
27. ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ С УЧИТЕЛЕМ
- КЛАСС, ОБУЧАЮЩАЯ ВЫБОРКА (ОВ), КЛАССИФИКАТОР
Классом принято называть множество объектов Х, имеющих некоторые
общие свойства, отсутствующие у объектов других классов. Класс будем
обозначать через Y.
Множество пар {Хi,Yi} (i=1 … m), где m - количество объектов, принято
называть обучающей выборкой (ОВ).
Классификатор – правило (функция), с помощью которого принимается
решение о принадлежности к классу предъявленного к распознаванию
объекта Х.
28. ПРИМЕРЫ КЛАССА, ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ)
x1 x2 x3 x4 Y
5,1 3,5 2 -12,72 А
4,9 3 4 9,34 А
4,7 3,2 5 19,06 А
4,6 3,1 4 15,22 С
5 3,6 7 9,22 С
5,4 3,9 8 34,41 С
Y – класс , А и С – значения Y
Класс А – множество объектов (строк) {X1, X2, X3} (выделены синим
цветом)
Класс C – множество объектов (строк) {X4, X5, X6} (выделены красным
цветом)
Вся таблица носит название обучающей выборки – сокращенно ОВ,
основной способ организации данных в задаче обучения с учителем
29. ПРИМЕР ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ) –
ЗАДАЧА КЛАССИФИКАЦИИ
Х1 Х2 Х3 У
0 1 1 0
1 1 1 0
0 0 1 0
1 0 0 1
1 0 1 1
0 0 0 1
0 1 0 1
31. Принятие решения с помощью РД
Пример РД приведен на рисунке справа.
Для классификации предъявлен объект
X=(0020), т.е. x1=0, x2=0, x3=2, x4=0.
Движение по РД начинаем с
начальной вершины, в которой
расположен признак x4.
Процесс классификации (принятия
решения) обозначен на рисунке красными
стрелками. В результате классификации
(прохождения по РД) получаем, что
предъявленный объект Х=(0020)
относится к классу с номером 2.
32. РАСПОЗНАЮЩИЕ ДЕРЕВЬЯ
(ДЕРЕВЬЯ РЕШЕНИЙ)
Достоинствами РД являются:
быстрое время работы,
наглядность,
простота использования,
хорошая интерпретируемость,
последовательное, а не одновременное
предъявление признаков при классификации
34. 1 2 3
Другие примеры задач распознавания
Автоматизация
обработки
медицинских
изображений.
Распознавание
геологических
структур по данным
полевых
измерений.
Выделение групп
«похожих» друг на
друга предприятий,
описываемых с
помощью ТОС.
Построение
номенклатуры
изделий.
5 64
Выбор недвижимости
(офисов, квартир) –
построение правила,
позволяющего
назначить правильную
цену в зависимости от
признаков, таких как
город, район,
количество комнат,
этаж, тип дома и т.д.
Урожайность агрокультур.
Измерения - сорт, регион,
почва, удобрение, средняя
температура воздуха,
уровень осадков, другие
признаки, влияющие на
урожайность. Как найти
правило, которое
позволило бы выявить
лучшие сорта для данного
региона?
35. Экономика и финансы
Маркетинг
Биология и медицина
«Умная» энергетика
Обработка естественных языков
Распознавание изображений и речи
Планирование техобслуживания и ремонта
Добыча полезных ископаемых
Интеллектуальные транспортные системы
Анализ социальных сетей
…
ГДЕ ЕЩЕ НАХОДИТ ПРИМЕНЕНИЕ DATA MINING
36. ИТОГО: КАК ПРОВЕСТИ КЛАССИФИКАЦИЮ
Основные этапы при проведении классификации
Предобработка
Оценка качества выборки
Оценка и отбор информативных признаков и
информативных групп признаков (ИГП)
Построение РП и коллектива РП на основе ИГП
с приемлемой точностью распознавания
Эксплуатация (Практическая реализация)
Дообучение
Проблемы
Снижение размерности
Проблема перебора
37. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
1 часть - не математическая:
Математика обычно не имеет дела с этапом выдвижения гипотез
о том, какие характеристики должны включаться в модель
объекта и какой должна быть эта модель.
Изучение предметной области
Выбор признакового пространства
Сбор экспериментального материала
Верификация/Разметка – создание ОВ, очень
большая проблема. (Рынок ОВ в будущем)
Предобработка – от 60% до 80% времени уходит
на нее
38. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
2 часть - Где и когда появляется математика:
Оценка качества выборки
Разделение выборки на ОВ и ЭВ
Оценка информативности признаков
Основная проблема – перебор, как его
сократить или избежать
Поиск ИГП
Построение Решающего правила (РП)
Проверка РП
Дообучение РП
Эксплуатация РП
39. ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
3 часть – что присходит после применения
математики
Получили модель, эмпирические
закономерности, знания - отвечает на вопрос «Что
происходит»
Интерпретация результатов (после получения и
проверки решения – результатов кластеризации
или получения Решающего правила)
Углубление – модели 2-го и далее порядков:
Объяснение - как это происходит
Понимание - почему именно так, а не иначе
Модели должны ответить на вопросы: «Что?», «Как?»,
«Почему?».
40. ЧТО МОЖЕТ И ЧТО НЕ МОЖЕТ DATA MINING
Что учитывать и что принимать во внимание?
Ограничения
Понимание
Что не может Data mining пока принципиально
41. ЧТО ТАКОЕ DATA SCIENCE И BIG DATA
Массивы данных, накопленные в IT, – это не
просто числа
Анализируя эти массивы, можно делать выводы
и прогнозы о природе этих данных
Эти выводы и прогнозы представляют
самостоятельную ценность для бизнеса (гос.
управления, науки и т.д.)
Если данных очень много (помещаются на
нескольких жестких дисках), то говорят о
«Больших данных» (Big Data)
42. О ПОРТАЛЕ HTTP://SCIENCEHUNTER.NET/
Одна сторона медали - "Наука есть
коллективное творчество свободных личностей"
В.И.Вернадский
Другая сторона медали – творчество
индивидуально, но в нем есть рутинные
операции
Личный кабинет
Биржа
Сервисы
Персоналии
43. ЧТО МЫ БУДЕМ ИЗУЧАТЬ
Где и как накапливаются и хранятся данные,
откуда брать данные для обработки
Как представить огромные числовые массивы в
виде наглядных картинок
Как определять сложные закономерности в
данных и как выделить главные
Как, зная прошлое, предсказывать будущее
Изучим реальные кейсы анализа данных из
разных областей знания
Упор на практическом применении готовых
алгоритмов к реальным данным, а не изучение
самих алгоритмов
44. Решение задач анализа данных
У Вас есть реальные данные и Вы
хотите провести их анализ?
Воспользуйтесь сервисом
http://sciencehunter.net/Services/
Notes de l'éditeur
Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора
Привести примеры кластеров
Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора
Дать примеры признаков, объектов, ТОС, класса, ОВ, классификатора