Практический курс «Основы Data Mining для всех»

ПРАКТИЧЕСКИЙ КУРС
«ОСНОВЫ DATA MINING
ДЛЯ ВСЕХ»
Шевченко Г. Я., к.т.н.,
Руководитель научного отдела компании Ноосфера
Шумейко А. А., д.т.н., профессор
Зав.каф.электроники и компьютерной техники Днепровского
государственного технического университета

О DATA MINING И НЕ ТОЛЬКО
 Структурирование и классификация – две
основные задачи в познании мира

СПОСОБЫ ОБУЧЕНИЯ
У людей обучение происходит :
- в результате ознакомления с правилами, теориями, инструкциями – это
аналитическое обучение
- или на основе опыта (собственного или чужого) – это индуктивное
обучение.
В искусственных системах также присутствуют аналогичные виды
обучения:
- аналитическое обучение - относится к области экспертных систем
- индуктивное обучение - относится к области Machine Learning ( Data
Mining) и будет являться предметом нашего дальнейшего рассмотрения
В случае индуктивного обучения программа обучается на основе
предъявленных ей эмпирических данных. Другими словами, программа
строит некое общее правило на основе предъявленных ей эмпирических
данных, полученных, в частности, путём наблюдения или эксперимента.
!

КЛАССИФИКАЦИЯ ЗАДАЧ
ИНДУКТИВНОГО ОБУЧЕНИЯ
Обучение без учителя
(unsupervised learning)
Обучение с учителем
(supervised learning)

ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ БЕЗ
УЧИТЕЛЯ - ПРИЗНАК, ОБЪЕКТ, ТОС
Признак (свойство) х - количественное или качественное описание того
или иного свойства исследуемого объекта или явления.
Объект Х= (х1 ,..., хn) - это набор значений признаков (х1 ,..., хn) в
пространстве признаков размерностью n, по осям х1, х2, ... , хn которого
откладываются значения этих признаков.
ТОС – таблица "объект-свойство" – основной способ организации данных

ПРИЗНАКОВОЕ ОПИСАНИЕ ОБЪЕКТОВ
Объект Х – это точка в n-мерном пространстве признаков.
Категориальный или
Дискретный тип
(ранг, номер градации и т.п.)
в частном случае, бинарный тип
(пол, наличие и т.п.).
Количественный
тип
(рост, вес и т.п.)
Признаки бывают,
в основном, двух типов

ПРИМЕРЫ ТОС, ПРИЗНАКА, ЗНАЧЕНИЯ ПРИЗНАКА И
ОБЪЕКТА
x1 x2 x3 x4
5,1 0 2 -29,42
4,9 1 4 -2,49
4,7 1 5 0,56
4,6 1 8 -0,02
X1 – количественный признак
X2 – бинарный признак
X3– категориальный признак
5,1 – значение признака X1
(5,1 0 2 -29,42) – объект X1 (набор значений признаков x1,x2,x3,x4)
Вся таблица носит название таблица «объект-свойство» – сокращенно ТОС,
основной способ организации данных
ТОС

ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
(ОСНОВНЫЕ ТЕРМИНЫ-СИНОНИМЫ)
 Кластеризация или "кластерный анализ"
 Автоматическая классификация
 Численная таксономия
 Структуризация
 Самообучение
 Распознавание образов без учителя
 Алгоритм разбиения на группы и т.д.

КЛАСТЕРИЗАЦИЯ
 Кластеризация – это задача разбиения
заданной выборки объектов на
непересекающиеся подмножества, называемые
кластерами, так, чтобы каждый кластер состоял
из «схожих» объектов, а объекты разных
кластеров существенно отличались.
 В основе кластеризации лежит гипотеза
компактности (практически все алгоритмы используют
этот принцип) - считается, что реализации одного
и того же хорошо организованного образа
обычно отражаются в признаковом
пространстве в геометрически близкие точки,
образуя "компактные" сгустки.

ПРИМЕРЫ ЗАДАЧ КЛАСТЕРИЗАЦИИ (ПО
ВЫЯВЛЕНИЮ СТРУКТУРЫ)
 Задача 1. Найти области, «похожие» по
потреблению электроэнергии различными
типами клиентов.
 Задача 2. Найти страны, «похожие» по уровню
развития.
 Задача 3. Найти предприятия, «похожие» по
виду деятельности.
 Задача 4. Найти регионы, "похожие" по развитию
малого и среднего бизнеса.
 Во всех этих задачах исходные данные
представлены в виде ТОС.
 Пример ТОС представлен на следующем слайде

ПРИМЕР МНОГОМЕРНОЙ ТОС – КАКИЕ СТРАНЫ
«ПОХОЖИ» МЕЖДУ СОБОЙ
Страны
ВВП на душу
населения,
долл. Доля с/х в %
Доля
пром. в %
Доля
сферы
услуг в %
Доля
городского
населения, %
Болгария 9600 9 30 61 67
Буркина —
Фасо 1300 32 20 48 17
Мозамбик 1300 26 35 39 34
Россия 11100 5 37 58 73
США 41800 1 20 79 78
Швейцария 32300 2 34 64 68

ЧТО ОБЩЕГО ПРИСУТСТВУЕТ В ПРЕДСТАВЛЕННЫХ
ВЫШЕ ЗАДАЧАХ:
 Таблица «объект – свойство» (ТОС)
 Многомерность (несколько признаков)
 Разнотипность данных
 Одинаковость решаемой задачи – поиск
структуры (поиск «похожих» объектов)
 «Похожесть» оценивается по
«расстоянию» между объектами
(строками таблицы)

ХАРАКТЕРИСТИКИ ЗАДАЧИ ОБУЧЕНИЯ БЕЗ
УЧИТЕЛЯ
(UNSUPERVISED LEARNING)
 Данные: должны быть организованы в виде таблицы "объект -
свойство" (ТОС). Например, в таблице на слайде №11 свойствами
являются показатели развития ряда стран, приведенных в таблице.
 Цель: Группировка объектов по «похожести» их свойств. Это
упрощает решение многих практических задач анализа данных.
 Допущения: Практически все алгоритмы этого типа используют или
основаны на так называемой гипотезе компактности.
 Применение: Алгоритмы кластеризации нашли широкое применение в
самых различных областях: при изучении социальных проблем,
задачах анализа статистических данных экономического характера и
многих других.

ДРУГИЕ ЦЕЛИ КЛАСТЕРИЗАЦИИ
 Упростить дальнейшую обработку данных.
Разбить множество X на группы схожих объектов, чтобы
работать с каждой группой в отдельности
 Сократить объём хранимых данных,
оставив по одному представителю от каждого кластера
(задачи сжатия данных).
 Выделить нетипичные объекты,
которые не подходят ни к одному из кластеров.
 Построить иерархию множества объектов
(задачи таксономии)

ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР
(Многомерный ABC-анализ ассортимента)
1
0
100
200
300
400
500
600
0 5,000 10,000 15,000 20,000 25,000 30,000 35,000
Series1
Объем
продаж
Частота
продаж

ПРИМЕРЫ КЛАСТЕРНЫХ СТРУКТУР
(Различные группы клиентов-покупателей
недвижимости)
1

ФОРМАЛИЗАЦИЯ И ОБОБЩЕНИЕ ТИПОВ
КЛАСТЕРНЫХ СТРУКТУР
1
2
3
Сгущения: внутрикластерные
расстояния, как правило, меньше
межкластерных
Кластеры с центром: в каждом
кластере найдётся объект, такой, что
почти все объекты кластера лежат
внутри шара с центром в этом
объекте.
Ленты: для любого объекта найдётся
близкий к нему объект другого
кластера, в то же время существуют
объекты одного кластера, которые не
являются близкими.

4
5
6
Кластеры могут соединяться
перемычками, что затрудняет работу
многих алгоритмов кластеризации.
Кластеры могут накладываться на
разреженный фон из редких
нетипичных объектов.
Кластеры могут перекрываться

7
8
Кластеры могут образовываться не по
принципу сходства, а по каким-либо иным,
заранее неизвестным, свойствам объектов.
Стандартные методы кластеризации здесь
бессильны.
Кластеры могут вообще
отсутствовать. В этом случае надо
применять не кластеризацию, а
иные методы анализа данных.
Первостепенная задача – правильный выбор
пространства признаков! - к математике не относится

ПРИМЕР ФОРМАЛИЗОВАННОЙ ТОС
Х1 Х2 Х3 У
0 1 1
1 1 1
0 0 1
1 0 0
1 0 1
0 0 0
0 1 0

РЕЗУЛЬТАТ ПРИМЕНЕНИЯ АЛГОРИТМА
КЛАСТЕРИЗАЦИИ К ТОС
Х1 Х2 Х3 У
0 1 1 А
1 1 1 В
0 0 1 А
1 0 0 С
1 0 1 В
0 0 0 В
0 1 0 В
Для кластеризации использовался сервис, расположенный
по адресу: http://sciencehunter.net/Services/analysis

ВИЗУАЛИЗАЦИЯ
 Шкалирование – один из видов визуализации.
 Шкалирование позволяет отобразить многомерную
выборку в виде множества точек на плоскости или в
пространстве. Такое представление, как правило, искажено,
но в целом отражает ее основные структурные особенности, в
частности, её кластерную структуру.
 Поэтому двумерное или трехмерное шкалирование
часто используют для наглядной визуализации
многомерной выборки.
 Многомерное шкалирование позволяет визуально
оценить число кластеров и качество собранной ТОС!
 Поэтому перед проведением кластеризации
желательно провести шкалирование (сервис расположен
по адресу: http://sciencehunter.net/Services/visualization/viz2)

ВИЗУАЛИЗАЦИЯ
ПРИМЕР ВИЗУАЛИЗАЦИИ НА ОСНОВЕ ШКАЛИРОВАНИЯ МНОГОМЕРНОЙ ВЫБОРКИ (1500
ОБЪЕКТОВ), ОПИСЫВАЮЩЕЙ 9 ВИДОВ ЗАБОЛЕВАНИЯ ПЕЧЕНИ С ИСПОЛЬЗОВАНИЕМ 12
ПОКАЗАТЕЛЕЙ ОБЩЕГО И БИОХИМИЧЕСКОГО АНАЛИЗОВ КРОВИ

РЕШАЕМ ЗАДАЧУ: НАЙТИ РЕГИОНЫ, «ПОХОЖИЕ» ПО
ПОТРЕБЛЕНИЮ ЭЛЕКТРОЭНЕРГИИ РАЗЛИЧНЫМИ ТИПАМИ КЛИЕНТОВ
 На входе: данные по потреблению электроэнергии
различными типами клиентов за некоторый период
по областям Украины.
 Методы: шкалирование и кластеризация.
 На выходе: структура – области, сгруппированные
по «похожести» потребления эл-энергии.
 Эффект: «Типизируем» управление потреблением
эл-энергии в различных областях.
 Пример данных: https://goo.gl/uBbHSa
 Инструменты: http://sciencehunter.net/Services/visualization
 http://sciencehunter.net/Services/analysis
 Результат: https://goo.gl/G1ZvGN

ИТОГО: КАК ПРОВЕСТИ КЛАСТЕРИЗАЦИЮ
Основные этапы при проведении кластеризации
 Предобработка
 Визуализация
 Оценка качества выборки
 Разбиение на классы
 Интерпретация
 Эксплуатация (Практическая реализация)
Проблемы
 Выбор метрики (метода вычисления расстояния)
 Какие точки считать близкими?
 (Влияет на количество задаваемых кластеров)

ОБУЧЕНИЕ С УЧИТЕЛЕМ
НЕФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ
Data Mining - это процесс обнаружения в сырых
данных ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Одно из основных положений Data Mining - поиск
неочевидных закономерностей.
Основная гипотеза в задаче обучения с учителем:
«Похожие входные ситуации приводят к похожим
выходным реакциям системы».

ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В ОБУЧЕНИИ С УЧИТЕЛЕМ
- КЛАСС, ОБУЧАЮЩАЯ ВЫБОРКА (ОВ), КЛАССИФИКАТОР
Классом принято называть множество объектов Х, имеющих некоторые
общие свойства, отсутствующие у объектов других классов. Класс будем
обозначать через Y.
Множество пар {Хi,Yi} (i=1 … m), где m - количество объектов, принято
называть обучающей выборкой (ОВ).
Классификатор – правило (функция), с помощью которого принимается
решение о принадлежности к классу предъявленного к распознаванию
объекта Х.

ПРИМЕРЫ КЛАССА, ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ)
x1 x2 x3 x4 Y
5,1 3,5 2 -12,72 А
4,9 3 4 9,34 А
4,7 3,2 5 19,06 А
4,6 3,1 4 15,22 С
5 3,6 7 9,22 С
5,4 3,9 8 34,41 С
Y – класс , А и С – значения Y
Класс А – множество объектов (строк) {X1, X2, X3} (выделены синим
цветом)
Класс C – множество объектов (строк) {X4, X5, X6} (выделены красным
цветом)
Вся таблица носит название обучающей выборки – сокращенно ОВ,
основной способ организации данных в задаче обучения с учителем

ПРИМЕР ОБУЧАЮЩЕЙ ВЫБОРКИ (ОВ) –
ЗАДАЧА КЛАССИФИКАЦИИ
Х1 Х2 Х3 У
0 1 1 0
1 1 1 0
0 0 1 0
1 0 0 1
1 0 1 1
0 0 0 1
0 1 0 1

ПРИМЕР КЛАССИФИКАТОРА В ВИДЕ
РАСПОЗНАЮЩЕГО ДЕРЕВА (РД)

Принятие решения с помощью РД
Пример РД приведен на рисунке справа.
Для классификации предъявлен объект
X=(0020), т.е. x1=0, x2=0, x3=2, x4=0.
Движение по РД начинаем с
начальной вершины, в которой
расположен признак x4.
Процесс классификации (принятия
решения) обозначен на рисунке красными
стрелками. В результате классификации
(прохождения по РД) получаем, что
предъявленный объект Х=(0020)
относится к классу с номером 2.

РАСПОЗНАЮЩИЕ ДЕРЕВЬЯ
(ДЕРЕВЬЯ РЕШЕНИЙ)
Достоинствами РД являются:
 быстрое время работы,
 наглядность,
 простота использования,
 хорошая интерпретируемость,
 последовательное, а не одновременное
предъявление признаков при классификации

Дискриминантные
функции
Другие правила распознавания
Некоторые из них приведены ниже.
Правило
Байеса
Логические
методы
Нейронные
сети

1 2 3
Другие примеры задач распознавания
Автоматизация
обработки
медицинских
изображений.
Распознавание
геологических
структур по данным
полевых
измерений.
Выделение групп
«похожих» друг на
друга предприятий,
описываемых с
помощью ТОС.
Построение
номенклатуры
изделий.
5 64
Выбор недвижимости
(офисов, квартир) –
построение правила,
позволяющего
назначить правильную
цену в зависимости от
признаков, таких как
город, район,
количество комнат,
этаж, тип дома и т.д.
Урожайность агрокультур.
Измерения - сорт, регион,
почва, удобрение, средняя
температура воздуха,
уровень осадков, другие
признаки, влияющие на
урожайность. Как найти
правило, которое
позволило бы выявить
лучшие сорта для данного
региона?

 Экономика и финансы
 Маркетинг
 Биология и медицина
 «Умная» энергетика
 Обработка естественных языков
 Распознавание изображений и речи
 Планирование техобслуживания и ремонта
 Добыча полезных ископаемых
 Интеллектуальные транспортные системы
 Анализ социальных сетей
 …
ГДЕ ЕЩЕ НАХОДИТ ПРИМЕНЕНИЕ DATA MINING

ИТОГО: КАК ПРОВЕСТИ КЛАССИФИКАЦИЮ
Основные этапы при проведении классификации
 Предобработка
 Оценка и отбор информативных признаков и
информативных групп признаков (ИГП)
 Построение РП и коллектива РП на основе ИГП
с приемлемой точностью распознавания
 Эксплуатация (Практическая реализация)
 Дообучение
Проблемы
 Снижение размерности
 Проблема перебора

ИЗ КАКИХ ЧАСТЕЙ СОСТОИТ ДАТА МАЙНИНГ?
1 часть - не математическая:
Математика обычно не имеет дела с этапом выдвижения гипотез
о том, какие характеристики должны включаться в модель
объекта и какой должна быть эта модель.
 Изучение предметной области
 Выбор признакового пространства
 Сбор экспериментального материала
 Верификация/Разметка – создание ОВ, очень
большая проблема. (Рынок ОВ в будущем)
 Предобработка – от 60% до 80% времени уходит
на нее

2 часть - Где и когда появляется математика:
 Разделение выборки на ОВ и ЭВ
 Оценка информативности признаков
 Основная проблема – перебор, как его
сократить или избежать
 Поиск ИГП
 Построение Решающего правила (РП)
 Проверка РП
 Дообучение РП
 Эксплуатация РП

3 часть – что присходит после применения
математики
 Получили модель, эмпирические
закономерности, знания - отвечает на вопрос «Что
происходит»
 Интерпретация результатов (после получения и
проверки решения – результатов кластеризации
или получения Решающего правила)
Углубление – модели 2-го и далее порядков:
 Объяснение - как это происходит
 Понимание - почему именно так, а не иначе
 Модели должны ответить на вопросы: «Что?», «Как?»,
«Почему?».

ЧТО МОЖЕТ И ЧТО НЕ МОЖЕТ DATA MINING
 Что учитывать и что принимать во внимание?
 Ограничения
 Понимание
 Что не может Data mining пока принципиально

ЧТО ТАКОЕ DATA SCIENCE И BIG DATA
 Массивы данных, накопленные в IT, – это не
просто числа
 Анализируя эти массивы, можно делать выводы
и прогнозы о природе этих данных
 Эти выводы и прогнозы представляют
самостоятельную ценность для бизнеса (гос.
управления, науки и т.д.)
 Если данных очень много (помещаются на
нескольких жестких дисках), то говорят о
«Больших данных» (Big Data)

О ПОРТАЛЕ HTTP://SCIENCEHUNTER.NET/
 Одна сторона медали - "Наука есть
коллективное творчество свободных личностей"
В.И.Вернадский
 Другая сторона медали – творчество
индивидуально, но в нем есть рутинные
операции
 Личный кабинет
 Биржа
 Сервисы
 Персоналии

ЧТО МЫ БУДЕМ ИЗУЧАТЬ
 Где и как накапливаются и хранятся данные,
откуда брать данные для обработки
 Как представить огромные числовые массивы в
виде наглядных картинок
 Как определять сложные закономерности в
данных и как выделить главные
 Как, зная прошлое, предсказывать будущее
 Изучим реальные кейсы анализа данных из
разных областей знания
 Упор на практическом применении готовых
алгоритмов к реальным данным, а не изучение
самих алгоритмов

Решение задач анализа данных
У Вас есть реальные данные и Вы
хотите провести их анализ?
Воспользуйтесь сервисом
http://sciencehunter.net/Services/

Практический курс «Основы Data Mining для всех»

Практический курс «Основы Data Mining для всех»

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (18)

Similaire à Практический курс «Основы Data Mining для всех»

Similaire à Практический курс «Основы Data Mining для всех» (20)

Практический курс «Основы Data Mining для всех»

Notes de l'éditeur