Необычные модели Playboy, или про поиск аномалий в данных

©"Билайн",БЕРоссия2012
КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ"
Любое использование этого документа без специального разрешения строго запрещено
Необычные модели Playboy,
или про поиск аномалий в данных
Юрий Кашницкий, Школа Данных "Билайн"

План
• Пример поиска выбросов в наборе данных по моделям месяца Playboy
• Пример нахождения «выбросов» невооруженным взглядом
• Одноклассовая машина опорных векторов (One-class SVM)
• Статистические методы поиска выбросов
• Сравнение поиска выбросов на основе многомерного нормального распределения
и одноклассовой машина опорных векторов
• Алгоритм плотностной кластеризации DBSCAN
Внимание! Возможна демонстрация фотоматериалов, не нарушающих
постановление 242 УК РФ «Незаконные изготовление и оборот порнографических
материалов или предметов»

Сразу пример
Данные Wired по 607 моделям месяца Playboy
c 1953 по 2009 годы.
Первые 5 записей:
Месяц Год Грудь Талия Бедра Рост Вес
0 Декабрь 1953 91 61 91 165 54
1 Март 1954 86 61 89 168 54
2 Июль 1955 91 61 91 166 52
3 Дек 1955 91 61 91 166 52
4 Июль 1956 91 61 86 157 48

Знакомство с данными
3
Признаки:
• Год, месяц признания моделью
месяца Playboy
• Охваты груди, талии и бедер
• Рост и вес
Год Грудь Талия Бедра Рост Вес
Число 604 604 604 604 604 604
Среднее 1983 89.3 59.5 87.9 167.9 52.2
Минимум 1953 81 46 61 150 42
Максимум 2009 104 89 99 188 68
Oh, really?

Пример возможного «выброса»
4
Что за бочка?
Тройняшки Дам
(Nicole, Erica, and Jaclyn Dahm)
86-89 (реально 64)-86
рост 173, вес 52
483 Декабрь 1998 86 89 86 173 52

Еще два «выброса»
5
Мики Уинтерс (Mickie Winters)
Жони Маттис (Joni Mattis)
Вывод: некоторые аномалии
можно найти «невооруженным
взглядом»
33 Ноябрь 1960 84 46 81 157 45
54 Сентябрь 1962 91 46 86 152 45

Распределение охвата груди
6

Распределение охвата талии
7

Распределение охвата бедер
8

Распределение роста
9

Распределение веса
10

Попарные зависимости признаков
11
грудь
талия
бедра
рост
вес

Выбросы, определенные алгоритмом OneClass SVM
12
Sklearn.svm.OneClassSVM, ядро RBF, 1% выбросов

7 «выбросов» в наборе данных по моделям Playboy
13
Сентябрь 1962 91 46 86 152 45
Октябрь 1963 94 66 94 183 68
Октябрь 1964 104 64 97 168 66
Сентябрь 1972 98 64 99 185 64
Декабрь 1998 86 89 86 173 52
Декабрь 2000 86 66 91 188 61
Апрель 2003 86 61 69 173 54

Формулировка задачи поиска аномалий («выбросов») в данных
14
• Четкой постановки задачи нет
• Интуитивно понятно – найти объекты,
сильно отличающиеся от других
(обучение без учителя)
• Попытка вероятностной
формулировки:
Пусть p(x) – функция плотности
вероятности, определенная
признаковом пространстве Φ(Χ)
выборки Χ. Найти объекты, для которых
p(x) < ε (ε – малый параметр, процент
выбросов). (Andrew Ng, ML course)

15
Приложения
• Обнаружение мошенничества при
транзакциях (fraud detection)
• Прогноз «падения» сервера в кластере
• Обнаружение бракованных изделий при
производстве
• Обнаружение попыток взлома сети
• Исправление ошибок/опечаток
• Устойчивость алгоритмов машинного
обучения

16
Метрические методы машинного обучения и «выбросы»
С выбросами
С меньшим числом выбросов
Квартет Энскомба

17
Разделяющие гиперплоскости при линейной разделимости

18
Максимизация зазора

19
SVM как задача квадратичной оптимизации

20
А что в случае линейной неразделимости?

21
Линейная разделимость в пространстве более высокой размерности
Признак 𝒙 Признаки 𝒙 , 𝒙 𝟐

22
Линейная разделимость в пространстве более высокой размерности
Признаки 𝒙 𝟏, 𝒙 𝟐
Признаки 𝒙 𝟏, 𝒙 𝟐, 𝒙 𝟏
𝟐
+ 𝒙 𝟐
𝟐
φ

23
Нелинейная граница в исходном пространстве
При обратном проецировании разделяющая граница
получается нелинейной
«Ядерный трюк»
Для классификации новых объектов
надо вычислять скалярные произведения
вида <φ(x), φ(x’)>,
где x – тестовый объект,
x’ – опорный вектор (объект).
Эти вычисления можно свести к
вычислению скалярных
произведений в исходном пространстве
K(<φ(x), φ(x’)>) = f (<x, x’>), что намного
вычислительно проще.

24
Идея OneClass SVM: 2 подхода
(Tax, Duin, 2004)(Schölkopf et.al., 1999)
В обоих подходах решается задача квадратичной оптимизации

25
Подход на основе нормального распределения
• Предполагается, что данные подчиняются нормальному
распределению (а это может быть и не так, но есть статистические
тесты)
• Оценивается плотность распределения (легко обобщается на
случай многомерного распределения)
где μ 𝑗 =
1
𝑚
𝑥𝑗
(𝑖)𝑚
𝑖=1 , σ2
𝑗 =
1
𝑚
(𝑥𝑗
𝑖 − μ 𝑗)2𝑚
𝑖=1
• Объект x считается выбросом, если
p(x) < ε

26
Сравнение подходов - I
(Scikit-learn)

27
Сравнение подходов- II
(Scikit-learn)

28
Сравнение подходов- III
(Scikit-learn)

29
Сравнение подходов- IV
(Scikit-learn)

30
Алгоритм кластеризации DBSCAN - I

31
Алгоритм кластеризации DBSCAN - II

32
Алгоритм кластеризации DBSCAN - III

33
Алгоритм кластеризации DBSCAN - IV

34
Алгоритм кластеризации DBSCAN - V

35
Алгоритм кластеризации DBSCAN - VI

36
Алгоритм кластеризации DBSCAN - VII

37
Алгоритм кластеризации DBSCAN - VIII

38
Ссылки
• Bernhard Schölkopf, Robert C Williamson, Alex J Smola, John Shawe-Taylor, John C
Platt. «Support Vector Method for Novelty Detection», NIPS vol. 12, 582-58 (1999)
• David MJ Tax, Robert PW Duin. «Support vector data description». Machine learning,
54(1), 45-56 (2004)
• Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei Simoudis, Evangelos;
Han, Jiawei; Fayyad, Usama M., eds. A density-based algorithm for discovering
clusters in large spatial databases with noise. Proceedings of the Second International
Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–
231 (1996)
• Andrew Ng, «Machine Learning», Coursera - https://ru.coursera.org/learn/machine-
learning
• Необычные модели Playboy, или про обнаружение выбросов в данных c помощью
Scikit-learn - http://habrahabr.ru/post/251225/
• Примеры Scikit-learn по поиску аномалий - http://scikit-
learn.org/stable/auto_examples/covariance/plot_outlier_detection.html, http://scikit-
learn.org/stable/auto_examples/applications/plot_outlier_detection_housing.html#

39ИСТОЧНИК:
end{talk}

Необычные модели Playboy, или про поиск аномалий в данных

Recommandé

Recommandé

Contenu connexe

Plus de Yury Kashnitsky

Plus de Yury Kashnitsky (8)

Необычные модели Playboy, или про поиск аномалий в данных