SlideShare une entreprise Scribd logo
1  sur  40
Télécharger pour lire hors ligne
©"Билайн",БЕРоссия2012
КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ"
Любое использование этого документа без специального разрешения строго запрещено
©"Билайн",БЕРоссия2015
Необычные модели Playboy,
или про поиск аномалий в данных
Юрий Кашницкий, Школа Данных "Билайн"
©"Билайн",БЕРоссия2014
План
• Пример поиска выбросов в наборе данных по моделям месяца Playboy
• Пример нахождения «выбросов» невооруженным взглядом
• Одноклассовая машина опорных векторов (One-class SVM)
• Статистические методы поиска выбросов
• Сравнение поиска выбросов на основе многомерного нормального распределения
и одноклассовой машина опорных векторов
• Алгоритм плотностной кластеризации DBSCAN
Внимание! Возможна демонстрация фотоматериалов, не нарушающих
постановление 242 УК РФ «Незаконные изготовление и оборот порнографических
материалов или предметов»
©"Билайн",БЕРоссия2014
Сразу пример
Данные Wired по 607 моделям месяца Playboy
c 1953 по 2009 годы.
Первые 5 записей:
Месяц Год Грудь Талия Бедра Рост Вес
0 Декабрь 1953 91 61 91 165 54
1 Март 1954 86 61 89 168 54
2 Июль 1955 91 61 91 166 52
3 Дек 1955 91 61 91 166 52
4 Июль 1956 91 61 86 157 48
©"Билайн",БЕРоссия2015
Знакомство с данными
3
Признаки:
• Год, месяц признания моделью
месяца Playboy
• Охваты груди, талии и бедер
• Рост и вес
Год Грудь Талия Бедра Рост Вес
Число 604 604 604 604 604 604
Среднее 1983 89.3 59.5 87.9 167.9 52.2
Минимум 1953 81 46 61 150 42
Максимум 2009 104 89 99 188 68
Oh, really?
©"Билайн",БЕРоссия2015
Пример возможного «выброса»
4
Что за бочка?
Тройняшки Дам
(Nicole, Erica, and Jaclyn Dahm)
86-89 (реально 64)-86
рост 173, вес 52
Месяц Год Грудь Талия Бедра Рост Вес
483 Декабрь 1998 86 89 86 173 52
©"Билайн",БЕРоссия2015
Еще два «выброса»
5
Мики Уинтерс (Mickie Winters)
Жони Маттис (Joni Mattis)
Вывод: некоторые аномалии
можно найти «невооруженным
взглядом»
Месяц Год Грудь Талия Бедра Рост Вес
33 Ноябрь 1960 84 46 81 157 45
54 Сентябрь 1962 91 46 86 152 45
©"Билайн",БЕРоссия2015
Распределение охвата груди
6
©"Билайн",БЕРоссия2015
Распределение охвата талии
7
©"Билайн",БЕРоссия2015
Распределение охвата бедер
8
©"Билайн",БЕРоссия2015
Распределение роста
9
©"Билайн",БЕРоссия2015
Распределение веса
10
©"Билайн",БЕРоссия2015
Попарные зависимости признаков
11
грудь
талия
бедра
рост
вес
©"Билайн",БЕРоссия2015
Выбросы, определенные алгоритмом OneClass SVM
12
Sklearn.svm.OneClassSVM, ядро RBF, 1% выбросов
©"Билайн",БЕРоссия2015
7 «выбросов» в наборе данных по моделям Playboy
13
Месяц Год Грудь Талия Бедра Рост Вес
Сентябрь 1962 91 46 86 152 45
Октябрь 1963 94 66 94 183 68
Октябрь 1964 104 64 97 168 66
Сентябрь 1972 98 64 99 185 64
Декабрь 1998 86 89 86 173 52
Декабрь 2000 86 66 91 188 61
Апрель 2003 86 61 69 173 54
©"Билайн",БЕРоссия2015
Формулировка задачи поиска аномалий («выбросов») в данных
14
• Четкой постановки задачи нет
• Интуитивно понятно – найти объекты,
сильно отличающиеся от других
(обучение без учителя)
• Попытка вероятностной
формулировки:
Пусть p(x) – функция плотности
вероятности, определенная
признаковом пространстве Φ(Χ)
выборки Χ. Найти объекты, для которых
p(x) < ε (ε – малый параметр, процент
выбросов). (Andrew Ng, ML course)
©"Билайн",БЕРоссия2015
15
Приложения
• Обнаружение мошенничества при
транзакциях (fraud detection)
• Прогноз «падения» сервера в кластере
• Обнаружение бракованных изделий при
производстве
• Обнаружение попыток взлома сети
• Исправление ошибок/опечаток
• Устойчивость алгоритмов машинного
обучения
©"Билайн",БЕРоссия2015
16
Метрические методы машинного обучения и «выбросы»
С выбросами
С меньшим числом выбросов
Квартет Энскомба
©"Билайн",БЕРоссия2015
17
Разделяющие гиперплоскости при линейной разделимости
©"Билайн",БЕРоссия2015
18
Максимизация зазора
©"Билайн",БЕРоссия2015
19
SVM как задача квадратичной оптимизации
©"Билайн",БЕРоссия2015
20
А что в случае линейной неразделимости?
©"Билайн",БЕРоссия2015
21
Линейная разделимость в пространстве более высокой размерности
Признак 𝒙 Признаки 𝒙 , 𝒙 𝟐
©"Билайн",БЕРоссия2015
22
Линейная разделимость в пространстве более высокой размерности
Признаки 𝒙 𝟏, 𝒙 𝟐
Признаки 𝒙 𝟏, 𝒙 𝟐, 𝒙 𝟏
𝟐
+ 𝒙 𝟐
𝟐
φ
©"Билайн",БЕРоссия2015
23
Нелинейная граница в исходном пространстве
При обратном проецировании разделяющая граница
получается нелинейной
«Ядерный трюк»
Для классификации новых объектов
надо вычислять скалярные произведения
вида <φ(x), φ(x’)>,
где x – тестовый объект,
x’ – опорный вектор (объект).
Эти вычисления можно свести к
вычислению скалярных
произведений в исходном пространстве
K(<φ(x), φ(x’)>) = f (<x, x’>), что намного
вычислительно проще.
©"Билайн",БЕРоссия2015
24
Идея OneClass SVM: 2 подхода
(Tax, Duin, 2004)(Schölkopf et.al., 1999)
В обоих подходах решается задача квадратичной оптимизации
©"Билайн",БЕРоссия2015
25
Подход на основе нормального распределения
• Предполагается, что данные подчиняются нормальному
распределению (а это может быть и не так, но есть статистические
тесты)
• Оценивается плотность распределения (легко обобщается на
случай многомерного распределения)
где μ 𝑗 =
1
𝑚
𝑥𝑗
(𝑖)𝑚
𝑖=1 , σ2
𝑗 =
1
𝑚
(𝑥𝑗
𝑖 − μ 𝑗)2𝑚
𝑖=1
• Объект x считается выбросом, если
p(x) < ε
©"Билайн",БЕРоссия2015
26
Сравнение подходов - I
(Scikit-learn)
©"Билайн",БЕРоссия2015
27
Сравнение подходов- II
(Scikit-learn)
©"Билайн",БЕРоссия2015
28
Сравнение подходов- III
(Scikit-learn)
©"Билайн",БЕРоссия2015
29
Сравнение подходов- IV
(Scikit-learn)
©"Билайн",БЕРоссия2015
30
Алгоритм кластеризации DBSCAN - I
©"Билайн",БЕРоссия2015
31
Алгоритм кластеризации DBSCAN - II
©"Билайн",БЕРоссия2015
32
Алгоритм кластеризации DBSCAN - III
©"Билайн",БЕРоссия2015
33
Алгоритм кластеризации DBSCAN - IV
©"Билайн",БЕРоссия2015
34
Алгоритм кластеризации DBSCAN - V
©"Билайн",БЕРоссия2015
35
Алгоритм кластеризации DBSCAN - VI
©"Билайн",БЕРоссия2015
36
Алгоритм кластеризации DBSCAN - VII
©"Билайн",БЕРоссия2015
37
Алгоритм кластеризации DBSCAN - VIII
©"Билайн",БЕРоссия2015
38
Ссылки
• Bernhard Schölkopf, Robert C Williamson, Alex J Smola, John Shawe-Taylor, John C
Platt. «Support Vector Method for Novelty Detection», NIPS vol. 12, 582-58 (1999)
• David MJ Tax, Robert PW Duin. «Support vector data description». Machine learning,
54(1), 45-56 (2004)
• Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei Simoudis, Evangelos;
Han, Jiawei; Fayyad, Usama M., eds. A density-based algorithm for discovering
clusters in large spatial databases with noise. Proceedings of the Second International
Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–
231 (1996)
• Andrew Ng, «Machine Learning», Coursera - https://ru.coursera.org/learn/machine-
learning
• Необычные модели Playboy, или про обнаружение выбросов в данных c помощью
Scikit-learn - http://habrahabr.ru/post/251225/
• Примеры Scikit-learn по поиску аномалий - http://scikit-
learn.org/stable/auto_examples/covariance/plot_outlier_detection.html, http://scikit-
learn.org/stable/auto_examples/applications/plot_outlier_detection_housing.html#
©"Билайн",БЕРоссия2015
39ИСТОЧНИК:
end{talk}

Contenu connexe

Plus de Yury Kashnitsky

How to jump into Data Science
How to jump into Data ScienceHow to jump into Data Science
How to jump into Data ScienceYury Kashnitsky
 
mlcourse.ai fall2019 Live Session 0
mlcourse.ai fall2019 Live Session 0mlcourse.ai fall2019 Live Session 0
mlcourse.ai fall2019 Live Session 0Yury Kashnitsky
 
Benchmarking transfer learning approaches for NLP
Benchmarking transfer learning approaches for NLPBenchmarking transfer learning approaches for NLP
Benchmarking transfer learning approaches for NLPYury Kashnitsky
 
Gender-unbiased BERT-based Pronoun Resolution
Gender-unbiased BERT-based  Pronoun ResolutionGender-unbiased BERT-based  Pronoun Resolution
Gender-unbiased BERT-based Pronoun ResolutionYury Kashnitsky
 
Time series forecasting with ARIMA
Time series forecasting with ARIMATime series forecasting with ARIMA
Time series forecasting with ARIMAYury Kashnitsky
 
mlcourse.ai, introduction, course overview
mlcourse.ai, introduction, course overviewmlcourse.ai, introduction, course overview
mlcourse.ai, introduction, course overviewYury Kashnitsky
 

Plus de Yury Kashnitsky (8)

How to jump into Data Science
How to jump into Data ScienceHow to jump into Data Science
How to jump into Data Science
 
mlcourse.ai fall2019 Live Session 0
mlcourse.ai fall2019 Live Session 0mlcourse.ai fall2019 Live Session 0
mlcourse.ai fall2019 Live Session 0
 
Benchmarking transfer learning approaches for NLP
Benchmarking transfer learning approaches for NLPBenchmarking transfer learning approaches for NLP
Benchmarking transfer learning approaches for NLP
 
Gender-unbiased BERT-based Pronoun Resolution
Gender-unbiased BERT-based  Pronoun ResolutionGender-unbiased BERT-based  Pronoun Resolution
Gender-unbiased BERT-based Pronoun Resolution
 
mlcourse.ai. Outro
mlcourse.ai. Outromlcourse.ai. Outro
mlcourse.ai. Outro
 
Time series forecasting with ARIMA
Time series forecasting with ARIMATime series forecasting with ARIMA
Time series forecasting with ARIMA
 
mlcourse.ai. Clustering
mlcourse.ai. Clusteringmlcourse.ai. Clustering
mlcourse.ai. Clustering
 
mlcourse.ai, introduction, course overview
mlcourse.ai, introduction, course overviewmlcourse.ai, introduction, course overview
mlcourse.ai, introduction, course overview
 

Необычные модели Playboy, или про поиск аномалий в данных