Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
К.В. Воронцов "Метрические методы классификации"
1. Метрические алгоритмы классификации
Отбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Метрические методы классификации
К. В. Воронцов
vokov@forecsys.ru
Этот курс доступен на странице вики-ресурса
http://www.MachineLearning.ru/wiki
«Машинное обучение (курс лекций, К.В.Воронцов)»
март 2011
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 1 / 31
2. Метрические алгоритмы классификации
Отбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Содержание
1 Метрические алгоритмы классификации
Гипотеза компактности
Метод ближайших соседей и его обобщения
Снова метод парзеновского окна
Метод потенциальных функций
2 Отбор эталонов и оптимизация метрики
Понятие отступа
Алгоритм отбора эталонных объектов STOLP
Понятие конкурентного сходства
Простой жадный алгоритм оптимизации метрики
3 Профиль компактности и скользящий контроль
Полный скользящий контроль CCV
Понятие профиля компактности
Отбор эталонов по функционалу CCV
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 2 / 31
3. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Гипотеза компактности
Задача классификации:
X — объекты, Y — ответы (идентификаторы классов);
X ℓ = (xi , yi )i=1 — обучающая выборка;
ℓ
Гипотеза компактности:
Схожие объекты, как правило, лежат в одном классе.
Формализация понятия «сходства»:
Задана функция расстояния ρ : X × X → [0, ∞).
Например, евклидово расстояние:
n 1/2
2
ρ(u, xi ) = j
u − xij ,
j=1
где u = (u 1 , . . . , u n ), xi = (xi1 , . . . , xin ) — признаковые описания
объектов.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 3 / 31
4. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Пример: задача классификации цветков ириса [Фишер, 1936]
n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150.
длина чашелистика ширина чашелистика длина лепестка ширина лепестка
7
6
5
4
3
2
6
4
2
2
1
0
5 6 7 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5
Iris-setosa Iris-versicolor Iris-virginica
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 4 / 31
5. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Обобщённый метрический классификатор
Для произвольного u ∈ X отсортируем объекты x1 , . . . , xℓ :
(1) (2) (ℓ)
ρ(u, xu ) ρ(u, xu ) ··· ρ(u, xu ),
(i)
xu — i-й сосед объекта u среди x1 , . . . , xℓ ;
(i)
yu — ответ на i-м соседе объекта u.
Метрический алгоритм классификации:
ℓ
(i)
a(u; X ℓ ) = arg max yu = y w (i, u),
y ∈Y
i=1
Γy (u,X ℓ )
w (i, u) — вес (степень важности) i-го соседа объекта u,
неотрицателен, не возрастает по i.
Γy (u, X ℓ ) — оценка близости объекта u к классу y .
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 5 / 31
6. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Метод ближайшего соседа
w (i, u) = [i=1].
Преимущества:
простота реализации;
интерпретируемость решений,
вывод на основе прецедентов (case-based reasoning, CBR)
Недостатки:
неустойчивость к погрешностям (шуму, выбросам);
отсутствие настраиваемых параметров;
низкое качество классификации;
приходится хранить всю выборку целиком.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 6 / 31
7. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Метод k ближайших соседей
w (i, u) = [i k].
Преимущества:
менее чувствителен к шуму;
появился параметр k.
Оптимизация числа соседей k:
функционал скользящего контроля leave-one-out
ℓ
LOO(k, X ℓ ) = a xi ; X ℓ {xi }, k = yi → min .
k
i=1
Проблема:
неоднозначность классификации
при Γy (u, X ℓ ) = Γs (u, X ℓ ), y = s.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 7 / 31
8. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Пример зависимости LOO(k)
Пример. Задача UCI: Breast Cancer (Wisconsin)
частота ошибок на обучении и контроле (исключая и не исключая себя)
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
число соседей k
— смещённое число ошибок, когда объект учитывается как сосед самого себя
— несмещённое число ошибок LOO
В реальных задачах минимум редко бывает при k = 1.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 8 / 31
9. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Метод k взвешенных ближайших соседей
w (i, u) = [i k]wi ,
где wi — вес, зависящий только от номера соседа;
Возможные эвристики:
wi = k+1−i — линейное убывающие веса;
k
wi = q i — экспоненциально убывающие веса, 0 < q < 1;
Проблемы:
как более обоснованно задать веса?
возможно, было бы лучше, если бы вес w (i, u)
зависел не от порядкового номера соседа i,
(i)
а от расстояния до него ρ(u, xu ).
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 9 / 31
10. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Снова метод парзеновского окна
(i)
w (i, u) = K ρ(u,xu ) ,
h
где K (r ) — ядро, невозрастающее, положительное на [0, 1].
Метод парзеновского окна фиксированной ширины:
ℓ (i)
(i) ρ(u, xu )
a(u; X ℓ , h, K ) = arg max [yu = y ] K .
y ∈Y h
i=1
w (i,u)
Метод парзеновского окна переменной ширины:
ℓ (i)
(i) ρ(u, xu )
a(u; X ℓ , k, K ) = arg max [yu = y ] K (k+1)
.
y ∈Y ρ(u, xu )
i=1
w (i,u)
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 10 / 31
11. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Метод парзеновского окна
Пример: классификация двумерной выборки.
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0
-0.5
-1.0
-1.5
-2.0
-1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 11 / 31
12. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Метод потенциальных функций
(i)
(i) ρ(u,xu )
w (i, u) = γu K (i)
hu
Более простая запись:
ℓ
ρ(u, xi )
a(u; X ℓ ) = arg max [yi = y ] γi K ,
y ∈Y hi
i=1
где γi — веса объектов, γi 0, hi > 0.
Физическая аналогия:
γi — величина «заряда» в точке xi ;
hi — «радиус действия» потенциала с центром в точке xi ;
yi — знак «заряда» (предполагается, что Y = {−1, +1});
в электростатике K (r ) = 1 или r +a .
r
1
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 12 / 31
13. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Алгоритм настройки весов объектов
Простой эвристический алгоритм настройки γi .
Вход:
X ℓ — обучающая выборка;
Выход:
Коэффициенты γi , i = 1, . . . , ℓ;
1: Инициализация: γi = 0 для всех i = 1, . . . , ℓ;
2: повторять
3: выбрать объект xi ∈ X ℓ ;
4: если a(xi ) = yi то
5: γi := γi + 1;
6: пока число ошибок на выборке Q(a, X ℓ ) > ε.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 13 / 31
14. Гипотеза компактности
Метрические алгоритмы классификации
Метод ближайших соседей и его обобщения
Отбор эталонов и оптимизация метрики
Снова метод парзеновского окна
Профиль компактности и скользящий контроль
Метод потенциальных функций
Анализ преимуществ и недостатков
Преимущества:
простота реализации;
не надо хранить выборку (потоковый алгоритм обучения);
разреженность: не все обучающие объекты учитываются.
Недостатки:
медленная сходимость;
результат обучения зависит от порядка просмотра объектов;
слишком грубо настраиваются веса γi ;
вообще не настраиваются параметры hi ;
вообще не настраиваются центры потенциалов;
может, некоторые γi можно было бы обнулить?
Вывод: EM-RBF, конечно, круче...
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 14 / 31
15. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Понятие отступа
Рассмотрим классификатор a : X → Y вида
a(u) = arg max Γy (u), u ∈ X.
y ∈Y
Отступом (margin) объекта xi ∈ X ℓ относительно
классификатора a(u) называется величина
M(xi ) = Γyi (xi ) − max Γy (xi ).
y ∈Y yi
Отступ показывает степень типичности объекта:
чем больше M(xi ), тем «глубже» xi в своём классе;
M(xi ) < 0 ⇔ a(xi ) = yi ;
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 15 / 31
16. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Типы объектов, в зависимости от отступа
Э — эталонные (можно оставить только их);
Н — неинформативные (можно удалить из выборки);
П — пограничные (их классификация неустойчива);
О — ошибочные (причина ошибки — плохая модель);
Ш — шумовые (причина ошибки — плохие данные).
Margin
0,8
0,6
0,4
0,2 ɒ Ɉ ɉ ɇ ɗ
0
-0,2
-0,4
-0,6
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 i
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 16 / 31
17. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Типы объектов, в зависимости от отступа
эталонные (можно оставить только их);
неинформативные (можно удалить из выборки);
пограничные (их классификация неустойчива);
ошибочные (причина ошибки — плохая модель);
шумовые (причина ошибки — плохие данные).
Идея: шумовые и неинформативные удалить из выборки.
Алгоритм STOLP: основная идея
исключить выбросы;
найти по одному эталону в каждом классе;
добавлять эталоны, пока есть отрицательные отступы;
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 17 / 31
18. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Алгоритм STOLP
Вход:
X ℓ — обучающая выборка;
δ — порог фильтрации выбросов;
ℓ0 — допустимая доля ошибок;
Выход:
Множество опорных объектов Ω ⊆ X ℓ ;
Классификатор будет иметь вид:
(i)
a(u; Ω) = arg max yu = y w (i, u),
y ∈Y
xi ∈Ω
(i)
xu — i-й сосед объекта u среди Ω;
(i)
yu — ответ на i-м соседе объекта u;
w (i, u) — произвольная функция веса i-го соседа.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 18 / 31
19. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Алгоритм STOLP
1: для всех xi ∈ X ℓ проверить, является ли xi выбросом:
2: если M(xi , X ℓ ) < δ то
3: X ℓ−1 := X ℓ {xi }; ℓ := ℓ − 1;
4: Инициализация: взять по одному эталону от каждого класса:
Ω := arg max M(xi , X ℓ ) y ∈ Y ;
xi ∈Xy ℓ
5: пока Ω =X ℓ;
6: Выделить множество объектов с ошибкой a(u; Ω):
E := {xi ∈ X ℓ Ω : M(xi , Ω) < 0};
7: если |E | < ℓ0 то
8: выход;
9: Присоединить к Ω объект с наименьшим отступом:
xi := arg min M(x, Ω); Ω := Ω ∪ {xi };
x∈E
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 19 / 31
20. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Алгоритм STOLP: преимущества и недостатки
Преимущества отбора эталонов:
сокращается число хранимых объектов;
сокращается время классификации;
объекты распределяются по величине отступов;
Недостатки алгоритма STOLP:
необходимость задавать параметр δ;
относительно низкая эффективность O(|Ω|2 ℓ).
Другие методы отбора:
стратегия последовательного удаления не-эталонов;
минимизация полного скользящего контроля (CCV);
FRiS-STOLP на основе оценок конкурентного сходства.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 20 / 31
21. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Оценка близости i-го объекта к своему классу
Среднее расстояние до k ближайших объектов...
ri = r (xi , yi ) — из своего класса;
¯i = r (xi , yi ) — из всех остальных классов;
r ¯
Функция конкурентного сходства
(function of rival similarity, FRiS-функция)
¯i − ri
r +1, объект близок к своим;
di = ≈ 0, объект пограничный;
¯i + ri
r
−1, объект близок к чужим;
Назовём di благонадёжностью объекта xi .
Как и отступ, di — это характеристика типичности объекта
относительно выборки.
Преимущество — di величина безразмерная и нормированная.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 21 / 31
22. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Благонадёжность выборки
Суммарная благонадёжность выборки характеризует то,
насколько функция расстояния ρ подходит для данной задачи
ℓ ℓ
¯i − ri
r
D(ρ) = di =
¯i + ri
r
i=1 i=1
распределение объектов по благонадёжности di
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
0 20 40 60 80 100 120 140 160 180 200 i
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 22 / 31
23. Понятие отступа
Метрические алгоритмы классификации
Алгоритм отбора эталонных объектов STOLP
Отбор эталонов и оптимизация метрики
Понятие конкурентного сходства
Профиль компактности и скользящий контроль
Простой жадный алгоритм оптимизации метрики
Жадное добавление признаков
1. А вдруг одного признака уже достаточно?
Расстояние по j-му признаку: ρj (u, xi ) = u j − xij .
Выберем наиболее благонадёжное расстояние: D(ρj ) → max.
j
2. Пусть уже есть расстояние ρ.
Попробуем добавить к нему ещё один признак j.
ρjt (u, xi ) = (1 − t) · ρ(u, xi ) + t · ρj (u, xi ).
Найдём t ∈ [0, 1] и признак j, при которых благонадёжность
D(ρjt ) максимальна (два вложенных цикла перебора).
3. Будем добавлять признаки до тех пор,
пока благонадёжность D(ρjt ) увеличивается.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 23 / 31
24. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Полный скользящий контроль CCV
Функционал полного скользящего контроля
(complete cross-validation, CCV):
1 1
CCV(X L ) = ℓ a(xi , X ℓ ) = yi ,
CL ℓ q q q xi ∈X
X ⊔X
где X ℓ ⊔ X q — все CL разбиений выборки X L на обучающую
ℓ
подвыборку X ℓ и контрольную X q .
Замечание 1. При q = 1 имеем: CCV(X L ) = LOO(X L ).
Замечание 2. CCV характеризует лишь среднюю частоту
ошибок, но не учитывает её разброс.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 24 / 31
25. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Понятие профиля компактности
Определение
Профиль компактности выборки X L — это функция доли
(m)
объектов xi , у которых m-й сосед xi лежит в другом классе:
L
L 1 (m)
K (m, X ) = y i = yi ; m = 1, . . . , L − 1,
L
i=1
(m)
где xi — m-й сосед объекта xi среди X L ;
(m)
yi — ответ на m-м соседе объекта xi .
Теорема (точное выражение CCV для метода 1NN)
k ℓ−1
L
CL−1−m
CCV(X ) = K (m, X L ) ℓ
.
m=1
CL−1
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 25 / 31
26. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Профили компактности для серии модельных задач
1.0
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
1.0
0.8
0.6
0.4
0.2
0
0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200
0.6
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200
средний ряд: профили компактности,
нижний ряд: зависимость CCV от длины контроля q.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 26 / 31
27. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Свойства профиля компактности и оценки CCV
Выводы
K (m, X L ) является формальным выражением гипотезы
компактности, связывая её с качеством классификации.
CCV практически не зависит от длины контроля q.
Для минимизации CCV важен только начальный участок
ℓ−1
CL−1−m
профиля, т. к. ℓ
CL−1
→ 0 экспоненциально по m.
Минимизация CCV приводит к эффективному отбору
эталонных объектов, без переобучения.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 27 / 31
28. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Модельные данные
13
12
11
10
9
8
7
8 9 10 11 12 13 14 15 16 17 18
Модельная задача классификации: 1000 объектов.
Алгоритм 1NN
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 28 / 31
29. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Последовательный отсев не-эталонных объектов
13
12
11
10
9
8
7
8 9 10 11 12 13 14 15 16 17 18
эталонные кл.1 эталонные кл.2
шумовые кл.1 шумовые кл.2
неинформативные кл.1 неинформативные кл.2
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 29 / 31
30. Метрические алгоритмы классификации Полный скользящий контроль CCV
Отбор эталонов и оптимизация метрики Понятие профиля компактности
Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV
Последовательный отсев не-эталонных объектов
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0
0 10 20 30 40 50 980 990
[0-60] [980-1000]
функционал CCV на обучении частота ошибок на тесте
Зависимость CCV от числа удаленных неэталонных объектов.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 30 / 31
31. Метрические алгоритмы классификации
Отбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Резюме в конце лекции
Метрические классификаторы — одни из самых простых.
Качество классификации определяется качеством метрики.
Что можно обучать:
— число ближайших соседей k;
— набор эталонов (prototype selection);
— как вариант — веса объектов;
— метрику (distance learning, similarity learning);
— как частный случай — веса признаков.
Распределение отступов делит объекты на эталонные,
неинформативные, пограничные, ошибки и выбросы.
Профиль компактности выборки позволяет судить о том,
насколько удачно метрика подобрана под задачу.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 31 / 31