SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
Метрические алгоритмы классификации
     Отбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль




     Метрические методы классификации

                                 К. В. Воронцов
                               vokov@forecsys.ru


          Этот курс доступен на странице вики-ресурса
            http://www.MachineLearning.ru/wiki
        «Машинное обучение (курс лекций, К.В.Воронцов)»



                                       март 2011


          К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации   1 / 31
Метрические алгоритмы классификации
      Отбор эталонов и оптимизация метрики
 Профиль компактности и скользящий контроль


Содержание

  1   Метрические алгоритмы классификации
       Гипотеза компактности
       Метод ближайших соседей и его обобщения
       Снова метод парзеновского окна
       Метод потенциальных функций
  2   Отбор эталонов и оптимизация метрики
       Понятие отступа
       Алгоритм отбора эталонных объектов STOLP
       Понятие конкурентного сходства
       Простой жадный алгоритм оптимизации метрики
  3   Профиль компактности и скользящий контроль
       Полный скользящий контроль CCV
       Понятие профиля компактности
       Отбор эталонов по функционалу CCV
           К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации   2 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                  Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                  Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                  Метод потенциальных функций

Гипотеза компактности

  Задача классификации:
    X — объекты, Y — ответы (идентификаторы классов);
    X ℓ = (xi , yi )i=1 — обучающая выборка;
                    ℓ

  Гипотеза компактности:
    Схожие объекты, как правило, лежат в одном классе.
  Формализация понятия «сходства»:
   Задана функция расстояния ρ : X × X → [0, ∞).
      Например, евклидово расстояние:
                                             n                  1/2
                                                            2
                          ρ(u, xi ) =             j
                                                  u −   xij           ,
                                            j=1

  где u = (u 1 , . . . , u n ), xi = (xi1 , . . . , xin ) — признаковые описания
  объектов.
            К. В. Воронцов (www.ccas.ru/voron)    Метрические методы классификации          3 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                          Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                          Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                          Метод потенциальных функций

Пример: задача классификации цветков ириса [Фишер, 1936]

  n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150.
           длина чашелистика       ширина чашелистика         длина лепестка       ширина лепестка

       7
       6
       5


       4
       3
       2

       6
       4
       2


       2

       1
       0
               5      6   7      2.0 2.5 3.0 3.5 4.0      1    2   3   4   5   6   0.5 1.0 1.5 2.0 2.5
            Iris-setosa        Iris-versicolor    Iris-virginica

              К. В. Воронцов (www.ccas.ru/voron)          Метрические методы классификации               4 / 31
Гипотеза компактности
      Метрические алгоритмы классификации
                                                     Метод ближайших соседей и его обобщения
      Отбор эталонов и оптимизация метрики
                                                     Снова метод парзеновского окна
 Профиль компактности и скользящий контроль
                                                     Метод потенциальных функций

Обобщённый метрический классификатор

  Для произвольного u ∈ X отсортируем объекты x1 , . . . , xℓ :
                           (1)                (2)                       (ℓ)
                   ρ(u, xu )        ρ(u, xu )           ···      ρ(u, xu ),
   (i)
  xu — i-й сосед объекта u среди x1 , . . . , xℓ ;
   (i)
  yu — ответ на i-м соседе объекта u.
  Метрический алгоритм классификации:
                                                 ℓ
                                                         (i)
                  a(u; X ℓ ) = arg max                 yu = y w (i, u),
                                       y ∈Y
                                                i=1

                                                          Γy (u,X ℓ )

  w (i, u) — вес (степень важности) i-го соседа объекта u,
              неотрицателен, не возрастает по i.
  Γy (u, X ℓ ) — оценка близости объекта u к классу y .
           К. В. Воронцов (www.ccas.ru/voron)        Метрические методы классификации          5 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                 Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                 Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                 Метод потенциальных функций

Метод ближайшего соседа

  w (i, u) = [i=1].
  Преимущества:
         простота реализации;
         интерпретируемость решений,
         вывод на основе прецедентов (case-based reasoning, CBR)
  Недостатки:
         неустойчивость к погрешностям (шуму, выбросам);
         отсутствие настраиваемых параметров;
         низкое качество классификации;
         приходится хранить всю выборку целиком.



            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации          6 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                 Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                 Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                 Метод потенциальных функций

Метод k ближайших соседей

  w (i, u) = [i       k].
  Преимущества:
         менее чувствителен к шуму;
         появился параметр k.

  Оптимизация числа соседей k:
   функционал скользящего контроля leave-one-out
                                   ℓ
             LOO(k, X ℓ ) =             a xi ; X ℓ {xi }, k = yi → min .
                                                                           k
                                  i=1

  Проблема:
         неоднозначность классификации
         при Γy (u, X ℓ ) = Γs (u, X ℓ ), y = s.

            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации          7 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                              Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                              Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                              Метод потенциальных функций

Пример зависимости LOO(k)

  Пример. Задача UCI: Breast Cancer (Wisconsin)
    частота ошибок на обучении и контроле (исключая и не исключая себя)
    0.12
    0.11
    0.10
    0.09
    0.08
    0.07
    0.06
    0.05
    0.04
    0.03
    0.02
    0.01
      0
           0   20   40 60   80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
                                                                             число соседей k
  — смещённое число ошибок, когда объект учитывается как сосед самого себя
  — несмещённое число ошибок LOO
  В реальных задачах минимум редко бывает при k = 1.
                К. В. Воронцов (www.ccas.ru/voron)            Метрические методы классификации          8 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                 Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                 Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                 Метод потенциальных функций

Метод k взвешенных ближайших соседей

  w (i, u) = [i k]wi ,
  где wi — вес, зависящий только от номера соседа;
  Возможные эвристики:
   wi = k+1−i — линейное убывающие веса;
            k
   wi = q i — экспоненциально убывающие веса, 0 < q < 1;
  Проблемы:
         как более обоснованно задать веса?
         возможно, было бы лучше, если бы вес w (i, u)
         зависел не от порядкового номера соседа i,
                                       (i)
         а от расстояния до него ρ(u, xu ).




            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации          9 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                      Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                      Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                      Метод потенциальных функций

Снова метод парзеновского окна
                          (i)
  w (i, u) = K ρ(u,xu ) ,
                  h
  где K (r ) — ядро, невозрастающее, положительное на [0, 1].

  Метод парзеновского окна фиксированной ширины:
                                                 ℓ                             (i)
                                                        (i)            ρ(u, xu )
          a(u; X ℓ , h, K ) = arg max                 [yu = y ] K                        .
                                      y ∈Y                                 h
                                             i=1
                                                                        w (i,u)


  Метод парзеновского окна переменной ширины:
                                             ℓ                                 (i)
                                                      (i)              ρ(u, xu )
        a(u; X ℓ , k, K ) = arg max                  [yu = y ] K             (k+1)
                                                                                             .
                                    y ∈Y                             ρ(u, xu         )
                                           i=1
                                                                        w (i,u)

            К. В. Воронцов (www.ccas.ru/voron)        Метрические методы классификации           10 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                                        Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                                        Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                                        Метод потенциальных функций

Метод парзеновского окна

  Пример: классификация двумерной выборки.
    4.0

    3.5

    3.0

    2.5

    2.0

    1.5

    1.0

    0.5

     0

   -0.5

   -1.0

   -1.5

   -2.0

          -1.5    -1.0   -0.5   0   0.5   1.0   1.5   2.0   2.5   3.0   3.5




                 К. В. Воронцов (www.ccas.ru/voron)                     Метрические методы классификации          11 / 31
Гипотеза компактности
      Метрические алгоритмы классификации
                                                    Метод ближайших соседей и его обобщения
      Отбор эталонов и оптимизация метрики
                                                    Снова метод парзеновского окна
 Профиль компактности и скользящий контроль
                                                    Метод потенциальных функций

Метод потенциальных функций
                              (i)
                (i)     ρ(u,xu )
  w (i, u) = γu K           (i)
                           hu
  Более простая запись:
                                            ℓ
                                                                   ρ(u, xi )
              a(u; X ℓ ) = arg max               [yi = y ] γi K                ,
                                    y ∈Y                             hi
                                           i=1

  где γi — веса объектов, γi                0, hi > 0.
  Физическая аналогия:
   γi — величина «заряда» в точке xi ;
   hi — «радиус действия» потенциала с центром в точке xi ;
   yi — знак «заряда» (предполагается, что Y = {−1, +1});
   в электростатике K (r ) = 1 или r +a .
                             r
                                     1




           К. В. Воронцов (www.ccas.ru/voron)       Метрические методы классификации          12 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                 Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                 Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                 Метод потенциальных функций

Алгоритм настройки весов объектов

  Простой эвристический алгоритм настройки γi .

  Вход:
     X ℓ — обучающая выборка;
  Выход:
     Коэффициенты γi , i = 1, . . . , ℓ;
    1:   Инициализация: γi = 0 для всех i = 1, . . . , ℓ;
    2:   повторять
    3:     выбрать объект xi ∈ X ℓ ;
    4:     если a(xi ) = yi то
    5:       γi := γi + 1;
    6:   пока число ошибок на выборке Q(a, X ℓ ) > ε.



            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации          13 / 31
Гипотеза компактности
       Метрические алгоритмы классификации
                                                 Метод ближайших соседей и его обобщения
       Отбор эталонов и оптимизация метрики
                                                 Снова метод парзеновского окна
  Профиль компактности и скользящий контроль
                                                 Метод потенциальных функций

Анализ преимуществ и недостатков

  Преимущества:
         простота реализации;
         не надо хранить выборку (потоковый алгоритм обучения);
         разреженность: не все обучающие объекты учитываются.
  Недостатки:
         медленная сходимость;
         результат обучения зависит от порядка просмотра объектов;
         слишком грубо настраиваются веса γi ;
         вообще не настраиваются параметры hi ;
         вообще не настраиваются центры потенциалов;
         может, некоторые γi можно было бы обнулить?

  Вывод: EM-RBF, конечно, круче...
            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации          14 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Понятие отступа

  Рассмотрим классификатор a : X → Y вида

                          a(u) = arg max Γy (u),            u ∈ X.
                                          y ∈Y


  Отступом (margin) объекта xi ∈ X ℓ относительно
  классификатора a(u) называется величина

                         M(xi ) = Γyi (xi ) − max Γy (xi ).
                                                 y ∈Y yi


         Отступ показывает степень типичности объекта:
         чем больше M(xi ), тем «глубже» xi в своём классе;
         M(xi ) < 0 ⇔ a(xi ) = yi ;


            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации      15 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                                  Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                                  Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                                  Простой жадный алгоритм оптимизации метрики

Типы объектов, в зависимости от отступа

           Э — эталонные (можно оставить только их);
           Н — неинформативные (можно удалить из выборки);
           П — пограничные (их классификация неустойчива);
           О — ошибочные (причина ошибки — плохая модель);
           Ш — шумовые (причина ошибки — плохие данные).
    Margin

     0,8
     0,6
     0,4
     0,2   ɒ      Ɉ             ɉ                                      ɇ                            ɗ
      0
    -0,2
    -0,4
    -0,6

            0    10   20   30       40   50   60   70   80   90 100 110 120 130 140 150 160 170 180 190 200   i


                К. В. Воронцов (www.ccas.ru/voron)                Метрические методы классификации            16 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Типы объектов, в зависимости от отступа

         эталонные (можно оставить только их);
         неинформативные (можно удалить из выборки);
         пограничные (их классификация неустойчива);
         ошибочные (причина ошибки — плохая модель);
         шумовые (причина ошибки — плохие данные).
  Идея: шумовые и неинформативные удалить из выборки.
  Алгоритм STOLP: основная идея
         исключить выбросы;
         найти по одному эталону в каждом классе;
         добавлять эталоны, пока есть отрицательные отступы;



            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации      17 / 31
Понятие отступа
      Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
      Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
 Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Алгоритм STOLP

  Вход:
     X ℓ — обучающая выборка;
     δ — порог фильтрации выбросов;
     ℓ0 — допустимая доля ошибок;
  Выход:
     Множество опорных объектов Ω ⊆ X ℓ ;

  Классификатор будет иметь вид:
                                                      (i)
                  a(u; Ω) = arg max                  yu = y w (i, u),
                                      y ∈Y
                                             xi ∈Ω
   (i)
  xu   — i-й сосед объекта u среди Ω;
   (i)
  yu   — ответ на i-м соседе объекта u;
  w (i, u) — произвольная функция веса i-го соседа.

           К. В. Воронцов (www.ccas.ru/voron)    Метрические методы классификации      18 / 31
Понятие отступа
      Метрические алгоритмы классификации
                                                Алгоритм отбора эталонных объектов STOLP
      Отбор эталонов и оптимизация метрики
                                                Понятие конкурентного сходства
 Профиль компактности и скользящий контроль
                                                Простой жадный алгоритм оптимизации метрики

Алгоритм STOLP

   1: для всех xi ∈ X ℓ проверить, является ли xi выбросом:
   2:   если M(xi , X ℓ ) < δ то
   3:     X ℓ−1 := X ℓ  {xi }; ℓ := ℓ − 1;
   4: Инициализация: взять по одному эталону от каждого класса:
      Ω := arg max M(xi , X ℓ ) y ∈ Y ;
                  xi ∈Xy ℓ

   5:   пока Ω   =X   ℓ;

   6:     Выделить множество объектов с ошибкой a(u; Ω):
          E := {xi ∈ X ℓ  Ω : M(xi , Ω) < 0};
   7:     если |E | < ℓ0 то
   8:        выход;
   9:     Присоединить к Ω объект с наименьшим отступом:
          xi := arg min M(x, Ω); Ω := Ω ∪ {xi };
                      x∈E



           К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации      19 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Алгоритм STOLP: преимущества и недостатки

  Преимущества отбора эталонов:
         сокращается число хранимых объектов;
         сокращается время классификации;
         объекты распределяются по величине отступов;
  Недостатки алгоритма STOLP:
         необходимость задавать параметр δ;
         относительно низкая эффективность O(|Ω|2 ℓ).
  Другие методы отбора:
         стратегия последовательного удаления не-эталонов;
         минимизация полного скользящего контроля (CCV);
         FRiS-STOLP на основе оценок конкурентного сходства.


            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации      20 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Оценка близости i-го объекта к своему классу

  Среднее расстояние до k ближайших объектов...
  ri = r (xi , yi ) — из своего класса;
  ¯i = r (xi , yi ) — из всех остальных классов;
  r            ¯
  Функция конкурентного сходства
  (function of rival similarity, FRiS-функция)
                             
                 ¯i − ri
                 r           +1, объект близок к своим;
                             
           di =           ≈ 0,       объект пограничный;
                 ¯i + ri
                 r           
                             
                                −1, объект близок к чужим;
  Назовём di благонадёжностью объекта xi .
  Как и отступ, di — это характеристика типичности объекта
  относительно выборки.
  Преимущество — di величина безразмерная и нормированная.

            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации      21 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                      Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                      Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                      Простой жадный алгоритм оптимизации метрики

Благонадёжность выборки

  Суммарная благонадёжность выборки характеризует то,
  насколько функция расстояния ρ подходит для данной задачи
                                            ℓ              ℓ
                                                                 ¯i − ri
                                                                 r
                               D(ρ) =              di =
                                                                 ¯i + ri
                                                                 r
                                           i=1            i=1

       распределение объектов по благонадёжности di

       0.8
       0.6
       0.4
       0.2
         0
       -0.2
       -0.4
       -0.6

              0      20      40     60     80       100    120      140    160   180   200   i
              К. В. Воронцов (www.ccas.ru/voron)      Метрические методы классификации           22 / 31
Понятие отступа
       Метрические алгоритмы классификации
                                                 Алгоритм отбора эталонных объектов STOLP
       Отбор эталонов и оптимизация метрики
                                                 Понятие конкурентного сходства
  Профиль компактности и скользящий контроль
                                                 Простой жадный алгоритм оптимизации метрики

Жадное добавление признаков

  1. А вдруг одного признака уже достаточно?
  Расстояние по j-му признаку: ρj (u, xi ) = u j − xij .
  Выберем наиболее благонадёжное расстояние: D(ρj ) → max.
                                                                                    j

  2. Пусть уже есть расстояние ρ.
  Попробуем добавить к нему ещё один признак j.

                  ρjt (u, xi ) = (1 − t) · ρ(u, xi ) + t · ρj (u, xi ).

  Найдём t ∈ [0, 1] и признак j, при которых благонадёжность
  D(ρjt ) максимальна (два вложенных цикла перебора).
  3. Будем добавлять признаки до тех пор,
  пока благонадёжность D(ρjt ) увеличивается.


            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации       23 / 31
Метрические алгоритмы классификации       Полный скользящий контроль CCV
      Отбор эталонов и оптимизация метрики      Понятие профиля компактности
 Профиль компактности и скользящий контроль     Отбор эталонов по функционалу CCV


Полный скользящий контроль CCV

  Функционал полного скользящего контроля
  (complete cross-validation, CCV):
                           1       1
            CCV(X L ) = ℓ              a(xi , X ℓ ) = yi ,
                          CL ℓ q q   q          xi ∈X
                                      X ⊔X

  где X ℓ ⊔ X q — все CL разбиений выборки X L на обучающую
                        ℓ

  подвыборку X   ℓ и контрольную X q .


  Замечание 1. При q = 1 имеем: CCV(X L ) = LOO(X L ).
  Замечание 2. CCV характеризует лишь среднюю частоту
  ошибок, но не учитывает её разброс.




           К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации    24 / 31
Метрические алгоритмы классификации          Полный скользящий контроль CCV
       Отбор эталонов и оптимизация метрики         Понятие профиля компактности
  Профиль компактности и скользящий контроль        Отбор эталонов по функционалу CCV


Понятие профиля компактности

  Определение
  Профиль компактности выборки X L — это функция доли
                                     (m)
  объектов xi , у которых m-й сосед xi   лежит в другом классе:
                                     L
                       L 1                        (m)
             K (m, X ) =                 y i = yi       ;   m = 1, . . . , L − 1,
                         L
                                  i=1
         (m)
  где xi   — m-й сосед объекта xi среди X L ;
    (m)
  yi    — ответ на m-м соседе объекта xi .

  Теорема (точное выражение CCV для метода 1NN)
                                           k                    ℓ−1
                                 L
                                                               CL−1−m
                       CCV(X ) =                 K (m, X L )     ℓ
                                                                        .
                                         m=1
                                                                CL−1

            К. В. Воронцов (www.ccas.ru/voron)      Метрические методы классификации    25 / 31
Метрические алгоритмы классификации                                                                   Полный скользящий контроль CCV
       Отбор эталонов и оптимизация метрики                                                                  Понятие профиля компактности
  Профиль компактности и скользящий контроль                                                                 Отбор эталонов по функционалу CCV


Профили компактности для серии модельных задач
              1.0

              0.8

              0.6

              0.4

              0.2

               0
                    0   0.2    0.4         0.6     0.8    1.0 0    0.2    0.4         0.6     0.8    1.0 0    0.2    0.4         0.6     0.8    1.0 0    0.2    0.4         0.6     0.8    1.0
              1.0

              0.8

              0.6

              0.4

              0.2

               0
                    0     50         100         150     200   0     50         100         150     200   0     50         100         150     200   0     50         100         150     200
              0.6
              0.5
              0.4
              0.3
              0.2
              0.1
               0
                    0     50         100         150     200   0     50         100         150     200   0     50         100         150     200   0     50         100         150     200




  средний ряд: профили компактности,
  нижний ряд: зависимость CCV от длины контроля q.
            К. В. Воронцов (www.ccas.ru/voron)                                                               Метрические методы классификации                                                    26 / 31
Метрические алгоритмы классификации       Полный скользящий контроль CCV
       Отбор эталонов и оптимизация метрики      Понятие профиля компактности
  Профиль компактности и скользящий контроль     Отбор эталонов по функционалу CCV


Свойства профиля компактности и оценки CCV
Выводы

         K (m, X L ) является формальным выражением гипотезы
         компактности, связывая её с качеством классификации.
         CCV практически не зависит от длины контроля q.
         Для минимизации CCV важен только начальный участок
                              ℓ−1
                             CL−1−m
         профиля, т. к.         ℓ
                              CL−1
                                        → 0 экспоненциально по m.
         Минимизация CCV приводит к эффективному отбору
         эталонных объектов, без переобучения.




            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации    27 / 31
Метрические алгоритмы классификации        Полный скользящий контроль CCV
      Отбор эталонов и оптимизация метрики       Понятие профиля компактности
 Профиль компактности и скользящий контроль      Отбор эталонов по функционалу CCV


Модельные данные

          13

          12

          11

          10

           9

           8

           7
               8     9     10     11     12     13   14     15    16    17     18


  Модельная задача классификации: 1000 объектов.
  Алгоритм 1NN
           К. В. Воронцов (www.ccas.ru/voron)    Метрические методы классификации    28 / 31
Метрические алгоритмы классификации            Полный скользящий контроль CCV
       Отбор эталонов и оптимизация метрики           Понятие профиля компактности
  Профиль компактности и скользящий контроль          Отбор эталонов по функционалу CCV


Последовательный отсев не-эталонных объектов

           13

           12

           11

           10


            9

            8

            7
                8     9     10     11    12      13      14    15      16   17   18
                эталонные кл.1                        эталонные кл.2
                шумовые кл.1                          шумовые кл.2
                неинформативные кл.1                  неинформативные кл.2

            К. В. Воронцов (www.ccas.ru/voron)        Метрические методы классификации    29 / 31
Метрические алгоритмы классификации         Полный скользящий контроль CCV
       Отбор эталонов и оптимизация метрики        Понятие профиля компактности
  Профиль компактности и скользящий контроль       Отбор эталонов по функционалу CCV


Последовательный отсев не-эталонных объектов


       0.50
       0.45
       0.40
       0.35
       0.30
       0.25
       0.20
       0.15
       0.10
       0.05
         0
                  0      10       20        30     40       50          980     990
               [0-60]                                                [980-1000]
              функционал CCV на обучении            частота ошибок на тесте


  Зависимость CCV от числа удаленных неэталонных объектов.

              К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации    30 / 31
Метрические алгоритмы классификации
       Отбор эталонов и оптимизация метрики
  Профиль компактности и скользящий контроль


Резюме в конце лекции

         Метрические классификаторы — одни из самых простых.
         Качество классификации определяется качеством метрики.
         Что можно обучать:
         — число ближайших соседей k;
         — набор эталонов (prototype selection);
         — как вариант — веса объектов;
         — метрику (distance learning, similarity learning);
         — как частный случай — веса признаков.
         Распределение отступов делит объекты на эталонные,
         неинформативные, пограничные, ошибки и выбросы.
         Профиль компактности выборки позволяет судить о том,
         насколько удачно метрика подобрана под задачу.


            К. В. Воронцов (www.ccas.ru/voron)   Метрические методы классификации   31 / 31

Contenu connexe

Similaire à К.В. Воронцов "Метрические методы классификации"

Thesis abstract on "An identification of stochastic systems"
Thesis abstract on "An identification of stochastic systems"Thesis abstract on "An identification of stochastic systems"
Thesis abstract on "An identification of stochastic systems"Raman Budny
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмAleximos
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектовLiloSEA
 
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...paulsmirnov
 
20071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture1020071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture10Computer Science Club
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
 
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Yandex
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 

Similaire à К.В. Воронцов "Метрические методы классификации" (9)

Методы автоматической классификации
Методы автоматической классификацииМетоды автоматической классификации
Методы автоматической классификации
 
Thesis abstract on "An identification of stochastic systems"
Thesis abstract on "An identification of stochastic systems"Thesis abstract on "An identification of stochastic systems"
Thesis abstract on "An identification of stochastic systems"
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный Детерминизм
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
 
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
 
20071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture1020071125 efficientalgorithms kulikov_lecture10
20071125 efficientalgorithms kulikov_lecture10
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 

Plus de Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

Plus de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

К.В. Воронцов "Метрические методы классификации"

  • 1. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Метрические методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.MachineLearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» март 2011 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 1 / 31
  • 2. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Содержание 1 Метрические алгоритмы классификации Гипотеза компактности Метод ближайших соседей и его обобщения Снова метод парзеновского окна Метод потенциальных функций 2 Отбор эталонов и оптимизация метрики Понятие отступа Алгоритм отбора эталонных объектов STOLP Понятие конкурентного сходства Простой жадный алгоритм оптимизации метрики 3 Профиль компактности и скользящий контроль Полный скользящий контроль CCV Понятие профиля компактности Отбор эталонов по функционалу CCV К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 2 / 31
  • 3. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Гипотеза компактности Задача классификации: X — объекты, Y — ответы (идентификаторы классов); X ℓ = (xi , yi )i=1 — обучающая выборка; ℓ Гипотеза компактности: Схожие объекты, как правило, лежат в одном классе. Формализация понятия «сходства»: Задана функция расстояния ρ : X × X → [0, ∞). Например, евклидово расстояние: n 1/2 2 ρ(u, xi ) = j u − xij , j=1 где u = (u 1 , . . . , u n ), xi = (xi1 , . . . , xin ) — признаковые описания объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 3 / 31
  • 4. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Пример: задача классификации цветков ириса [Фишер, 1936] n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150. длина чашелистика ширина чашелистика длина лепестка ширина лепестка 7 6 5 4 3 2 6 4 2 2 1 0 5 6 7 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5 Iris-setosa Iris-versicolor Iris-virginica К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 4 / 31
  • 5. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Обобщённый метрический классификатор Для произвольного u ∈ X отсортируем объекты x1 , . . . , xℓ : (1) (2) (ℓ) ρ(u, xu ) ρ(u, xu ) ··· ρ(u, xu ), (i) xu — i-й сосед объекта u среди x1 , . . . , xℓ ; (i) yu — ответ на i-м соседе объекта u. Метрический алгоритм классификации: ℓ (i) a(u; X ℓ ) = arg max yu = y w (i, u), y ∈Y i=1 Γy (u,X ℓ ) w (i, u) — вес (степень важности) i-го соседа объекта u, неотрицателен, не возрастает по i. Γy (u, X ℓ ) — оценка близости объекта u к классу y . К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 5 / 31
  • 6. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод ближайшего соседа w (i, u) = [i=1]. Преимущества: простота реализации; интерпретируемость решений, вывод на основе прецедентов (case-based reasoning, CBR) Недостатки: неустойчивость к погрешностям (шуму, выбросам); отсутствие настраиваемых параметров; низкое качество классификации; приходится хранить всю выборку целиком. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 6 / 31
  • 7. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод k ближайших соседей w (i, u) = [i k]. Преимущества: менее чувствителен к шуму; появился параметр k. Оптимизация числа соседей k: функционал скользящего контроля leave-one-out ℓ LOO(k, X ℓ ) = a xi ; X ℓ {xi }, k = yi → min . k i=1 Проблема: неоднозначность классификации при Γy (u, X ℓ ) = Γs (u, X ℓ ), y = s. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 7 / 31
  • 8. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Пример зависимости LOO(k) Пример. Задача UCI: Breast Cancer (Wisconsin) частота ошибок на обучении и контроле (исключая и не исключая себя) 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 число соседей k — смещённое число ошибок, когда объект учитывается как сосед самого себя — несмещённое число ошибок LOO В реальных задачах минимум редко бывает при k = 1. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 8 / 31
  • 9. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод k взвешенных ближайших соседей w (i, u) = [i k]wi , где wi — вес, зависящий только от номера соседа; Возможные эвристики: wi = k+1−i — линейное убывающие веса; k wi = q i — экспоненциально убывающие веса, 0 < q < 1; Проблемы: как более обоснованно задать веса? возможно, было бы лучше, если бы вес w (i, u) зависел не от порядкового номера соседа i, (i) а от расстояния до него ρ(u, xu ). К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 9 / 31
  • 10. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Снова метод парзеновского окна (i) w (i, u) = K ρ(u,xu ) , h где K (r ) — ядро, невозрастающее, положительное на [0, 1]. Метод парзеновского окна фиксированной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , h, K ) = arg max [yu = y ] K . y ∈Y h i=1 w (i,u) Метод парзеновского окна переменной ширины: ℓ (i) (i) ρ(u, xu ) a(u; X ℓ , k, K ) = arg max [yu = y ] K (k+1) . y ∈Y ρ(u, xu ) i=1 w (i,u) К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 10 / 31
  • 11. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод парзеновского окна Пример: классификация двумерной выборки. 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -0.5 -1.0 -1.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 11 / 31
  • 12. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Метод потенциальных функций (i) (i) ρ(u,xu ) w (i, u) = γu K (i) hu Более простая запись: ℓ ρ(u, xi ) a(u; X ℓ ) = arg max [yi = y ] γi K , y ∈Y hi i=1 где γi — веса объектов, γi 0, hi > 0. Физическая аналогия: γi — величина «заряда» в точке xi ; hi — «радиус действия» потенциала с центром в точке xi ; yi — знак «заряда» (предполагается, что Y = {−1, +1}); в электростатике K (r ) = 1 или r +a . r 1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 12 / 31
  • 13. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Алгоритм настройки весов объектов Простой эвристический алгоритм настройки γi . Вход: X ℓ — обучающая выборка; Выход: Коэффициенты γi , i = 1, . . . , ℓ; 1: Инициализация: γi = 0 для всех i = 1, . . . , ℓ; 2: повторять 3: выбрать объект xi ∈ X ℓ ; 4: если a(xi ) = yi то 5: γi := γi + 1; 6: пока число ошибок на выборке Q(a, X ℓ ) > ε. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 13 / 31
  • 14. Гипотеза компактности Метрические алгоритмы классификации Метод ближайших соседей и его обобщения Отбор эталонов и оптимизация метрики Снова метод парзеновского окна Профиль компактности и скользящий контроль Метод потенциальных функций Анализ преимуществ и недостатков Преимущества: простота реализации; не надо хранить выборку (потоковый алгоритм обучения); разреженность: не все обучающие объекты учитываются. Недостатки: медленная сходимость; результат обучения зависит от порядка просмотра объектов; слишком грубо настраиваются веса γi ; вообще не настраиваются параметры hi ; вообще не настраиваются центры потенциалов; может, некоторые γi можно было бы обнулить? Вывод: EM-RBF, конечно, круче... К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 14 / 31
  • 15. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Понятие отступа Рассмотрим классификатор a : X → Y вида a(u) = arg max Γy (u), u ∈ X. y ∈Y Отступом (margin) объекта xi ∈ X ℓ относительно классификатора a(u) называется величина M(xi ) = Γyi (xi ) − max Γy (xi ). y ∈Y yi Отступ показывает степень типичности объекта: чем больше M(xi ), тем «глубже» xi в своём классе; M(xi ) < 0 ⇔ a(xi ) = yi ; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 15 / 31
  • 16. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Типы объектов, в зависимости от отступа Э — эталонные (можно оставить только их); Н — неинформативные (можно удалить из выборки); П — пограничные (их классификация неустойчива); О — ошибочные (причина ошибки — плохая модель); Ш — шумовые (причина ошибки — плохие данные). Margin 0,8 0,6 0,4 0,2 ɒ Ɉ ɉ ɇ ɗ 0 -0,2 -0,4 -0,6 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 16 / 31
  • 17. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Типы объектов, в зависимости от отступа эталонные (можно оставить только их); неинформативные (можно удалить из выборки); пограничные (их классификация неустойчива); ошибочные (причина ошибки — плохая модель); шумовые (причина ошибки — плохие данные). Идея: шумовые и неинформативные удалить из выборки. Алгоритм STOLP: основная идея исключить выбросы; найти по одному эталону в каждом классе; добавлять эталоны, пока есть отрицательные отступы; К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 17 / 31
  • 18. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP Вход: X ℓ — обучающая выборка; δ — порог фильтрации выбросов; ℓ0 — допустимая доля ошибок; Выход: Множество опорных объектов Ω ⊆ X ℓ ; Классификатор будет иметь вид: (i) a(u; Ω) = arg max yu = y w (i, u), y ∈Y xi ∈Ω (i) xu — i-й сосед объекта u среди Ω; (i) yu — ответ на i-м соседе объекта u; w (i, u) — произвольная функция веса i-го соседа. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 18 / 31
  • 19. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP 1: для всех xi ∈ X ℓ проверить, является ли xi выбросом: 2: если M(xi , X ℓ ) < δ то 3: X ℓ−1 := X ℓ {xi }; ℓ := ℓ − 1; 4: Инициализация: взять по одному эталону от каждого класса: Ω := arg max M(xi , X ℓ ) y ∈ Y ; xi ∈Xy ℓ 5: пока Ω =X ℓ; 6: Выделить множество объектов с ошибкой a(u; Ω): E := {xi ∈ X ℓ Ω : M(xi , Ω) < 0}; 7: если |E | < ℓ0 то 8: выход; 9: Присоединить к Ω объект с наименьшим отступом: xi := arg min M(x, Ω); Ω := Ω ∪ {xi }; x∈E К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 19 / 31
  • 20. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Алгоритм STOLP: преимущества и недостатки Преимущества отбора эталонов: сокращается число хранимых объектов; сокращается время классификации; объекты распределяются по величине отступов; Недостатки алгоритма STOLP: необходимость задавать параметр δ; относительно низкая эффективность O(|Ω|2 ℓ). Другие методы отбора: стратегия последовательного удаления не-эталонов; минимизация полного скользящего контроля (CCV); FRiS-STOLP на основе оценок конкурентного сходства. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 20 / 31
  • 21. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Оценка близости i-го объекта к своему классу Среднее расстояние до k ближайших объектов... ri = r (xi , yi ) — из своего класса; ¯i = r (xi , yi ) — из всех остальных классов; r ¯ Функция конкурентного сходства (function of rival similarity, FRiS-функция)  ¯i − ri r +1, объект близок к своим;  di = ≈ 0, объект пограничный; ¯i + ri r   −1, объект близок к чужим; Назовём di благонадёжностью объекта xi . Как и отступ, di — это характеристика типичности объекта относительно выборки. Преимущество — di величина безразмерная и нормированная. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 21 / 31
  • 22. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Благонадёжность выборки Суммарная благонадёжность выборки характеризует то, насколько функция расстояния ρ подходит для данной задачи ℓ ℓ ¯i − ri r D(ρ) = di = ¯i + ri r i=1 i=1 распределение объектов по благонадёжности di 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 0 20 40 60 80 100 120 140 160 180 200 i К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 22 / 31
  • 23. Понятие отступа Метрические алгоритмы классификации Алгоритм отбора эталонных объектов STOLP Отбор эталонов и оптимизация метрики Понятие конкурентного сходства Профиль компактности и скользящий контроль Простой жадный алгоритм оптимизации метрики Жадное добавление признаков 1. А вдруг одного признака уже достаточно? Расстояние по j-му признаку: ρj (u, xi ) = u j − xij . Выберем наиболее благонадёжное расстояние: D(ρj ) → max. j 2. Пусть уже есть расстояние ρ. Попробуем добавить к нему ещё один признак j. ρjt (u, xi ) = (1 − t) · ρ(u, xi ) + t · ρj (u, xi ). Найдём t ∈ [0, 1] и признак j, при которых благонадёжность D(ρjt ) максимальна (два вложенных цикла перебора). 3. Будем добавлять признаки до тех пор, пока благонадёжность D(ρjt ) увеличивается. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 23 / 31
  • 24. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Полный скользящий контроль CCV Функционал полного скользящего контроля (complete cross-validation, CCV): 1 1 CCV(X L ) = ℓ a(xi , X ℓ ) = yi , CL ℓ q q q xi ∈X X ⊔X где X ℓ ⊔ X q — все CL разбиений выборки X L на обучающую ℓ подвыборку X ℓ и контрольную X q . Замечание 1. При q = 1 имеем: CCV(X L ) = LOO(X L ). Замечание 2. CCV характеризует лишь среднюю частоту ошибок, но не учитывает её разброс. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 24 / 31
  • 25. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Понятие профиля компактности Определение Профиль компактности выборки X L — это функция доли (m) объектов xi , у которых m-й сосед xi лежит в другом классе: L L 1 (m) K (m, X ) = y i = yi ; m = 1, . . . , L − 1, L i=1 (m) где xi — m-й сосед объекта xi среди X L ; (m) yi — ответ на m-м соседе объекта xi . Теорема (точное выражение CCV для метода 1NN) k ℓ−1 L CL−1−m CCV(X ) = K (m, X L ) ℓ . m=1 CL−1 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 25 / 31
  • 26. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Профили компактности для серии модельных задач 1.0 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0 1.0 0.8 0.6 0.4 0.2 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 средний ряд: профили компактности, нижний ряд: зависимость CCV от длины контроля q. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 26 / 31
  • 27. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Свойства профиля компактности и оценки CCV Выводы K (m, X L ) является формальным выражением гипотезы компактности, связывая её с качеством классификации. CCV практически не зависит от длины контроля q. Для минимизации CCV важен только начальный участок ℓ−1 CL−1−m профиля, т. к. ℓ CL−1 → 0 экспоненциально по m. Минимизация CCV приводит к эффективному отбору эталонных объектов, без переобучения. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 27 / 31
  • 28. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Модельные данные 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 Модельная задача классификации: 1000 объектов. Алгоритм 1NN К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 28 / 31
  • 29. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Последовательный отсев не-эталонных объектов 13 12 11 10 9 8 7 8 9 10 11 12 13 14 15 16 17 18 эталонные кл.1 эталонные кл.2 шумовые кл.1 шумовые кл.2 неинформативные кл.1 неинформативные кл.2 К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 29 / 31
  • 30. Метрические алгоритмы классификации Полный скользящий контроль CCV Отбор эталонов и оптимизация метрики Понятие профиля компактности Профиль компактности и скользящий контроль Отбор эталонов по функционалу CCV Последовательный отсев не-эталонных объектов 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 0 10 20 30 40 50 980 990 [0-60] [980-1000] функционал CCV на обучении частота ошибок на тесте Зависимость CCV от числа удаленных неэталонных объектов. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 30 / 31
  • 31. Метрические алгоритмы классификации Отбор эталонов и оптимизация метрики Профиль компактности и скользящий контроль Резюме в конце лекции Метрические классификаторы — одни из самых простых. Качество классификации определяется качеством метрики. Что можно обучать: — число ближайших соседей k; — набор эталонов (prototype selection); — как вариант — веса объектов; — метрику (distance learning, similarity learning); — как частный случай — веса признаков. Распределение отступов делит объекты на эталонные, неинформативные, пограничные, ошибки и выбросы. Профиль компактности выборки позволяет судить о том, насколько удачно метрика подобрана под задачу. К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 31 / 31