SlideShare une entreprise Scribd logo
1  sur  130
Оценка позы и захват движения




                Антон Конушин
       http://courses.graphicon.ru/vision2
Этот курс подготовлен
при поддержке Microsoft
       Research
Благодарности

 Many slides are used from Andrew Zisserman talk at
                     CVML2010
Постановка задачи




• Определение положения и формы на изображении
  (2D) и в пространстве (3D) всех частей тела человека
• Как по одному изображению так и для целого видео
Вариабельность позы




        Обратите внимание ещё на то, как
        похожи друг на друга по цвету/текстуре
        отдельные части тела человека
Применение




Управление компьютером         Захват движения

 •   Распознавание и анализ поведения
 •   Перенос движения на виртуальный объект
 •   Аннотация и поиск в видео
 •   …
Поза как действие
Поза как событие
Модели человека




Иллюстрированная      Кинематическая         Модель формы
      модель              модель

•  Все это параметрические модели с большим количеством
параметров.
•  Но и с большим количеством ограничений.
•  Наша задача – оценить параметры этих моделей по изображению
(вывод / inference)
Распознавание в видео
• Вычислительная сложность моделей
  • Поиск параметров в пространстве большое размерности
     – Скажем, 1013
  • Много локальных минимумов
     – Проблема инициализации модели



• Как можно уменьшить сложность при работе с видео?
  • Более умный поиск (пр. градиентный спуск)
  • Уменьшение пространства поиска за счёт использования
    предыдущего кадра
Вероятность ошибки на видео

• Пусть вероятность ошибки 0.1% на кадр
• После кадров, вероятность успеха 0.999
• При 30 кадрах/с у нас получается:
  • 3.0% шанс ошибки после 1 сек
  • 83.5% шанс ошибки после 1 минуты
  • 99.99% шанс ошибки после 5 минут
Вероятность ошибки на видео

• Пусть вероятность ошибки 0.01% на кадр
• После кадров, вероятность успеха 0.999
• При 30 кадрах/с у нас получается:
  • 0.3 % шанс ошибки после 1 сек
  • 16.5 % шанс ошибки после 1 минуты
  • 59.3 % шанс ошибки после 5 минут
Подход
• Нужен метод, работающий на одном кадре
  • Или на маленьком наборе кадров
  • Это позволит нам реинициализировать слежение


• Как быть со временной информацией (видео)?
  • Нужно её использовать для временной фильтрации
  • Не поиск по меньшему пространству, но обработка
    результатов поиска
  • С помощью фильтрации можем отбрасывать ложные
    гипотезы и разрешать неоднозначные ситуации
Пример




 Пример из лекции Andrew Fitzgibbon c лекции на
  Microsoft Computer Vision Summer School 2011
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Временная фильтрация

• Методы временной фильтрации выходят далеко
  за пределы темы лекции и компьютерного зрения

• Пример:
  •   Kalman filter
  •   Particle filter
  •   Hidden Markov Model
  •   Gaussian process
  •   И т.д.


• Например, см. курс «Структурные методы анализа
  изображений и сигналов»
Первые работы




J. O'Rourke and N. Badler. Model-based image analysis of
human motion using constraint propagation. IEEE Trans.
on Pattern Analysis and Machine Intelligence. 1980.
Первые работы
Первые работы
Pfinder (People Finder)




     • Вычитание фона для получения маски человека
         • Одна Гауссиана для каждого пикселя
     • Моделирование человека как несколько «блобов»
         • модель Гауссиана
         • параметры пикселя - (x,y,Y,U,V)
         • пиксель человека должен принадлежать одному из
           блобов человека

Christopher Wren, Ali Azarbayejani, Trevor Darrell, Alex Pentl Pfinder: Real-Time
Tracking of the Human Body, PAMI 1997
PFinder
• Инициализация модели
  • «Стартовые» позы – оценка контура, локализация частей
    тела и моделирование блобов в этих областях


• На каждом кадре:
  • Получение маски переднего плана
  • Для каждого пикселя оценка логарифма правдоподобия
    принадлежности к каждому блобу




  • Обновление моделей блобов
  • Предсказание/сглаживание фильтром Калмана
Pfinder: демо
Иллюстрированные структуры




• Fischler & Elschlager 1973
Representing people
Разные позы
Разные позы
Иллюстрированная структура




• Графическая модель




• Φ – модель внешности (зависит от признаков
  изображения)
• Ψ – кинематическое ограничение
Унарный потенциал - цвет




Моделируем распределения цвета части:
• Гистограмма
• Гауссиана
Унарный потенциал - HOG
Кинематические ограничения
Вывод
        • Пусть h – количество
          вариантов для каждой части
          (после дискретизации)
        • n частей
        • Тогда всего вариантов hn
        • Благодаря дереву, сложность
          снижается до O(nh2) или O(nh)
          при использовании
          специальных ускорений
        • Belief Propagation для оценки
          апостериорной вероятности
Другие модели
                • Модель плохо учитывает
                  самопересечения
                • Поэтому можно
                  добавить
                  дополнительные ребра
                • Модель уже не будет
                  деревом, поэтому
                  приходится
                  использовать другие
                  методы
                • Loopy Belief Propagation
Построение моделей




D. Ramanan, D. Forsyth, and A. Zisserman. Tracking People by Learning their
Appearance. PAMI 2007.
Схема метода
  • Модель человека = внешность + структура
    (+ динамика)
  • Структура и динамика – общие для всех,
    внешность индивидуальна (person-specific)
  • Построение модели внешности «на лету» обычно
    приводит к смещениям (drift)
  • Поэтому, можно по видеоролику
    инициализировать модель внешности, и
    зафиксировать её при слежении
  • Сильная модель структуры и внешности
    позволяет заменить отслеживание повторным
    обнаружением (и некоторым сглаживанием)



D. Ramanan, D. Forsyth, and A. Zisserman. Tracking People by Learning their
Appearance. PAMI 2007.
Схема метода




               Tracker
Инициализация




• Инициализация «снизу вверх»
• Простой детектор на основе шаблона Хаара (как в VJ)
Инициализация




• Инициализация «сверху вниз»
• Будем искать «удобные для обнаружения» модели – идущий
человек
    • «Opportunistic detector»
Детектор шагающего человека




• Независимо считаем для краев разной ориентации chamfer distance,
затем суммируем
Построение модели внешности




• Обучаем классификатор внешности (в RGB пространстве)
• quadratic logistic regression
Поиск в сложных случаях




• Генерируем примеры из апостериорного
  распределения (sample from posterior)
• Сдвиг среднего для поиска мод
Общая vs индивидуальная модель
Результат
Результат
Итеративное уточнение модели




• Будем обучать цветовую модель итеративно,
  постепенно уточняя
Примеры
Stickman (2009) & Buffy pose (2008)




•   549 размеченных                         •   Набор типичных поз из
    изображений из PASCAL VOC                   сериала Баффи –
    08                                          истребительница вампиров



     •   http://www.vision.ee.ethz.ch/~calvin/ethz_pascal_stickmen/index.html
     •   http://www.robots.ox.ac.uk/~vgg/data/buffy_pose_classes/index.html
Примеры изображений




Разные позы, одежда, ракурсы, освещение, сложный фон
Обычный детектор




•   Примеменение обычной иллюстрированной модели к сложному
    фону не позволяет надеждано определить позу
Детектор торса




• Использование детектора торса позволит нам
  локализовать область поиска
  • Задаёт масштаб тела и конечностей
  • Задаёт ограничение на положение конечностей
  • Работает быстро
Инициализация по детектору

                      •   HOG + SVM детектор,
                          обученный по схеме
                          bootstrapping




                      •   Будем анализировать
                          расширенную область
                          торса, в которую
                          должны попасть
                          конечности
Детектор торса




            • среднее изображение торса
Выделение переднего плана

                   •   Использование GrabCut
                       для уточнения области
                       поиска
                   •   Инициализируем модели
                       по выделенному торсу


                          •   Консервативное
                              уточнение (в 95.5%
                              случаев человека не
                              теряем)
                          •   Уменьшаем область
                              поиска
                          •   Не требуется
                              информации о фоне
                          •   Фон может быть
                              динамическим
Примеры
Вычисление позы
                  •   Для оценки позы
                      применяем
                      иллюстрированную
                      модель
                      • Поиск краевыми
                        шаблонами
                      • Обучение модели цвета
                      • Уточнение области
                        поиска


                  •   Итог:
                      • Прогрессивное
                        уточнение повышает
                        скорость в 10-100 раз
                      • Гораздо надежнее
Результаты




• Качество демонстрируется на сложных сценах из
  Buffy-выборки
Ещё примеры
Развитие

• Наблюдение 1:
  • Положение головы и торса
    стабильно относительно
    найденного торса
  • Плечи более подвижны
    относительно торса
  • Локти ещё более подвижны
Развитие




• Есть несколько стандартных шаблонов сходства
  цвета и текстуры отдельных частей модели
• Можем использовать внешность стабильных
  элементов модели для поиска подвижных частей
Априорное расположение



• По выборке построим
  карты распределения
  положения
  элементов модели
  тела
Расширенная схема целиком
Ограничения моделей




Когда все элементы видны и не перекрываются –
модель применима
Обрезание кадра




     Для части нет параметра видимости
Перекрытия
Применение: поиск по позе




• Задача найти в базе изображения людей с позой
  заданного образца
Подход
         •   «Мягкая сегментация»
             позы человека как
             дескриптор
             • Карта вероятности
               расположения части
               тела
             • Распределение
               ориентации и положения
               частей тела


         • Сравнение
             • Скалярное произведение
               дескрипторов
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Пример
Реализации
• CALVIN – детектор тела, 2D оценка позы
  • http://www.vision.ee.ethz.ch/~calvin/software.html
3D из 2D




• Вопрос – как нам получить 3D позу по 2D
  изображениям?
• Главная проблема – неоднозначность 3D позы из-
  за низкой точности локализации всех конечностей
H3D: Humans in 3D (2009)




•   1000 изображений (Flickr)
•   Основные суставы и ключевые точки, метки видимости
•   Разметка областей (лицо, куртка и т.д.)
•   3D скелет

           http://www.eecs.berkeley.edu/~lbourdev/h3d/
HumanEva (2006)




               http://vision.cs.brown.edu/humaneva/index.html

  •   4 актёра, 6 общих движений (ходьба, бег, и т.д.)
  •   7 камер (3 цветные, 4 чёрно-белые)
  •   Синхронизированные с результатами mocap
  •   Baseline метод также в наличии
L. Sigal and M. J. Black. HumanEva: Synchronized Video and Motion Capture
Dataset for Evaluation of Articulated Human Motion, Techniacl Report CS-06-08,
Brown University, 2006
HumanEva (2006)




            Пример данных
TUM Kitchen Data Set (2009)




• 4 статичные камеры 384*288 RGB
• Магнитные сенсоры, фиксирующие
  открытие/закрытие ящиков и дверей
• Результаты полностью захваченного движения
  методом авторов


       http://ias.cs.tum.edu/download/kitchen-activity-data
3D модель




• Кинематическая (скелетная) модель
  • Набор отрезков, связанных суставами
• Форма поверхности тела
  • Полигональная или блочная
• Внешность
  • Цвет отдельных точек, цвет треугольников, текстура
    объекта
Количество камер
• Многокамерные конфигурации
  • Бинокулярное стерео
  • Многокамерное стерео, пр. воксельный объём
  • Учет признаков со многих ракурсов (силуэты, края, цвет
    и т.д)


• Однокамерные конфигурации
  • Неоднозначность реконструкции
  • Более сложные методы обучения (больше обучающих
    данных)
  • Регуляризация за счёт временной фильтрации
Общая схема для многих камер
• Идея:
  • За счёт большего объёма измерений в многокамерном
    случае компенсируем неоднозначность оценки 3D позы
• Схема
  • Формулируем свою 3D модель
  • Определяем признаки, по которым мы оцениваем
    качество модели
  • Формулируем функцию правдоподобия внешности
    модели
  • Инициализируем модель
  • На каждом кадре оптимизируем параметры модели
     – Сэмплирование
     – Стохастический подбор
Использование силуэтов
   • Многокамерная система
   • Полигональная модель формы + скелет
   • Оценка силуэта через вычитание фона
   • Функция качества по совпадению силуэта и цвета
     модели
   • Оптимизация с помощью сэмплирования
        • Комбинация 2х методов на основе «фильтра частиц»
            – «Annealing particle filter»
            – «Partitioned sampling»




Jan Bandouch , Michael Beetz , Tracking Humans Interacting with the Environment
Using Efficient Hierarchical Sampling and Layered Observation Models, IEEE Int.
Workshop on Human-Computer Interaction (HCI). 2009,
3D модель




•   51 DOF в кинематической модели
•   2000 треугольников в сетке
•   Цвет каждого треугольника для внешности
•   Ручная инициализация
    • PCA разложение для выделения 100 главных компонент
    • Ручной подбор компонент
Модели внешности




• Примеры нескольких моделей для слежения
Комбинация фильтров




• Демонстрация важности стратегии сэмплирования в
  фильтре
• В данном случае – неправильный порядок
  иерархического сэмплирования приводит к ошибкам
Важность точного силуэта




• Серьёзные ошибки в маске переднего плана
  приводят к резким ошибкам в оценке позы
• Авторы регистрируют отдельными датчиками
  факт открытия дверец шкафа и удаляют эти
  объекты из маски
Результаты слежения
Использование 3D объёма
   • Дополним нашу модель наблюдения сравнением
     поверхности объекта с выпуклой оболочкой,
     построенной по пересечению силуэтов
   • Элементы модели:
        • Соответствие 3D модели выпуклой оболочке
        • Соответствие контуров модели контурам на
          изображении
        • Цвет точек 3D модели используется для ускорения
          сопоставления модели и выпуклой оболочки
   • Для оценки параметров используем
     стохастический метод оптимизации, также
     позволяющих уменьшить влияние локальных
     минимумов

R. Kehl and L. V. Gool. Markerless tracking of complex human motions from multiple
views. Computer Vision and Image Understanding (CVIU), 104(2):190–209, 2006.
3D модель




• Вместо сеточной модели используем более
  простую параметрическую модель человека
Вычитание фона




• Считаем для каждой камеры на своей машине
Воксельный объём




   64x64x64                       128x128x128
• Строим 3D воксельную модель объекта путём
  пересечения силуэтов
• Оставляем все воксели только с поверхности
  модели (от 1000 до 5000 вокселей)
Поиск краёв объекта




• Ищём края на изображении, используя
  усовершенствованный метод поиска краёв (RGB-
  края)
Контура модели




• Для каждого состояния модели выделяем точки
  контура (occluding contours) на модели на каждом
  ракурсе
• Их будем сравнивать с краями на изображении
Сравнение внешности (цвета)




• Воксельная модель сегментируется по цветам,
  что упрощает поиск ближайших точек модели и
  поверхности воксельной модели
Важность разных измерений




• Вверху – оценка только по выпуклой оболочке
• Внизу – уточнение оценки по контурами
Результаты
Силуэты с некалиброванных камер




 Hasler N., Rosenhahn B., Thormählen T., Wand M., Gall J., and Seidel H.-P.,
Markerless Motion Capture with Unsynchronized Moving Cameras CVPR 2009
Схема системы
• Регистрация камер
  • «Структура из движения» независимо для каждой
    камеры
  • Объединение реконструкций за счет сопоставления
    кадров между последовательностями
  • Реконструкция поверхности
• Синхронизация видеопотоков
  • Корреляция синхронизированных с видео аудиодорожек
• Захват движения
  • Инициализация 3D-модели (лазерное сканирование)
  • Итеративная сегментация и оценка позы
     – Сегментация с помощью level sets с prior из 3д модели
     – Оценка позы по набору силуэтов
     – Повторение до сходимости
Калибровка камер
• Реконструкция по 1 видео




• Объединение реконструкций
  • Сопоставляем 3D точки сцены, которые отслеживались
    на 2+ видео
  • Требуем соблюдения условий
     – Похожести окрестностей
     – Уникальности (качество сопоставления пары-кандидата
       существенно выше, чем следующей по качеству пары)
Восстановление поверхностей




• Фильтрация точек
  • Рассматриваем окрестность каждой точки
  • Приближаем окрестность гладкой поверхностью
  • Если точка не лежит на ней – отбрасываем
• Триангулируем оставшиеся точки
Синхронизация видеопотоков




• Кросс-корреляция аудисигналов
• Не подходит для открытых сцен и больших
  расстояний (задержка в кадр при >6.8М)
• Можем задать несколько известных источников звука,
  распознавать их, составить систему уравнений
Видео
3D из монокулярного 2D




• Первые работы по оценке 3D позы по
  отмеченным пользователем точкам на 2D
  изображении относятся к 1985 году
• Задача решается пока только за счёт
  использования видео – сглаживания параметров
  модели по времени
3D из 2D

   • Пусть Y – параметры 3D позы, X – параметры 2D
     позы. Нужно оценить P(Y|X), и затем сгладить по
     времени в видео

   • Для этого по выборке (X,Y) напрямую оценим
     P(Y|X) с помощью «Mixture of experts»




L. Sigal and M. J. Black. Predicting 3D people from 2D pictures. In AMDO 2006.
Пример работы
Результат работы
Развитие монокулярного слежения




  • Приблизительная классификация точки обзора (8
    вариантов) по 2D изображению
  • Оценка 3D позы из (точка обзора, 2D поза)




Mykhaylo Andriluka, Stefan Roth, and Bernt Schiele. Monocular 3D pose
estimation and tracking by detection. CVPR 2010
Классификация ракурса




• 8 детекторов позы, каждый для своего ракурса
• Выходы 8и детекторов используются как
  признаки для классификатора ракурса
  • Max – максимальный калиброванный выход
  • SVM – выбор 1 оптимального ракурса, только
    примеры этого ракурса считаются позитивными
  • SVM-adj – группируем ракурсы в тройки ближайших,
    считаем позитивными примерами все из тройки
  • SVM-adj показал наилучшие результаты
Сглаживание ракурса




• После того, как построены следы, для каждого
  следа производим сглаживание ракурсов с
  помощью HMM
  • Состояния – 8 ракурсов
  • Модель наблюдения – выходы классификаторов ракурса
  • Модель перехода - гауссиана
3D поза из 2D изображения
• Разбиваем всю последовательность на
  пересекающиеся фрагменты из M=10 частей
• Для каждой части находим MAP оценку 3D позы
• Сглаживаем 3D позу по всей последовательности
  с помощью HMM-алгоритма
  • Варианты оценок – дискретные состояния
  • Параметры для модели наблюдения и модели движения
    берутся из MAP оценок
Результат
Форма и поза из одног изображения




 Peng Guan Alexander Weiss Alexandru O. B˘alan Michael J. Black,
  Estimating Human Shape and Pose from a Single Image, ICCV 2009
Атрибуты из 3D слежения




                               ВИДЕО




•   L. Sigal, D. Fleet, N. Troje, M. Livne Human Attributes from 3D Pose
    Tracking,, European Conference on Computer Vision, ECCV 2010.
Резюме лекции
• Ключевым элементом для оценки 2D позы являются
  иллюстрированные модели
  • Вопрос, как строить модели внешности для неизвестных
    новых людей. Сейчас это делается по априорным
    предположениям о положении в изображении и т.д.


• Перевод 2D в 3D опирается на гененирование
  гипотез с помощью распознавания и последующую
  временную фильтрацию
  • Фильтры частиц, Гауссовы процессы, HMM


• Для изображений пока всё довольно медленно из-за
  порождающего подхода

Contenu connexe

Tendances

CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.Anton Konushin
 
CV2011-2. Lecture 05. Video segmentation.
CV2011-2. Lecture 05.  Video segmentation.CV2011-2. Lecture 05.  Video segmentation.
CV2011-2. Lecture 05. Video segmentation.Anton Konushin
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrievalAnton Konushin
 
CV2011-2. Lecture 03. Photomontage, part 2.
CV2011-2. Lecture 03.  Photomontage, part 2.CV2011-2. Lecture 03.  Photomontage, part 2.
CV2011-2. Lecture 03. Photomontage, part 2.Anton Konushin
 
CV2011-2. Lecture 06. Structure from motion.
CV2011-2. Lecture 06.  Structure from motion.CV2011-2. Lecture 06.  Structure from motion.
CV2011-2. Lecture 06. Structure from motion.Anton Konushin
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.Anton Konushin
 
20120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture0320120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture03Computer Science Club
 
CV2011 Lecture 12. Action recognition
CV2011 Lecture 12. Action recognitionCV2011 Lecture 12. Action recognition
CV2011 Lecture 12. Action recognitionAnton Konushin
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionAnton Konushin
 
CV2011 Lecture 5. Features
CV2011 Lecture 5. FeaturesCV2011 Lecture 5. Features
CV2011 Lecture 5. FeaturesAnton Konushin
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04Computer Science Club
 
CV2011 Lecture 3. Basic image analysis
CV2011 Lecture 3. Basic image analysisCV2011 Lecture 3. Basic image analysis
CV2011 Lecture 3. Basic image analysisAnton Konushin
 
CV2011 Lecture 8. Detection
CV2011 Lecture 8. DetectionCV2011 Lecture 8. Detection
CV2011 Lecture 8. DetectionAnton Konushin
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видеоVictor Kulikov
 
20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05Computer Science Club
 
20100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture0220100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture02Computer Science Club
 
CV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingCV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingAnton Konushin
 
CV2011 Lecture 4. Image representation
CV2011 Lecture 4. Image representationCV2011 Lecture 4. Image representation
CV2011 Lecture 4. Image representationAnton Konushin
 
3D графіка
3D графіка3D графіка
3D графікаsveta78314
 

Tendances (20)

CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.CV2015. Лекция 2. Простые методы распознавания изображений.
CV2015. Лекция 2. Простые методы распознавания изображений.
 
CV2011-2. Lecture 05. Video segmentation.
CV2011-2. Lecture 05.  Video segmentation.CV2011-2. Lecture 05.  Video segmentation.
CV2011-2. Lecture 05. Video segmentation.
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrieval
 
CV2011-2. Lecture 03. Photomontage, part 2.
CV2011-2. Lecture 03.  Photomontage, part 2.CV2011-2. Lecture 03.  Photomontage, part 2.
CV2011-2. Lecture 03. Photomontage, part 2.
 
CV2011-2. Lecture 06. Structure from motion.
CV2011-2. Lecture 06.  Structure from motion.CV2011-2. Lecture 06.  Structure from motion.
CV2011-2. Lecture 06. Structure from motion.
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.
 
20120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture0320120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture03
 
CV2011 Lecture 12. Action recognition
CV2011 Lecture 12. Action recognitionCV2011 Lecture 12. Action recognition
CV2011 Lecture 12. Action recognition
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time vision
 
CV2011 Lecture 5. Features
CV2011 Lecture 5. FeaturesCV2011 Lecture 5. Features
CV2011 Lecture 5. Features
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04
 
CV2011 Lecture 3. Basic image analysis
CV2011 Lecture 3. Basic image analysisCV2011 Lecture 3. Basic image analysis
CV2011 Lecture 3. Basic image analysis
 
CV2011 Lecture 8. Detection
CV2011 Lecture 8. DetectionCV2011 Lecture 8. Detection
CV2011 Lecture 8. Detection
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видео
 
20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05
 
20100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture0220100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture02
 
CV2011 Lecture 6. Fitting
CV2011 Lecture 6. FittingCV2011 Lecture 6. Fitting
CV2011 Lecture 6. Fitting
 
CV2011 Lecture 4. Image representation
CV2011 Lecture 4. Image representationCV2011 Lecture 4. Image representation
CV2011 Lecture 4. Image representation
 
L05 features
L05 featuresL05 features
L05 features
 
3D графіка
3D графіка3D графіка
3D графіка
 

Similaire à CV2011-2. Lecture 10. Pose estimation.

CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.Anton Konushin
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.Anton Konushin
 
20120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture0220120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture02Computer Science Club
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)Alexander Gornik
 
20120413 videorecognition konushin_lecture01
20120413 videorecognition konushin_lecture0120120413 videorecognition konushin_lecture01
20120413 videorecognition konushin_lecture01Computer Science Club
 
CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.Anton Konushin
 
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"Olexander Donchuk "AI testing in shooters: main points and hidden hazards"
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"Lviv Startup Club
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.Anton Konushin
 
“ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)
 “ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt) “ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)
“ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)Alina Vilk
 
Базовые модели
Базовые моделиБазовые модели
Базовые моделиJacob Feldman
 
Kirill Rozin - Computer Vision. Alchemy of Modeling
Kirill Rozin - Computer Vision. Alchemy of ModelingKirill Rozin - Computer Vision. Alchemy of Modeling
Kirill Rozin - Computer Vision. Alchemy of ModelingSergey Arkhipov
 

Similaire à CV2011-2. Lecture 10. Pose estimation. (13)

CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
 
20120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture0220120413 videorecognition konushin_lecture02
20120413 videorecognition konushin_lecture02
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)
 
L06 detection
L06 detectionL06 detection
L06 detection
 
20120413 videorecognition konushin_lecture01
20120413 videorecognition konushin_lecture0120120413 videorecognition konushin_lecture01
20120413 videorecognition konushin_lecture01
 
CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.
 
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"Olexander Donchuk "AI testing in shooters: main points and hidden hazards"
Olexander Donchuk "AI testing in shooters: main points and hidden hazards"
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
 
“ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)
 “ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt) “ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)
“ComputerVision(Ruby && OpenCV)”, Людмила Дежкина ( Senior Ruby, DataArt)
 
Базовые модели
Базовые моделиБазовые модели
Базовые модели
 
Kirill Rozin - Computer Vision. Alchemy of Modeling
Kirill Rozin - Computer Vision. Alchemy of ModelingKirill Rozin - Computer Vision. Alchemy of Modeling
Kirill Rozin - Computer Vision. Alchemy of Modeling
 

Plus de Anton Konushin

CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.Anton Konushin
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.Anton Konushin
 
Технологии разработки ПО
Технологии разработки ПОТехнологии разработки ПО
Технологии разработки ПОAnton Konushin
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторовAnton Konushin
 
Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparisonAnton Konushin
 
Anton Konushin - TEDxRU 2009
Anton Konushin - TEDxRU 2009Anton Konushin - TEDxRU 2009
Anton Konushin - TEDxRU 2009Anton Konushin
 
Computer vision infrastracture
Computer vision infrastractureComputer vision infrastracture
Computer vision infrastractureAnton Konushin
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paperAnton Konushin
 
Andrew Zisserman Talk - Part 1a
Andrew Zisserman Talk - Part 1aAndrew Zisserman Talk - Part 1a
Andrew Zisserman Talk - Part 1aAnton Konushin
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoAnton Konushin
 

Plus de Anton Konushin (10)

CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.CV2015. Лекция 7. Поиск изображений по содержанию.
CV2015. Лекция 7. Поиск изображений по содержанию.
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
Технологии разработки ПО
Технологии разработки ПОТехнологии разработки ПО
Технологии разработки ПО
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторов
 
Classifier evaluation and comparison
Classifier evaluation and comparisonClassifier evaluation and comparison
Classifier evaluation and comparison
 
Anton Konushin - TEDxRU 2009
Anton Konushin - TEDxRU 2009Anton Konushin - TEDxRU 2009
Anton Konushin - TEDxRU 2009
 
Computer vision infrastracture
Computer vision infrastractureComputer vision infrastracture
Computer vision infrastracture
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paper
 
Andrew Zisserman Talk - Part 1a
Andrew Zisserman Talk - Part 1aAndrew Zisserman Talk - Part 1a
Andrew Zisserman Talk - Part 1a
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic video
 

CV2011-2. Lecture 10. Pose estimation.

  • 1. Оценка позы и захват движения Антон Конушин http://courses.graphicon.ru/vision2
  • 2. Этот курс подготовлен при поддержке Microsoft Research
  • 3. Благодарности Many slides are used from Andrew Zisserman talk at CVML2010
  • 4. Постановка задачи • Определение положения и формы на изображении (2D) и в пространстве (3D) всех частей тела человека • Как по одному изображению так и для целого видео
  • 5. Вариабельность позы Обратите внимание ещё на то, как похожи друг на друга по цвету/текстуре отдельные части тела человека
  • 6. Применение Управление компьютером Захват движения • Распознавание и анализ поведения • Перенос движения на виртуальный объект • Аннотация и поиск в видео • …
  • 9. Модели человека Иллюстрированная Кинематическая Модель формы модель модель • Все это параметрические модели с большим количеством параметров. • Но и с большим количеством ограничений. • Наша задача – оценить параметры этих моделей по изображению (вывод / inference)
  • 10. Распознавание в видео • Вычислительная сложность моделей • Поиск параметров в пространстве большое размерности – Скажем, 1013 • Много локальных минимумов – Проблема инициализации модели • Как можно уменьшить сложность при работе с видео? • Более умный поиск (пр. градиентный спуск) • Уменьшение пространства поиска за счёт использования предыдущего кадра
  • 11. Вероятность ошибки на видео • Пусть вероятность ошибки 0.1% на кадр • После кадров, вероятность успеха 0.999 • При 30 кадрах/с у нас получается: • 3.0% шанс ошибки после 1 сек • 83.5% шанс ошибки после 1 минуты • 99.99% шанс ошибки после 5 минут
  • 12. Вероятность ошибки на видео • Пусть вероятность ошибки 0.01% на кадр • После кадров, вероятность успеха 0.999 • При 30 кадрах/с у нас получается: • 0.3 % шанс ошибки после 1 сек • 16.5 % шанс ошибки после 1 минуты • 59.3 % шанс ошибки после 5 минут
  • 13. Подход • Нужен метод, работающий на одном кадре • Или на маленьком наборе кадров • Это позволит нам реинициализировать слежение • Как быть со временной информацией (видео)? • Нужно её использовать для временной фильтрации • Не поиск по меньшему пространству, но обработка результатов поиска • С помощью фильтрации можем отбрасывать ложные гипотезы и разрешать неоднозначные ситуации
  • 14. Пример Пример из лекции Andrew Fitzgibbon c лекции на Microsoft Computer Vision Summer School 2011
  • 27. Временная фильтрация • Методы временной фильтрации выходят далеко за пределы темы лекции и компьютерного зрения • Пример: • Kalman filter • Particle filter • Hidden Markov Model • Gaussian process • И т.д. • Например, см. курс «Структурные методы анализа изображений и сигналов»
  • 28. Первые работы J. O'Rourke and N. Badler. Model-based image analysis of human motion using constraint propagation. IEEE Trans. on Pattern Analysis and Machine Intelligence. 1980.
  • 31. Pfinder (People Finder) • Вычитание фона для получения маски человека • Одна Гауссиана для каждого пикселя • Моделирование человека как несколько «блобов» • модель Гауссиана • параметры пикселя - (x,y,Y,U,V) • пиксель человека должен принадлежать одному из блобов человека Christopher Wren, Ali Azarbayejani, Trevor Darrell, Alex Pentl Pfinder: Real-Time Tracking of the Human Body, PAMI 1997
  • 32. PFinder • Инициализация модели • «Стартовые» позы – оценка контура, локализация частей тела и моделирование блобов в этих областях • На каждом кадре: • Получение маски переднего плана • Для каждого пикселя оценка логарифма правдоподобия принадлежности к каждому блобу • Обновление моделей блобов • Предсказание/сглаживание фильтром Калмана
  • 38. Иллюстрированная структура • Графическая модель • Φ – модель внешности (зависит от признаков изображения) • Ψ – кинематическое ограничение
  • 39. Унарный потенциал - цвет Моделируем распределения цвета части: • Гистограмма • Гауссиана
  • 42. Вывод • Пусть h – количество вариантов для каждой части (после дискретизации) • n частей • Тогда всего вариантов hn • Благодаря дереву, сложность снижается до O(nh2) или O(nh) при использовании специальных ускорений • Belief Propagation для оценки апостериорной вероятности
  • 43. Другие модели • Модель плохо учитывает самопересечения • Поэтому можно добавить дополнительные ребра • Модель уже не будет деревом, поэтому приходится использовать другие методы • Loopy Belief Propagation
  • 44. Построение моделей D. Ramanan, D. Forsyth, and A. Zisserman. Tracking People by Learning their Appearance. PAMI 2007.
  • 45. Схема метода • Модель человека = внешность + структура (+ динамика) • Структура и динамика – общие для всех, внешность индивидуальна (person-specific) • Построение модели внешности «на лету» обычно приводит к смещениям (drift) • Поэтому, можно по видеоролику инициализировать модель внешности, и зафиксировать её при слежении • Сильная модель структуры и внешности позволяет заменить отслеживание повторным обнаружением (и некоторым сглаживанием) D. Ramanan, D. Forsyth, and A. Zisserman. Tracking People by Learning their Appearance. PAMI 2007.
  • 47. Инициализация • Инициализация «снизу вверх» • Простой детектор на основе шаблона Хаара (как в VJ)
  • 48. Инициализация • Инициализация «сверху вниз» • Будем искать «удобные для обнаружения» модели – идущий человек • «Opportunistic detector»
  • 49. Детектор шагающего человека • Независимо считаем для краев разной ориентации chamfer distance, затем суммируем
  • 50. Построение модели внешности • Обучаем классификатор внешности (в RGB пространстве) • quadratic logistic regression
  • 51. Поиск в сложных случаях • Генерируем примеры из апостериорного распределения (sample from posterior) • Сдвиг среднего для поиска мод
  • 55. Итеративное уточнение модели • Будем обучать цветовую модель итеративно, постепенно уточняя
  • 57. Stickman (2009) & Buffy pose (2008) • 549 размеченных • Набор типичных поз из изображений из PASCAL VOC сериала Баффи – 08 истребительница вампиров • http://www.vision.ee.ethz.ch/~calvin/ethz_pascal_stickmen/index.html • http://www.robots.ox.ac.uk/~vgg/data/buffy_pose_classes/index.html
  • 58. Примеры изображений Разные позы, одежда, ракурсы, освещение, сложный фон
  • 59. Обычный детектор • Примеменение обычной иллюстрированной модели к сложному фону не позволяет надеждано определить позу
  • 60. Детектор торса • Использование детектора торса позволит нам локализовать область поиска • Задаёт масштаб тела и конечностей • Задаёт ограничение на положение конечностей • Работает быстро
  • 61. Инициализация по детектору • HOG + SVM детектор, обученный по схеме bootstrapping • Будем анализировать расширенную область торса, в которую должны попасть конечности
  • 62. Детектор торса • среднее изображение торса
  • 63. Выделение переднего плана • Использование GrabCut для уточнения области поиска • Инициализируем модели по выделенному торсу • Консервативное уточнение (в 95.5% случаев человека не теряем) • Уменьшаем область поиска • Не требуется информации о фоне • Фон может быть динамическим
  • 65. Вычисление позы • Для оценки позы применяем иллюстрированную модель • Поиск краевыми шаблонами • Обучение модели цвета • Уточнение области поиска • Итог: • Прогрессивное уточнение повышает скорость в 10-100 раз • Гораздо надежнее
  • 66. Результаты • Качество демонстрируется на сложных сценах из Buffy-выборки
  • 68. Развитие • Наблюдение 1: • Положение головы и торса стабильно относительно найденного торса • Плечи более подвижны относительно торса • Локти ещё более подвижны
  • 69. Развитие • Есть несколько стандартных шаблонов сходства цвета и текстуры отдельных частей модели • Можем использовать внешность стабильных элементов модели для поиска подвижных частей
  • 70. Априорное расположение • По выборке построим карты распределения положения элементов модели тела
  • 72. Ограничения моделей Когда все элементы видны и не перекрываются – модель применима
  • 73. Обрезание кадра Для части нет параметра видимости
  • 75. Применение: поиск по позе • Задача найти в базе изображения людей с позой заданного образца
  • 76. Подход • «Мягкая сегментация» позы человека как дескриптор • Карта вероятности расположения части тела • Распределение ориентации и положения частей тела • Сравнение • Скалярное произведение дескрипторов
  • 89. Реализации • CALVIN – детектор тела, 2D оценка позы • http://www.vision.ee.ethz.ch/~calvin/software.html
  • 90. 3D из 2D • Вопрос – как нам получить 3D позу по 2D изображениям? • Главная проблема – неоднозначность 3D позы из- за низкой точности локализации всех конечностей
  • 91. H3D: Humans in 3D (2009) • 1000 изображений (Flickr) • Основные суставы и ключевые точки, метки видимости • Разметка областей (лицо, куртка и т.д.) • 3D скелет http://www.eecs.berkeley.edu/~lbourdev/h3d/
  • 92. HumanEva (2006) http://vision.cs.brown.edu/humaneva/index.html • 4 актёра, 6 общих движений (ходьба, бег, и т.д.) • 7 камер (3 цветные, 4 чёрно-белые) • Синхронизированные с результатами mocap • Baseline метод также в наличии L. Sigal and M. J. Black. HumanEva: Synchronized Video and Motion Capture Dataset for Evaluation of Articulated Human Motion, Techniacl Report CS-06-08, Brown University, 2006
  • 93. HumanEva (2006) Пример данных
  • 94. TUM Kitchen Data Set (2009) • 4 статичные камеры 384*288 RGB • Магнитные сенсоры, фиксирующие открытие/закрытие ящиков и дверей • Результаты полностью захваченного движения методом авторов http://ias.cs.tum.edu/download/kitchen-activity-data
  • 95. 3D модель • Кинематическая (скелетная) модель • Набор отрезков, связанных суставами • Форма поверхности тела • Полигональная или блочная • Внешность • Цвет отдельных точек, цвет треугольников, текстура объекта
  • 96. Количество камер • Многокамерные конфигурации • Бинокулярное стерео • Многокамерное стерео, пр. воксельный объём • Учет признаков со многих ракурсов (силуэты, края, цвет и т.д) • Однокамерные конфигурации • Неоднозначность реконструкции • Более сложные методы обучения (больше обучающих данных) • Регуляризация за счёт временной фильтрации
  • 97. Общая схема для многих камер • Идея: • За счёт большего объёма измерений в многокамерном случае компенсируем неоднозначность оценки 3D позы • Схема • Формулируем свою 3D модель • Определяем признаки, по которым мы оцениваем качество модели • Формулируем функцию правдоподобия внешности модели • Инициализируем модель • На каждом кадре оптимизируем параметры модели – Сэмплирование – Стохастический подбор
  • 98. Использование силуэтов • Многокамерная система • Полигональная модель формы + скелет • Оценка силуэта через вычитание фона • Функция качества по совпадению силуэта и цвета модели • Оптимизация с помощью сэмплирования • Комбинация 2х методов на основе «фильтра частиц» – «Annealing particle filter» – «Partitioned sampling» Jan Bandouch , Michael Beetz , Tracking Humans Interacting with the Environment Using Efficient Hierarchical Sampling and Layered Observation Models, IEEE Int. Workshop on Human-Computer Interaction (HCI). 2009,
  • 99. 3D модель • 51 DOF в кинематической модели • 2000 треугольников в сетке • Цвет каждого треугольника для внешности • Ручная инициализация • PCA разложение для выделения 100 главных компонент • Ручной подбор компонент
  • 100. Модели внешности • Примеры нескольких моделей для слежения
  • 101. Комбинация фильтров • Демонстрация важности стратегии сэмплирования в фильтре • В данном случае – неправильный порядок иерархического сэмплирования приводит к ошибкам
  • 102. Важность точного силуэта • Серьёзные ошибки в маске переднего плана приводят к резким ошибкам в оценке позы • Авторы регистрируют отдельными датчиками факт открытия дверец шкафа и удаляют эти объекты из маски
  • 104. Использование 3D объёма • Дополним нашу модель наблюдения сравнением поверхности объекта с выпуклой оболочкой, построенной по пересечению силуэтов • Элементы модели: • Соответствие 3D модели выпуклой оболочке • Соответствие контуров модели контурам на изображении • Цвет точек 3D модели используется для ускорения сопоставления модели и выпуклой оболочки • Для оценки параметров используем стохастический метод оптимизации, также позволяющих уменьшить влияние локальных минимумов R. Kehl and L. V. Gool. Markerless tracking of complex human motions from multiple views. Computer Vision and Image Understanding (CVIU), 104(2):190–209, 2006.
  • 105. 3D модель • Вместо сеточной модели используем более простую параметрическую модель человека
  • 106. Вычитание фона • Считаем для каждой камеры на своей машине
  • 107. Воксельный объём 64x64x64 128x128x128 • Строим 3D воксельную модель объекта путём пересечения силуэтов • Оставляем все воксели только с поверхности модели (от 1000 до 5000 вокселей)
  • 108. Поиск краёв объекта • Ищём края на изображении, используя усовершенствованный метод поиска краёв (RGB- края)
  • 109. Контура модели • Для каждого состояния модели выделяем точки контура (occluding contours) на модели на каждом ракурсе • Их будем сравнивать с краями на изображении
  • 110. Сравнение внешности (цвета) • Воксельная модель сегментируется по цветам, что упрощает поиск ближайших точек модели и поверхности воксельной модели
  • 111. Важность разных измерений • Вверху – оценка только по выпуклой оболочке • Внизу – уточнение оценки по контурами
  • 113. Силуэты с некалиброванных камер Hasler N., Rosenhahn B., Thormählen T., Wand M., Gall J., and Seidel H.-P., Markerless Motion Capture with Unsynchronized Moving Cameras CVPR 2009
  • 114. Схема системы • Регистрация камер • «Структура из движения» независимо для каждой камеры • Объединение реконструкций за счет сопоставления кадров между последовательностями • Реконструкция поверхности • Синхронизация видеопотоков • Корреляция синхронизированных с видео аудиодорожек • Захват движения • Инициализация 3D-модели (лазерное сканирование) • Итеративная сегментация и оценка позы – Сегментация с помощью level sets с prior из 3д модели – Оценка позы по набору силуэтов – Повторение до сходимости
  • 115. Калибровка камер • Реконструкция по 1 видео • Объединение реконструкций • Сопоставляем 3D точки сцены, которые отслеживались на 2+ видео • Требуем соблюдения условий – Похожести окрестностей – Уникальности (качество сопоставления пары-кандидата существенно выше, чем следующей по качеству пары)
  • 116. Восстановление поверхностей • Фильтрация точек • Рассматриваем окрестность каждой точки • Приближаем окрестность гладкой поверхностью • Если точка не лежит на ней – отбрасываем • Триангулируем оставшиеся точки
  • 117. Синхронизация видеопотоков • Кросс-корреляция аудисигналов • Не подходит для открытых сцен и больших расстояний (задержка в кадр при >6.8М) • Можем задать несколько известных источников звука, распознавать их, составить систему уравнений
  • 119. 3D из монокулярного 2D • Первые работы по оценке 3D позы по отмеченным пользователем точкам на 2D изображении относятся к 1985 году • Задача решается пока только за счёт использования видео – сглаживания параметров модели по времени
  • 120. 3D из 2D • Пусть Y – параметры 3D позы, X – параметры 2D позы. Нужно оценить P(Y|X), и затем сгладить по времени в видео • Для этого по выборке (X,Y) напрямую оценим P(Y|X) с помощью «Mixture of experts» L. Sigal and M. J. Black. Predicting 3D people from 2D pictures. In AMDO 2006.
  • 123. Развитие монокулярного слежения • Приблизительная классификация точки обзора (8 вариантов) по 2D изображению • Оценка 3D позы из (точка обзора, 2D поза) Mykhaylo Andriluka, Stefan Roth, and Bernt Schiele. Monocular 3D pose estimation and tracking by detection. CVPR 2010
  • 124. Классификация ракурса • 8 детекторов позы, каждый для своего ракурса • Выходы 8и детекторов используются как признаки для классификатора ракурса • Max – максимальный калиброванный выход • SVM – выбор 1 оптимального ракурса, только примеры этого ракурса считаются позитивными • SVM-adj – группируем ракурсы в тройки ближайших, считаем позитивными примерами все из тройки • SVM-adj показал наилучшие результаты
  • 125. Сглаживание ракурса • После того, как построены следы, для каждого следа производим сглаживание ракурсов с помощью HMM • Состояния – 8 ракурсов • Модель наблюдения – выходы классификаторов ракурса • Модель перехода - гауссиана
  • 126. 3D поза из 2D изображения • Разбиваем всю последовательность на пересекающиеся фрагменты из M=10 частей • Для каждой части находим MAP оценку 3D позы • Сглаживаем 3D позу по всей последовательности с помощью HMM-алгоритма • Варианты оценок – дискретные состояния • Параметры для модели наблюдения и модели движения берутся из MAP оценок
  • 128. Форма и поза из одног изображения Peng Guan Alexander Weiss Alexandru O. B˘alan Michael J. Black, Estimating Human Shape and Pose from a Single Image, ICCV 2009
  • 129. Атрибуты из 3D слежения ВИДЕО • L. Sigal, D. Fleet, N. Troje, M. Livne Human Attributes from 3D Pose Tracking,, European Conference on Computer Vision, ECCV 2010.
  • 130. Резюме лекции • Ключевым элементом для оценки 2D позы являются иллюстрированные модели • Вопрос, как строить модели внешности для неизвестных новых людей. Сейчас это делается по априорным предположениям о положении в изображении и т.д. • Перевод 2D в 3D опирается на гененирование гипотез с помощью распознавания и последующую временную фильтрацию • Фильтры частиц, Гауссовы процессы, HMM • Для изображений пока всё довольно медленно из-за порождающего подхода