SlideShare une entreprise Scribd logo
1  sur  85
Télécharger pour lire hors ligne
Распознавание изображений




 Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik
• Н.с. в Лаборатории компьютерной
  графики и мультимедиа ВМК МГУ имим.
  М.В. Ломоносова
  • И.о. м.н.с. НИИ Нормальной физиологии
    РАМН им. П.К. Анохина
• С/к «Компьютерное зрение» (год), ВМК
• С/к «Анализ изображений и видео»
  (год), ШАД Яндекс




• Задавать вопросы по ходу можно и
  нужно!
       !
Задача компьютерного зрения
• Понять, что запечатлено на изображении




     Мы видим                Компьютер видит
Задача компьютерного зрения

  • Понять, что запечатлено на изображении
  • Вариант:
    • принятие решений о реальных физических объектах и
      сценах, основываясь на воспринимаемых изображениях
  • Что это в действительности обозначает?
    • Зрение - источник семантической информации о мире
    • Зрение - источник метрической информации о
      трехмерном мире
Семантическая информация




22.12.2010                                              Slide 5
             Slide credit: Fei-Fei, Fergus & Torralba
Классификация сцены
• outdoor
• city
• t ffi
  traffic
•…




22.12.2010                               Slide 6
                      slide credit: Fei-Fei, Fergus
Поиск и локализация объектов

 sky
                         building

flag

                      face
 banner
                                                                 wall
                                         street lamp
              bus                                              bus


 22.12.2010                         cars
                    Slide credit: Fei-Fei, Fergus & Torralba         Slide 7
Качественная информация об объектах


                           slanted



                                     non-rigid moving
                                          i id    i
                                     object


                vertical

 rigid moving                           rigid moving
 object                                 object
22.12.2010
                      horizontal                         Slide 8
                                      slide credit: Fei-Fei, Fergus
Метрическая информация

                                              Multi-view stereo for
Real-time stereo      Structure from motion   community photo collections
                                                        yp




  NASA Mars Rover




               Pollefeys et al.                         Goesele et al.
Почему зрение – это сложно?
Точка наблюдения




Michelangelo 1475 1564
Mi h l    l 1475-1564




                         slide credit: Fei-Fei, Fergus & Torralba
Разное освещение




           image credit: J. Koenderink
Масштаб




          Slide credit: Fei-Fei, Fergus & Torralba
Деформация формы




Xu, Beihong 1943
X B ih


                   Slide credit: Fei-Fei, Fergus & Torralba
Перекрытие




   Magritte, 1957




         slide credit: Fei-Fei, Fergus & Torralba
Маскировка
Движение
Внутриклассовая изменчивость




         slide credit: Fei-Fei, Fergus & Torralba
Локальная неоднозначность




          slide credit: Fei-Fei, Fergus & Torralba
Сложности или возможности?
• Изображение запутывает, но дает много подсказок
• Наша задача – интерпретировать подсказки




                                       Image source: J. Koenderin
Цвет




22.12.2010   Slide 21
Тени и освещение




                   Source: J. Koenderink
Отбрасываемые тени




                     Source: J. Koenderink
Группировка: положение




                         Image credit: Arthus-Bertrand (via
Глубина: линейная перспектива
Текстура
Упорядочивание по глубине




                Source: J. Koenderink
Глубина: воздушная перспектива
Резюме

• Зрение изначально нечеткая задача
  • Разные 3D сцены дают одно и то же 2D изображение
  • Необходимы априорные знания о структуре и свойствах мира




                                                    Image source: F. D
Начало
• Работы Дэвида Марра, 1970х
• «Primal sketch»
  • Низкоуровневые («low-level») свойства изображения:
    направленные края, отрезки и т.д.
• «2.5D sketch»
  • Упорядочивание по глубине (бинокулярное стерое), учёт
    текстуры и т.д.
     е с р
• «3D model»
  • Распознавание объектов и представление о 3х мерном
    мире
Зрение человека
Зрение человека


• Д
  Данные (D t )
         (Data)
   • Устройство глаза
   • Данные в жизни
• Признаки (Features)
   • Low-level vision
     Low level
• (?) Стерео, группировка, форма
   • Mid-level vision
• Распознавание (Классификация)
   • High-level vision
Камера-обскура




Камера-обскура:
  • Захватывает пучок лучей, проходящих через одну точку
  • Точка называется Центр проекции (фокальная точка / focal
    point)
  • Изображение формируется на картинной плоскости (Image
    plane)
                                                    Slide by Steve Seitz
Цифровая камера - дискретизация
Человеческий глаз




                                                    cone

                                                           rod


Глаз как камера!
   • Хрусталик – «линза», меняет форму под действием мышц
      ру                         ф р у
   • Зрачок - дырка (апертура), диаметр управляется радужкой
      – Радужка – цветная пленка с радиальными мышцами
   • М
     Матрица - К
               Клетки-фоторецепторы на сетчатке
                      ф

                                                            Slide by Steve Seitz
Цветные фотографии??
Что такое цвет?
Цвет – это психологическое свойство нашего зрения,
  возникающее при наблюдении объектов и света, а не
  физические свойства объектов и света (S Palmer Vision
                                        (S. Palmer,
  Science: Photons to Phenomenology)
Цвет – это результат взаимодействия света, сцены и нашей
  зрительной системы




         Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908   Slide by S. Lazebnik
Восприятие цвета
                              M       L
       Power

                S




                                                  Wavelength

Палочки и колбочки (3 вида) – фильтры спектра
  • Спектр света умножается на кривую отклика
    фоторецептора, производится интегрирование по всем
    длинам волн
     – Каждая колбочка даёт 1 число

  • В: Как же мы можем описать весь спектр 3мя числами?
  • О: Мы и не можем! Большая часть информации теряется.
                                       ф р ц       р
     – Два разных спектра могут быть неотличимы
         » Такие спектры называются метамеры
                                                          Slide by Steve Seitz
Спектры некоторых объектов



     metamers




                             Slide by S. Lazebnik
Трихроматическая теория
В экспериментах по сопоставлению цвета
  большинству людей достаточно 3х основных
  цветов, чтобы сопоставить любой цвет
   • Основные цвета должны быть независимы
Для одного и того же спектра, и одних и тех же
  основных цветов, люди выбирают одинаковые
  веса
   • Исключения: цветовая слепота
Трихроматическая теория
   • Трех чисел оказывается достаточно, чтобы описать цвет
   • История восходит к 18у веку (Томас Юнг)




                                                      Slide by S. Lazebnik
Первые цветные фотографии
Сергей Прокудин-Горский (1863-1944)
Фотографии Российской империи(1909-
     р ф                   р (
  1916)




                 Lantern
                 projector
  http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii
               http://www.loc.gov/exhibits/empire/                    Slide by А.Efros
Лев Толстой
Цветное цифровое изображение

Байеровский шаблон

                     Демозаикинг (оценка
                     пропущенных
                     значений цвета)




                                           Source: Steve Seitz
«Фишка» глаза
Плотность палочек и колбочек




                                                                        pigment
                                                       cone            molecules

                                                             rod

Палочки и колбочки распределены неравномерно
   •   Палочки измеряют яркость, колбочки цвет
   •   Fovea – маленькая область(1 or 2°) в центре визуального поля с
                                (       ) ц     р     у
       наибольшей плотностью колбочек и без палочек
   •   На периферии все больше палочек подсоединены к одному нейрону
                                                                         Slide by Steve Seitz
Что мы на самом деле видим
Движения глаз
Адаптация зрительной системы
Чувствительность зрительной системы меняется в
  зависимости от доминантной освещенности
  наблюдаемой сцены (Баланс белого)
    б        й        (Б     б     )
  • Механизм плохо изучен
Адаптация к разным уровням освещенности
  • Размер зрачка регулирует объем света, попадающий на
    сетчатку
  • Р
    Размер резко меняется при входе в здание с ярко
    освещенной солнцем улицы
Ц
Цветовая адаптация
  • Клетки сетчатки меняю свою чувствительность
  • Пример: если доля красного в освещении повышается,
    понижается чувствительность клеток, отвечающий за
                                 клеток
    красный, пока вид сцены не придет к норме
  • Мы лучше адаптируемся при яркой освещенности, при
    освещении свечой все остается в желтых тонах

     http://www.schorsch.com/kbase/glossary/adaptation.html   Slide by S. Lazebnik
Баланс белого
•   Когда мы смотрим на фотографию или монитор, глаза
    адаптируются к освещению в комнате, а не к освещению сцены на
    фотографии
•   Если баланс белого неточен, цвета фотографии кажутся
    неестественными


            incorrect white balance       correct white balance




       http://www.cambridgeincolour.com/tutorials/white-balance.htm   Slide by S. Lazebnik
Постоянство яркости




                      Slide by S. Lazebnik
Постоянство яркости




 http://web.mit.edu/persci/people/adelson/checkershadow_illusion.html
                                                                  Slide by S. Lazebnik
Данные - продолжение
• Сколько нам нужно данных для обучения
  алгоритмов?
• Сколько есть классов объектов?
• Сколько изображений?
  • Что мы про них будем знать?
Сколько всего классов объектов?




 1500-3000
 1500 3000 основных существительных, ~10 подкатегорий
                                      10            й

                                             Biederman 1987
OBJECTS

 ANIMALS        PLANTS               INANIMATE

                                 NATURAL   MAN-MADE
…..      VERTEBRATE


  MAMMALS                BIRDS


      TAPIR       BOAR              GROUSE       CAMERA
10 в степени
Число картинок на диске:                                                        104




Число картинок, виденных за 10 лет:
Ч                                                                               108
(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)




Число картинок,
виденных всем человечеством:                                                    1020
106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 =
1f
 from htt //
      http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx
                   b    /A ti l /2002/H M     P   l H   E Li d E th




Число картинок во вселенной:                                                    10243
1081 atoms * 1081 * 1081 =




Число всех картинок 32x32 :                                                     107373
256 32*32*3 ~ 107373

                                                             Slide by Antonio Torralba
Доступные данные

 Number
    of
 pictures

1020                                                               Human Click Limit
                                                                     (all humanity t ki
                                                                     ( ll h    it taking
                                                                     one picture/second
                                  COREL                               during 100 years)
1015          Lena
       a dataset in one picture

1010
                                                       2 billion


105

                                            40.000
100

            1972                          1996       2007              2020?         Time


                                                       Slide by Antonio Torralba
Крошки-картинки (Tiny images)




A. Torralba, R. Fergus, W. T.
A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset for
non-parametric object and scene recognition IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
Примеры изображений
Примеры изображений
Сегментация
Отдельные объекты
Распознавание человеком
80 Million Tiny Images
    http://people.csail.mit.edu/torralba/tinyimages/
80 Million Tiny Images
Поиск по громадной коллекции
SSD метрика для сравнения изображений

    DSSD =
     2
             ∑ ( I1 ( x , y , c ) − I 2 ( x , y , c )) 2
             x , y ,c

Для ускорения поиска используем индексацию
по первым 19 главным компонентам всей
коллекции 80М изображений

        DSSD = ∑ ( v1 ( n ) − v2 ( n )) 2
        ˆ2
                        n

Отдельно расчет, сколько
приблизительных M изображений нужно
выбрать, чтобы найти N 50 точных
  б         б     й N=50
ближайших (график)
Выбираем 16000 по приближенной
    р               р
метрики, внутри сравниваем точно
Более сложные метрики




     Dwarp = min ∑ ( I1 ( x, y , c ) − Tθ I 2 ( x, y , c )) 2
      2
         p
                 θ
                     x , y ,c
Результат улучшенной метрики
Анализ коллекции




Вероятность найти соседа, с   Вероятность того, что
корреляцией больше 0.8 или    изображения отнесены к
0.9 в зависимости от          одной категории в
размера коллекции             зависимости от корреляции
Поиск лиц на основе коллекции
Caltech 101 & 256
   http://www.vision.caltech.edu/Image_Datasets/Caltech101/
   http://www.vision.caltech.edu/Image_Datasets/Caltech256/




                                      Griffin, Holub, Perona,
                                      2007

  Fei-Fei, Fergus, Perona, 2004
PASCAL (2005-2009)
   http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Классы 2008 :
Человек: человек
Животные: птица, кошка, корова, собака, лошадь, оцва
               ц ,      , р    ,       ,     д , ц
Транспорт: самолет, велосипед, лодка, автобус, машина,
мотоцикл, поезд
Помещения: бутылка кресло, стол, растение в горшке,
            бутылка, кресло стол             горшке
монитор, диван
The PASCAL Visual Object Classes Challenge
(2005-2009)

•   Основные конкурсы
     • Классификация: Для каждого из 20 классов, определить
       присутствие/отсутствие объекта этого класса в изображении
                   /           б                        б
     • Поиск: Определить рамку и метку каждого объекта из 20
       классов в изображении
                     р




      http://pascallin.ecs.soton.ac.uk/challenges/VOC/
The PASCAL Visual Object Classes Challenge
    (2005-2009)

•   Новые конкурсы
     • Семантическая
       сегментация:
       попиксельная
       аннотация области
       объектов и фона
     • Человек: Пометить
       рамкой и меткой
       каждую часть тела
       (
       (голову, ру , ступни)
             у, руки, у    )
LabelMe
           http://labelme.csail.mit.edu/




     Russell, Torralba, Murphy, Freeman, 2008
Mechanical Turk


                                          Workers


                             Task: Dog?

                    Broker       Answer: Yes
                             Pay: $0 01
                                  $0.01
Is this a dog?
 o Yes           www.mturk.com
 o No    Task
          as

   $0.01
Life of a Turker
1.   Go to mturk.com
2.   Find a HIT
3.   Accept it
4.   Do work
5.   Submit work
6.   Wait for approval
7.   Get paid
Life of a Requester
1.   Design the task interface
2.   Prepare data
        p
3.   Publish HITs
4.   Wait for assignments
5.   Approve(Reject) assignments
6.   Post more HITs
Annotation language
• Common annotation types
  •   Polygons
  •   Bounding boxes
  •   Segmentations
  •   Stick fi
      Sti k figure/graphs
                  /    h
• Recursion

                                      QuickTime™ and a
                            TIFF (Uncompressed) decompressor
                               are needed to see this picture.
Require qualification
•   Qualification is a test that a worker has to pass to work on the tasks




                                                 Please read the detailed instructions to learn how to
                                                 perform the task. Please confirm that you understand the
                                                 instructions by answering the following questions:

                                                 Which of the following checboxes are correct for this
                                                 annotation?

                                                 No people
                                                 (there are people in the image)

                                                 > 20 people
                                                 (there are more than 20 people of appropriate size)

                                                 Small heads
                                                 (there are unmarked small heads in the image)




    Task: Put a box around every head
Ideal task properties
•   Easy cognitive task
     Good: Where is the car? (bounding box)
     Good: How many cars are there? (3)
     Bad: How many cars are there? (132)
•   Low amount of input required
     Good: few clicks or a couple words
     Bad: detailed outlines of all objects (100s of control points)
     “Sometimes, Mturk hits requiring many words are not worth the effort to 
        complete ” From Singapore
        complete. From Singapore
•   Well-defined task
     Good: Locate the corners of the eyes.
     Bad: L b l j i t locations (l
     B d Label joint l    ti    (low resolution, close-up i
                                          l ti    l        images) )
•   Concise definition
     Good: 1-2 paragraphs, fixed for all tasks
     Good: Lots of images
     Bad: 300 pages annotation manual
     Bad: Similarly-looking, but different tasks
M
    ar
         20
           08
N          (I
    ov       pe




                             0
                                 10
                                      20
                                           30
                                                  40
                                                              50
                                                                         60
                                                                              70
                                                                                   80
                                                                                        90




     20          iro
       08           tis
           (I           )
              pe
   M             iro
     ay
                     tis
         20              )
            09
   Au           (R
      g            os
         20            s)
            09
   N            (R
     ov            os
         20            s)
Fe         09
  b
                                                                                             Who are the Turkers?




     20         (R
        10         os
                       s)
M          (I
  ay          pe
     20          iro
        10           tis
                         )
            (J
               oh
                  n
                     Le
                         )
                                                                   US
                                                         India
                                                                    US

                                                Other
                                                           India
                                                 Other
Income level comparison

• Turk pay ~ $2/hr
• Minimum salary in India ~ $6/day
• Maximum work week in India ~ 48 hrs

   2*48*48 = $4608 per worker
   Average annual earnings in India - $
                                      $1733

Contenu connexe

Tendances

CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.Anton Konushin
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.Anton Konushin
 
20120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture0320120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture03Computer Science Club
 
Как создать учебный фильм 2014
Как создать учебный фильм 2014Как создать учебный фильм 2014
Как создать учебный фильм 2014deutschonline
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.Anton Konushin
 
2 зрительные иллюзии
2 зрительные иллюзии2 зрительные иллюзии
2 зрительные иллюзииМАОУ СОШ №96
 

Tendances (6)

CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.CV2015. Лекция 8. Распознавание лиц людей.
CV2015. Лекция 8. Распознавание лиц людей.
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.
 
20120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture0320120414 videorecognition konushin_lecture03
20120414 videorecognition konushin_lecture03
 
Как создать учебный фильм 2014
Как создать учебный фильм 2014Как создать учебный фильм 2014
Как создать учебный фильм 2014
 
CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.CV2015. Лекция 2. Основы обработки изображений.
CV2015. Лекция 2. Основы обработки изображений.
 
2 зрительные иллюзии
2 зрительные иллюзии2 зрительные иллюзии
2 зрительные иллюзии
 

Plus de Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

Plus de Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 

20100919 computer vision_konushin_lecture01

  • 1. Распознавание изображений Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik
  • 2. • Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имим. М.В. Ломоносова • И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина • С/к «Компьютерное зрение» (год), ВМК • С/к «Анализ изображений и видео» (год), ШАД Яндекс • Задавать вопросы по ходу можно и нужно! !
  • 3. Задача компьютерного зрения • Понять, что запечатлено на изображении Мы видим Компьютер видит
  • 4. Задача компьютерного зрения • Понять, что запечатлено на изображении • Вариант: • принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях • Что это в действительности обозначает? • Зрение - источник семантической информации о мире • Зрение - источник метрической информации о трехмерном мире
  • 5. Семантическая информация 22.12.2010 Slide 5 Slide credit: Fei-Fei, Fergus & Torralba
  • 6. Классификация сцены • outdoor • city • t ffi traffic •… 22.12.2010 Slide 6 slide credit: Fei-Fei, Fergus
  • 7. Поиск и локализация объектов sky building flag face banner wall street lamp bus bus 22.12.2010 cars Slide credit: Fei-Fei, Fergus & Torralba Slide 7
  • 8. Качественная информация об объектах slanted non-rigid moving i id i object vertical rigid moving rigid moving object object 22.12.2010 horizontal Slide 8 slide credit: Fei-Fei, Fergus
  • 9. Метрическая информация Multi-view stereo for Real-time stereo Structure from motion community photo collections yp NASA Mars Rover Pollefeys et al. Goesele et al.
  • 10. Почему зрение – это сложно?
  • 11. Точка наблюдения Michelangelo 1475 1564 Mi h l l 1475-1564 slide credit: Fei-Fei, Fergus & Torralba
  • 12. Разное освещение image credit: J. Koenderink
  • 13. Масштаб Slide credit: Fei-Fei, Fergus & Torralba
  • 14. Деформация формы Xu, Beihong 1943 X B ih Slide credit: Fei-Fei, Fergus & Torralba
  • 15. Перекрытие Magritte, 1957 slide credit: Fei-Fei, Fergus & Torralba
  • 18. Внутриклассовая изменчивость slide credit: Fei-Fei, Fergus & Torralba
  • 19. Локальная неоднозначность slide credit: Fei-Fei, Fergus & Torralba
  • 20. Сложности или возможности? • Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки Image source: J. Koenderin
  • 22. Тени и освещение Source: J. Koenderink
  • 23. Отбрасываемые тени Source: J. Koenderink
  • 24. Группировка: положение Image credit: Arthus-Bertrand (via
  • 29. Резюме • Зрение изначально нечеткая задача • Разные 3D сцены дают одно и то же 2D изображение • Необходимы априорные знания о структуре и свойствах мира Image source: F. D
  • 30. Начало • Работы Дэвида Марра, 1970х • «Primal sketch» • Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д. • «2.5D sketch» • Упорядочивание по глубине (бинокулярное стерое), учёт текстуры и т.д. е с р • «3D model» • Распознавание объектов и представление о 3х мерном мире
  • 32. Зрение человека • Д Данные (D t ) (Data) • Устройство глаза • Данные в жизни • Признаки (Features) • Low-level vision Low level • (?) Стерео, группировка, форма • Mid-level vision • Распознавание (Классификация) • High-level vision
  • 33. Камера-обскура Камера-обскура: • Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal point) • Изображение формируется на картинной плоскости (Image plane) Slide by Steve Seitz
  • 34. Цифровая камера - дискретизация
  • 35. Человеческий глаз cone rod Глаз как камера! • Хрусталик – «линза», меняет форму под действием мышц ру ф р у • Зрачок - дырка (апертура), диаметр управляется радужкой – Радужка – цветная пленка с радиальными мышцами • М Матрица - К Клетки-фоторецепторы на сетчатке ф Slide by Steve Seitz
  • 37. Что такое цвет? Цвет – это психологическое свойство нашего зрения, возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Vision (S. Palmer, Science: Photons to Phenomenology) Цвет – это результат взаимодействия света, сцены и нашей зрительной системы Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik
  • 38. Восприятие цвета M L Power S Wavelength Палочки и колбочки (3 вида) – фильтры спектра • Спектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн – Каждая колбочка даёт 1 число • В: Как же мы можем описать весь спектр 3мя числами? • О: Мы и не можем! Большая часть информации теряется. ф р ц р – Два разных спектра могут быть неотличимы » Такие спектры называются метамеры Slide by Steve Seitz
  • 39. Спектры некоторых объектов metamers Slide by S. Lazebnik
  • 40. Трихроматическая теория В экспериментах по сопоставлению цвета большинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет • Основные цвета должны быть независимы Для одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса • Исключения: цветовая слепота Трихроматическая теория • Трех чисел оказывается достаточно, чтобы описать цвет • История восходит к 18у веку (Томас Юнг) Slide by S. Lazebnik
  • 41. Первые цветные фотографии Сергей Прокудин-Горский (1863-1944) Фотографии Российской империи(1909- р ф р ( 1916) Lantern projector http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii http://www.loc.gov/exhibits/empire/ Slide by А.Efros
  • 43. Цветное цифровое изображение Байеровский шаблон Демозаикинг (оценка пропущенных значений цвета) Source: Steve Seitz
  • 45. Плотность палочек и колбочек pigment cone molecules rod Палочки и колбочки распределены неравномерно • Палочки измеряют яркость, колбочки цвет • Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у наибольшей плотностью колбочек и без палочек • На периферии все больше палочек подсоединены к одному нейрону Slide by Steve Seitz
  • 46. Что мы на самом деле видим
  • 48. Адаптация зрительной системы Чувствительность зрительной системы меняется в зависимости от доминантной освещенности наблюдаемой сцены (Баланс белого) б й (Б б ) • Механизм плохо изучен Адаптация к разным уровням освещенности • Размер зрачка регулирует объем света, попадающий на сетчатку • Р Размер резко меняется при входе в здание с ярко освещенной солнцем улицы Ц Цветовая адаптация • Клетки сетчатки меняю свою чувствительность • Пример: если доля красного в освещении повышается, понижается чувствительность клеток, отвечающий за клеток красный, пока вид сцены не придет к норме • Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонах http://www.schorsch.com/kbase/glossary/adaptation.html Slide by S. Lazebnik
  • 49. Баланс белого • Когда мы смотрим на фотографию или монитор, глаза адаптируются к освещению в комнате, а не к освещению сцены на фотографии • Если баланс белого неточен, цвета фотографии кажутся неестественными incorrect white balance correct white balance http://www.cambridgeincolour.com/tutorials/white-balance.htm Slide by S. Lazebnik
  • 52. Данные - продолжение • Сколько нам нужно данных для обучения алгоритмов? • Сколько есть классов объектов? • Сколько изображений? • Что мы про них будем знать?
  • 53. Сколько всего классов объектов? 1500-3000 1500 3000 основных существительных, ~10 подкатегорий 10 й Biederman 1987
  • 54. OBJECTS ANIMALS PLANTS INANIMATE NATURAL MAN-MADE ….. VERTEBRATE MAMMALS BIRDS TAPIR BOAR GROUSE CAMERA
  • 55. 10 в степени Число картинок на диске: 104 Число картинок, виденных за 10 лет: Ч 108 (3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000) Число картинок, виденных всем человечеством: 1020 106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 = 1f from htt // http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx b /A ti l /2002/H M P l H E Li d E th Число картинок во вселенной: 10243 1081 atoms * 1081 * 1081 = Число всех картинок 32x32 : 107373 256 32*32*3 ~ 107373 Slide by Antonio Torralba
  • 56. Доступные данные Number of pictures 1020 Human Click Limit (all humanity t ki ( ll h it taking one picture/second COREL during 100 years) 1015 Lena a dataset in one picture 1010 2 billion 105 40.000 100 1972 1996 2007 2020? Time Slide by Antonio Torralba
  • 57. Крошки-картинки (Tiny images) A. Torralba, R. Fergus, W. T. A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset for non-parametric object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
  • 63. 80 Million Tiny Images http://people.csail.mit.edu/torralba/tinyimages/
  • 64. 80 Million Tiny Images
  • 65. Поиск по громадной коллекции SSD метрика для сравнения изображений DSSD = 2 ∑ ( I1 ( x , y , c ) − I 2 ( x , y , c )) 2 x , y ,c Для ускорения поиска используем индексацию по первым 19 главным компонентам всей коллекции 80М изображений DSSD = ∑ ( v1 ( n ) − v2 ( n )) 2 ˆ2 n Отдельно расчет, сколько приблизительных M изображений нужно выбрать, чтобы найти N 50 точных б б й N=50 ближайших (график) Выбираем 16000 по приближенной р р метрики, внутри сравниваем точно
  • 66.
  • 67. Более сложные метрики Dwarp = min ∑ ( I1 ( x, y , c ) − Tθ I 2 ( x, y , c )) 2 2 p θ x , y ,c
  • 69. Анализ коллекции Вероятность найти соседа, с Вероятность того, что корреляцией больше 0.8 или изображения отнесены к 0.9 в зависимости от одной категории в размера коллекции зависимости от корреляции
  • 70. Поиск лиц на основе коллекции
  • 71.
  • 72.
  • 73. Caltech 101 & 256 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ http://www.vision.caltech.edu/Image_Datasets/Caltech256/ Griffin, Holub, Perona, 2007 Fei-Fei, Fergus, Perona, 2004
  • 74. PASCAL (2005-2009) http://pascallin.ecs.soton.ac.uk/challenges/VOC/ Классы 2008 : Человек: человек Животные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , ц Транспорт: самолет, велосипед, лодка, автобус, машина, мотоцикл, поезд Помещения: бутылка кресло, стол, растение в горшке, бутылка, кресло стол горшке монитор, диван
  • 75. The PASCAL Visual Object Classes Challenge (2005-2009) • Основные конкурсы • Классификация: Для каждого из 20 классов, определить присутствие/отсутствие объекта этого класса в изображении / б б • Поиск: Определить рамку и метку каждого объекта из 20 классов в изображении р http://pascallin.ecs.soton.ac.uk/challenges/VOC/
  • 76. The PASCAL Visual Object Classes Challenge (2005-2009) • Новые конкурсы • Семантическая сегментация: попиксельная аннотация области объектов и фона • Человек: Пометить рамкой и меткой каждую часть тела ( (голову, ру , ступни) у, руки, у )
  • 77. LabelMe http://labelme.csail.mit.edu/ Russell, Torralba, Murphy, Freeman, 2008
  • 78. Mechanical Turk Workers Task: Dog? Broker Answer: Yes Pay: $0 01 $0.01 Is this a dog? o Yes www.mturk.com o No Task as $0.01
  • 79. Life of a Turker 1. Go to mturk.com 2. Find a HIT 3. Accept it 4. Do work 5. Submit work 6. Wait for approval 7. Get paid
  • 80. Life of a Requester 1. Design the task interface 2. Prepare data p 3. Publish HITs 4. Wait for assignments 5. Approve(Reject) assignments 6. Post more HITs
  • 81. Annotation language • Common annotation types • Polygons • Bounding boxes • Segmentations • Stick fi Sti k figure/graphs / h • Recursion QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture.
  • 82. Require qualification • Qualification is a test that a worker has to pass to work on the tasks Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions: Which of the following checboxes are correct for this annotation? No people (there are people in the image) > 20 people (there are more than 20 people of appropriate size) Small heads (there are unmarked small heads in the image) Task: Put a box around every head
  • 83. Ideal task properties • Easy cognitive task Good: Where is the car? (bounding box) Good: How many cars are there? (3) Bad: How many cars are there? (132) • Low amount of input required Good: few clicks or a couple words Bad: detailed outlines of all objects (100s of control points) “Sometimes, Mturk hits requiring many words are not worth the effort to  complete ” From Singapore complete. From Singapore • Well-defined task Good: Locate the corners of the eyes. Bad: L b l j i t locations (l B d Label joint l ti (low resolution, close-up i l ti l images) ) • Concise definition Good: 1-2 paragraphs, fixed for all tasks Good: Lots of images Bad: 300 pages annotation manual Bad: Similarly-looking, but different tasks
  • 84. M ar 20 08 N (I ov pe 0 10 20 30 40 50 60 70 80 90 20 iro 08 tis (I ) pe M iro ay tis 20 ) 09 Au (R g os 20 s) 09 N (R ov os 20 s) Fe 09 b Who are the Turkers? 20 (R 10 os s) M (I ay pe 20 iro 10 tis ) (J oh n Le ) US India US Other India Other
  • 85. Income level comparison • Turk pay ~ $2/hr • Minimum salary in India ~ $6/day • Maximum work week in India ~ 48 hrs 2*48*48 = $4608 per worker Average annual earnings in India - $ $1733