20100919 computer vision_konushin_lecture02

Поговорим о признаках

Задача: каждый фрагмент изображения описать набором
признаков,
признаков чтобы можно было надежно сравнивать
фрагменты (находить похожие), использовать для
р
распознавания и т.д.

f n = ( f n ,1 , L , f n , j )T

Дескрипторы должны быть достаточно специфичны,
локальны,
локальны и не очень сложны в вычислении

• Интуитивно понятно, что едва ли не
основная информация в картинке
содержится как раз в краях (границах)
• Ко а ое представление
Компактное ре с а е е

• Рисунок художника тонкими линиями
может передать почти всю
семантическую информацию об
объектах
• Кроме цвета, конечно!

Source: D. Lowe

Фильтры Габора

x ' = x cos(θ ) + y sin(θ )
y ' = − x sin(θ ) + y cos(θ )
i ( (
θ - ориентация
λ - длина волны
σ - сигма гауссиана
γ - соотношение размеров (aspect
ratio), «эллиптичность фильтра»
ψ - сдвиг фазы

• 2D фильтр Габора – ядро гауссина, домноженное на синусоиду
• Предложены в 1947 Денисом Габором (нобелевским лауреатом),
независимо переоткрыты в 1980 году

Связь со зрением человека

• Похожи на форму рецептивных полей простых
клеток (simple cells) в визуальной коре мозга
человека
J. G. Daugman, “Two-dimensional spectral analysis of cortical receptive field profiles.,”
Vision research, vol. 20, no. 10, pp. 847–856, 1980.
J. G. Daugman, “Uncertainty relation for resolution in space, spatial frequency, and
orientation optimized by two-dimensional visual cortical filters,” J. Opt. Soc. Am. A, vol. 2,
no. 7, pp. 1160–1169, 1985.

Поиск краёв с помощью Габора

• Слева вверху – иероглиф
• 4 справа – применение фильтров Габора с
ориентациями 0, 45, 90 и 135 градусов
• Слева внизу – совмещение результатов
фильтрации

Банки фильтров

• Набор фильтров разного масштаба и
ориентации образует «банк ф
б б фильтров»
• Каждый пиксель изображения после
обработки банком фильтров даёт вектор
признаков
• Этот вектор признаков эффективно
описывает локальную текстуру
у уру
окрестности пикселя
• Активно используется в сегментации,
сегментации
распознавании изображений и т.д.

Дескрипторы
• Недостаток точного описания каждого пикселя:
• Небольшой сдвиг приводит к существенному изменению

• Решение: гистограммы

0 2π
Slide by S. Lazebnik

Дескрипторы - градиенты
Гистограммы градиентов Lowe (SIFT):

Используется 128 значений на точку
• Cетка 4*4, 8 значений в гистограмме
Устойчив к изменениям освещенности и небольшим сдвигам

David G. Lowe. "Distinctive image features from scale-invariant keypoints.” IJCV 60
(2), pp. 91-110, 2004.

Ориентация
Пример: найти локальное направление градиента вокруг
интересной точки

Повернуть фрагмент(ы) так чтобы средний градиент был
так,
направлен вверх

0 2π

Дескриптор изображения

TORRALBA, A., MURPHY, K. P., FREEMAN, W. T., AND RUBIN. Context-based
vision system for place and object recognition. In ICCV 2003

E. P. Simoncelli and W. T. Freeman. The steerable pyramid: а flexible architecture
for multi-scale derivative computation. IEEE Intl. Conf. on Image Processing, 1995.

Дескриптор изображения

Усреднение каждого уровня пирамиды по
решетке 4*4

Дескриптор изображения GIST

+
Добавление канала цвета для
более точного описания
цветных изображений

James Hays, Alexei A. Efros Scene Completion using Millions of Photographs,
SIGGRAPH 2007.

… 200 изображений

Graph cut + Poisson blending

Почему это работает?

10 ближайших из 20,000 изображений

10 ближайших из 2х миллионов изображений

im2gps

• Собрали 6М картинок из Flikr с
проставленными GPS-метками

• Умеем искать похожие
изображения в большой базе

• Кластер из 400 машин для
аннотации всех 6М изображений

• Найдем вот эту картинку:
Найдем,

James Hays, Alexei A. Efros im2gps: estimating geographic information
from a single image, CVPR 2008.

Найдем теперь такую:

Отображение результатов на карте
200 результатов, кластеризуем и покажем центры
и распределение картинок
р р р

Категории данных

Скорость = 112 м / км

* *
* **

*
*

Уклон
Ранжирование изображений по уклону (от макс к мин)

Ранжирование по плотности населения

Sketch2photo

Tao Chen, Ming-Ming Cheng, Ping Tan, Ariel Shamir, Shi-Min Hu
Sketch2Photo: Internet Image Montage ACM SIGGRAPH ASIA 2009

Схема метода

• Идея:
• Поиск в интернете подходящих для композиции
изображений
• 3000 кандидатов для каждого объекта (выбирается 100)
• 1000 кандидатов для фона (выбирается 20)

Выбор кандидатов на фон
• Фильтрация по ряду критериев
• Согласование по контенту
– Для каждого изображения вычисляется гистограмма в LUV
– Все вектора кластеризуются с помощью сдвига среднего
– Выбирается самый большой кластер
– Качество изображения считается по нормализованному расстоянию
махаланобиса
• Согласование по горизонту
– Вычисление горизонта
– Отбрасываем изображения со значительным >30% отклонением горизонта
• Чистый (uncluttered) фон
– Сегментация
– Считаем кол-во сегментов, в выпуклой оболочке объектов для размещения
– Добавляем с весом 0.3 к метрике качества

Выбор кандидатов для объектов
• Для композиции лучше всего подходят такие изображения
• Один значимый (salient) объект на чистом, простом фоне
• Форма значимого объекта похожа на форму целевого
• Используем salient-сегментацию

LIU, T., SUN, J., ZHENG, N.-N., TANG, X., AND SHUM, H.-Y.
Learning to detect a salient object. In Proc. of CVPR 2007

Выбор кандидатов для объектов (2)
• Чистый, простой фон
• Считаем количество сегментов в полосе вокруг
найденного значимого объекта
й б
• Отбрасываем изображение, если сегментов больше 10
• Уточнение сегментации
• Используем GrabCut (развитие Interactive Graph Cuts) c
прямоугольной рамкой для инициализации
• Фильтрация по согласованию контуров
• Считаем расстояние с помощью Shape Context

Примеры расчета кандидатов

Moto rider

Red car

Композиция изображений

Примеры композиций разными методами

Ранжирование композиций по качеству

20100919 computer vision_konushin_lecture02

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (18)

Similaire à 20100919 computer vision_konushin_lecture02

Similaire à 20100919 computer vision_konushin_lecture02 (20)

Plus de Computer Science Club

Plus de Computer Science Club (20)

20100919 computer vision_konushin_lecture02