들어가기 전에
오늘 이야기할 이미지 검색은?
Search by
Image
이미지에 대한 Description 이 잘 되어야 한다.
개발 중
나아가 더 잘 보여 줄 수는 없을까?
Search by Text
Search by Text 이미지 검색
오늘의 주제
이미지 Description
이미지에 대한 Description 이 잘 되려면?
Description 을 잘 찾아야
…
“공개된 Deep Learning 모델을 활용
한
이미지 검색 개선 사례 공유”
Description 을 만들어 보자!
Deep Learning 이 대세
이미지 인식 및 언어처리 기술 활용 :
일반적인 블로그 포스트
오늘의 주제
이미지 검색 품질 개선 사례 4가지(간단히)
이미지 검색 인터페이스 개선 2가지(자세히)
- 포토요약과 타임라인
“공개된 Deep Learning 모델을 활용한
이미지 검색 개선 사례 공유”
Background
Deep Learning 모델과 학습 데이터 사용
CNN 기반 Deep Learning 모델 사용
공개 데이터 및 자체 구축 데이터
Topic Modeling 과 데이터 분석
Bag of Words(BoW), TF-IDF, Doc2Vec…
K-Means/Agglomerative Clustering,
Nearest Neighbor...
http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/
Convolution Neural Network
TF-IDF Model
Doc2Vec Model
문제 정의 및 데이터
대규모 데이터 및 이미지 대상 문제 정의
Wanted! 이 데이터 갖고 노실 분 찾
음문제 정의
하나의 이미지와 연관된 𝑚′ (𝑚′
< 𝑚)개의 문장 찾기
𝑚′개의 문장 중 이미지와 연관된 1개의 문장 선택하
기
이미지와 연관된 1개의 문장 중 𝑘 개의 단어 찾기
m개의 문장에 포함되지 않은 tag 부여
1개의 제목, 𝑛개의 이미지, 𝑚개의 문장
1
2
3
참고) 웹수집 문서
16B+
대상 문서 및 이미지
추출된 Image-Text Pair 약 1.2B+건
최근 1년이내 생성/수정 블로그에서만
전체 2.6B+개의 이미지(2016.09기준)
뉴스/카페/블로그/포스트/폴라등 매일 약 2M 개의 이미지
4
이미지 검색 Overview(Very High Level)
Document
Parser
External
Input
Manager
Analyzer/
Merger
Meta Text
Refiner
Deep Image
Tagger
Learning
To
Rank
뉴스
카페
블로그
포스트
폴라
…
Merged Storage
Feature Storage
Search Collection
Training Collection
이미지 검색과 Deep Learning
Deep Learning 의 역할
Document
Parser
Meta Text
Refiner
Deep Image
Tagger
External Input
Manager
문서 분석
Weakly labeled
Image-Text Pair 생성
메타 텍스트 정제
Unsupervised
Learning 기반
Image Annotation
이미지 태깅
Supervised
Learning 기반
Image Annotation
정답 도구 활용
Training Data
구축 및 활용
이미지 검색과 Deep Learning
Deep Learning 의 역할
Document
Parser
Meta Text
Refiner
Deep Image
Tagger
External Input
Manager
메타 텍스트 정제 이미지 태깅 정답 도구 활용문서 분석
Weakly labeled
Image-Text Pair 생성
문서 분석(Document Parser)
Weakly labeled Image-Text Pair Generation
텍스트와 이미지로 구성된 하나의 문서에서 이미지의 연관 텍스트 추출하기
Body
Text 1 Image 1 Text 2 Image 2 Text 3 Text 4
자그마한 산사…
‘안국사’도 그대
로…
<p> </p>
<p> </p>
<p> </p>
고려 박달재 전투
의 영웅 ‘김취려’장
군의 기마상…
Image 1
Visuall
Distance:
3
Visual
Distance:
0
div
div
div
div
p
div
p
Image
1
Text 1
Text 2
Body
Text 1 Image 1 Text 2
Tag Distance: 3
Tag Distance: 2
Visual Distance
Tag Distance
Title
Title
Semantic Distance
Image-Text Pair 생성과 평
가• 기본적으로 주변 텍스트 추출 기법 활용
• 보조적으로 Word2Vec 등의 Topic Modeling 기법을 이용한 의미적 분
석
• 반복적인 평가를 통한 부적합 케이스 분석
문서 분석(Document Parser)
이미지 검색과 Deep Learning
Deep Learning 의 역할
Document
Parser
Meta Text
Refiner
Deep Image
Tagger
External Input
Manager
문서 분석 이미지 태깅 정답 도구 활용메타 텍스트 정제
Unsupervised
Learning 기반
Image Annotation
메타 텍스트 정제(Meta Text Refiner)
Unsupervised Learning 기반 Image Annotation
여러 문서의 연관 텍스트와 자질을 조합하여 이미지를 설명하는 텍스트 추출하기
DocumentsQuery Search Images in
Documents
Deep Feature
Extracting
Clustering Text
Modeling
Keyword
Tagging𝑞 = 𝑞𝑢𝑒𝑟𝑦
𝐷 𝑞 = {𝑑1, 𝑑2,…, 𝑑𝑖}
𝑤ℎ𝑒𝑟𝑒 𝑑 = {𝑇, 𝐼} 𝐼 𝑞 = {𝑖1, 𝑖2,…, 𝑖𝑗} 𝑇𝑘 = {𝑡1, 𝑡2,…, 𝑡 𝑚}𝑉𝑞 = {𝑣1, 𝑣2,…, 𝑣𝑗}
𝐶 𝑘 = {𝑣1, 𝑣2, … , 𝑣𝑙}
where
𝑡 = {𝑤1, 𝑤2, … , 𝑤 𝑛}
𝑤 𝑥, 𝑤 𝑦, … 𝑓𝑜𝑟 𝐶 𝑘
이미지 검색과 Deep Learning
Deep Learning 의 역할
Document
Parser
Meta Text
Refiner
Deep Image
Tagger
External Input
Manager
문서 분석 메타 텍스트 정제 정답 도구 활용이미지 태깅
Supervised
Learning 기반
Image Annotation
이미지 태깅(Deep Image Tagger)
Supervised Learning 기반 Image Annotation
사전 학습된 딥러닝 모델을 이용하여 이미지를 설명하는 텍스트 추출하기
Classify Text Modeling Keyword
Tagging
Learning
Classifier
Training
Data
Blog Data
1.5K
Classes
이미지 검색과 Deep Learning
Deep Learning 의 역할
Document
Parser
Meta Text
Refiner
Deep Image
Tagger
External Input
Manager
문서 분석 메타 텍스트 정제 이미지 태깅 정답 도구 활용
Training Data
구축 및 활용
정답 도구(Answering Tool)
Training Data 구축 및 활용
평가자에 의한 대표 이미지 선정 및 Training Data 확보
Evaluator Query Search
Select
Representative
Image
Sorting by
Similarity
Final Search
Result
Existing
Search
Result
Extracting
Deep Feature
Calculate
Similarity𝑞 = 𝑞𝑢𝑒𝑟𝑦
𝐼 𝑞 = {𝑖1, 𝑖2,…, 𝑖𝑖} 𝑉𝑞 = {𝑣1, 𝑣2,…, 𝑣𝑖}
𝐼 𝑞 = [𝑖1, 𝑖2,…, 𝑖𝑗]
𝐼′ 𝑞 = [𝑖1, 𝑖2,…, 𝑖 𝑘]𝐴 𝑞 = 𝑚𝑒𝑑𝑖𝑎𝑛 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓
𝑠𝑒𝑎𝑟𝑐ℎ 𝑞𝑢𝑒𝑟𝑦 𝑞
맛집뷰의 탄생
중구 난방의 검색결과, 정리해서 보여 줄 수 없을까?
네이버 블로그 내 맛집 이미지를 모아 분류 및 클러스터링
음식, 메뉴판, 식당 외/내부 이미지 위주
Can we do better?
이미지 분석 및 언어 처리의 Orchestration
인터페이스도 바꾸고
이름도 붙이자
잘 모여있는
이미지 검색 결과
사용자들이 주로
관심 갖는 클러스터
이미지 분석 개선 언어 처리
ClusteringClassification Annotation
Deep Feature 추출과 분류
Deep learning 모델과 학습 데이터
범용 데이터를 학습시킨 VGGNet16 모델의 FC7 Layer 추출 deep feature 사용
Classifier and classes
deep feature 분류를 위해 OVA(one vs all) 기반 multiclass SVMs 사용
내부, 외부, 메뉴, 음식, 사람, 동물, 건물등으로 분류
SVM
http://courses.media.mit.edu/2006fall/mas622j/Projects/aisen-project/#node_bib_4
Clustering 및 Annotation
‘음식’ 클래스의 Clustering
클러스터 내 이미지 수를 반영하는 동적 클러스
터 수에 따라 Agglomerative clustering 적용
NAVER 언어처리를 이용한 word 추출1
텍스트 마이닝 및 통계 분석 이용2:
TFIDF weight, P Value from Chi-square,
Standardized Pearson Residual
대표 키워드 추출
Agglomerative Clustering
𝑇1 = {𝑡1, 𝑡2,…, 𝑡𝑖}
𝐶1 = {𝑣1, 𝑣2, … , 𝑣𝑖}
where 𝑡 = {𝑤1, 𝑤2, … , 𝑤 𝑘}
w, w, … for C1
𝐶2 = {𝑣1, 𝑣2, … , 𝑣𝑗}
𝑇2 = {𝑡1, 𝑡2,…, 𝑡𝑗}
where 𝑡 = {𝑤1, 𝑤2, … , 𝑤𝑙}
𝑤, 𝑤, … 𝑓𝑜𝑟 𝐶2
1
2
랭킹 및 서비스 확장
식당에서 미용실/명소까지
식당/미용실/명소에 적용, 서비스별 서로 다른 클러스터 랭킹
식당 미용실 명소
다출처 우선 시술사진 우선 대표 이미지 유사도 우선
Summary
이미지 분석과 Text mining의 조합은 강력하다
Deep feature vector 의 Numerical attribute 는 이미지 데이터 분석에 매우 적합
유사 이미지를 군집화하기위해 감독학습 기법과 비감독학습 기법을 이용
전통적인 Text mining 기법은 image recognition 의 품질 개선에 기여
정제되지 않은 사용자 데이터로부터 정제된 검색 결과를 생성
On-going work
on active learning
Meta Text Refiner
(Unsupervised Learning)
Deep Image Tagger
(Supervised Learning)
Training Data 는 자란다!
누가 찍든 여러 날을 찍어도
찍을 때 마다 새로운 트와이스
“트와이스” 와 “정식당” 은 같은가?
많은 사람이 여러 날을 찍어도,
공통적인 사진이 많아야하는 정식당
“트와이스” 이미지를 잘 보여주는 방법
“이벤트” 를 “타임라인"으로
같은 날짜, 같은 장소에서 찍힌
“인물” 이미지를 모아서
시간이 흘러가는 대로 보여주자
트와이스 앨범 쇼
잠실 야구장 공연
...
2016.04.25
2016.05.31
...
트와이스 앨범 쇼케이스
잠실 야구장 공연
...
2016.04.25
2016.05.31
...
n개의 이미지 ( n >=1 )
m개의 문장 (0 <= m <=3)
1개의 제목
+ 서로 다른 어휘
+ 기자님들의 사소한 실수
포토 뉴스 데이터 http://m.entertain.naver.com/read?oid=117&aid=0002814145
http://m.entertain.naver.com/read?oid=117&aid=0002814124
데이터 전처리
형태소 분석을 통한 메타데이터 추출
1. “누구” 것인 지 분명히 알아야하니까
2. 텍스트가 너무 짧고 너무 비슷해서
제목, 본문의 TF, 조사의 위치 이용
가장 중요할 것으로 추측되는 명사구 추출
분류하기 : 같은 이벤트/다른이벤트
결정 트리를 이용한 분류
BagOfWords로 메타데이터, 본문에서 distance vector 추출하여 학습
Article
인명 명사구
장소 명사구
본문
Article
Article
Article
Class : 같은 이벤트 Class : 다른 이벤트
왜 텍스트만 썼지?
Doc2Vec Feature ?
같은 “EVENT” 라면 비슷한 공간에 사상되겠지?
: 뉴스 기사 약 94만건 제목/본문 학습
참고 : 뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 – HCLT2015, 김시연, 김상범
이벤트는 같아도, 기사의 목적이 다른 경우(예: 사실 전달/작품 리뷰) 성능 저하 발생
Le, Quoc V., and Tomas Mikolov. "Distributed representations of
sentences and documents." arXiv preprint arXiv:1405.4053 (2014).
왜 텍스트만 썼지?
Visual Feature ?
같은 “EVENT” 라면 옷차림이나 헤어스타일이 비슷하지 않을까?
: AlexNet FC 7 layer feature 사용
다른 이벤트여도, 비슷한 옷차림/헤어스타일/포즈일 경우 성능 저하 발생
거리 - 0.022
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.
"Imagenet classification with deep convolutional neural
networks." Advances in neural information processing systems.
2012.
참고 : 뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 – HCLT2015, 김시연, 김상범
“EVENT”의 동일함을 찾는 Task에선,
여전히 “단어” 자체가 중요
“이미지” 의 유사도는 FP/FN 야기 가능성 존재
예쁘다”와 “아름답다”가 같은 곳에 사상되는게 중요한게 아님
명백한 “사실"을 알 수 있어야 함
같은 이벤트여도 이미지가 다르고,
다른 이벤트여도 이미지가 비슷할 수 있음
Visual Feature은 Text가 하지못한 Outlier 제거 시 활용
참고 : 뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 – HCLT2015, 김시연, 김상범
비슷한 이미지끼리 모으기
Visual Feature : AlexNet FC7 feature using caffe
[7.686
598,
0,
0,
.... ]
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.
"Imagenet classification with deep convolutional neural
networks." Advances in neural information processing systems.
2012.
비슷한 이미지끼리 모으기
2단계 K-means Clustering
임의의 k로
K-means Clustering
Cluster 정리
Cluster 간 거리
item과 Cluster 중심과의 거리
재 정리한 Central를 입력,
K-means Clustering
c@1, i@1
c@1, i@2
c@2, i@1
c@2, i@2
c@3, i@1
c@3, i@2
c@4, i@1
Ranking + Diversification
Cluster 간 Ranking : 어떤 종류의 이미지가 좋은 가?
Cluster 응집도, Image 개수 고려, Collage Image 고려
Cluster 내 Image Ranking : 각 종류별로 더 좋은 이미지는?
Image 품질, Cluster 중심과의 거리, Cluster 내 타 Image 과의 거리
@1@2
@3
@4
“Event” 설명문 찾기
본문내 문장을 가지고 Clustering, 가장 중심에 있는 문장 선
택이미지만 주면 무슨 이벤트 인지 모르니까
걸그룹 트와이스의 멤버 쯔위가 31
일 잠실 구장에서 진행된…
2016 프로야구 KIA와 LG의 경기가
31일 오후 서울 잠실…
31일 오후 서울 송파구 잠실 야구장에
서 열린 ‘2016 타이어뱅크’…