그래프 기반 클러스터링 기법과 평가 인덱스를 이용해 단어간 동시출현 데이터를 분석해 관련 의미 군집을 자동으로 생성한다. 동시출현의 연관도 점수는 상호정보량(MI)을 이용했고, 빈도그룹에 의한 평준화를 위해 통계적 정규화를 수행했다.
예를 들어, '자동차'를 seed keyword로 잡고 분석을 수행하면, 자동차와 관련이 있는 단어집합이 그들간의 유사성으로 클러스터링 되어 자동 분류된다. 자동차와 관련해서 자동차 장난감 단어그룹이 있고, 자동차 정비와 관련된 단어그룹, 자동차 보험 관련 단어 그룹 등으로 나누어 진다. 이를 사람이 최종적으로 검토하고 라벨을 붙이면 자동차에 대한 의미군집이 생성된다.
실험 데이터로는 네이버의 광고주 데이터를 이용했으며, 공백으로 구분된 광고키워드의 집합이다.
2. 2007-06-12 2 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
목차
•
연구배경
•
연구목적
•
관련연구
•
연관단어클러스터링기법
•
실험및평가
•
결론및향후과제
3. 2007-06-12 3 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
연구배경
웹검색
질의어: ‘향수’
검색결과100건내
•
영화‘향수’–88건
•
세면도구‘향수’-7건
•
욕망‘향수’-5건
4. 2007-06-12 4 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
연구배경
개념적계층관계만표현
연관관계반영못함
신조어반영이어려움
시소러스자동확장필요
5. 2007-06-12 5 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
연구목적
•
연관단어클러스터링기법
–
단어의중의성고려
–
연관성있는의미군집의생성
–
검색및분류등의의미상특징으로사용
•
텍스트마이닝: 컴퓨터가텍스트를분석하고이해하고생성
–
Information Extraction
–
Topic Tracking
–
Summarization
–
Categorization
–
Clustering
–
Concept Linkage
–
Information Visualization
–
Question Answering
6. 2007-06-12 6 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
향수-지능형검색서비스
웹문서검색결과
검색어–“향수”에대한결과
검색어확장: 향수향기화장품샤넬
검색어확장: 향수고향추억그리움
검색어확장: 향수영화그루누이
질의어확장또는검색결과를분류/군집화하여제공
활용방안
7. 2007-06-12 7 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
논문의주요아이디어
•
단어간연관도측정
–
MI의정규화된값인Standized Mutual Information을사용(※ 이하SMI라고기술)
•
연관단어클러스터링
–
집괴적인계층형군집알고리즘CHAMELEON 사용
•
단어연관그래프의분할
–
단어연관그래프에적합한수정된Matching 알고리즘제안
•
연관단어군집의질적평가
–
군집을군집내간선의밀도Density로선별
8. 2007-06-12 8 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
중간발표지도사항
•
동시출현단어군내에서의클러스터링과정시클러스터의개수의선정방법? (사전또는사후)
–
클러스터개수가자동으로정해지는클러스터링방법을사용
–
클러스터밀도평가를통해양질의클러스터선별
•
각클러스터에서대표어를추출하는방법
–
클러스터의내의단어들과연결된간선의무게가가장높은단어
•
일반명사와고유명사의구분과처리방법
–
단어연관그래프가만들어지는모든명사에대해처리가능
•
기존의시소러스확장관련연구에대한조사
•
관련연구부족
9. 2007-06-12 9 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
최종발표지도사항
•
관련연구
–
Dekang Lin, “Using Syntatic Dependency as Local Context to Resolve Word Sense Ambiguity”, In Proceedings of ACL/EACL-97, 1997, pp.64-71.
–
Dominic Widdow, Beate Dorow, “A Graph Model for Unsupervised Lexical Aquisition”, In 19thInternational Conference on Computational Linguistics, 2002, pp.1093-1099.
–
Tomohiko Sugimachi, Akira Ishino, Masayuki Takeda, Fumihiro Matsuo, “A Method of Extracting Related Words Using Standardized Mutual Information”, Lecture Notes in Computer Science, 2003, pp.478-485.
–
이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 한국정보과학회논문지B, 2000, pp.769-783.
–
신사임, 최기선, “의미경계의현실화를위한공기정보의자동군집화”, 한국정보과학회추계학술대회, 2004, pp.559-561.
•
제안한기법의평가방안
–
군집평가인덱스를사용한군집결과의상대적평가
–
상대적군집평가인덱스S_Dbw를단어연관그래프에사용할수있도록재정의S_DbwWRG인덱스
–
수록: 논문pp.33-38.
10. 2007-06-12 10 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
관련연구
•
말뭉치기반의단어중의성연구
–
대단위말뭉치로부터의local contexts 에관한연구
–
WordNet 등의시소러스를이용한중의성해결
–
사전등의공기정보를이용한중의성해결
•
Two occrrences of the same word have identical meanings if they have similar local contexts
•
Two different words are likely to have similar meaningsif they occur in identical local contexts.
11. 2007-06-12 11 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
관련연구
•
상호정보량(Mutual Information: MI)
–
단어w1와w2가같이출현할확률
•
P(w): the probability of woccurring in a document
•
정규화된상호정보량(Standized Mutual Information: SMI)
–
낮은빈도의단어와의상호정보량은큰값을갖는왜곡현상문제
)()( ),(log),( 212121wPwPwwPwwI= jijiwwIwwZ, ,2121),( ),( σμ− =
단, i는w1의빈도그룹, j는w2의빈도그룹σi,j는그룹i, j의상호정보량표준편차μi,j는그룹i, j의상호정보량평균
12. 2007-06-12 12 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
관련연구-단어연관그래프
•
단어연관그래프:Gθ( w )
–
vertex: 단어(단어w와w의연관단어)
–
edge: 임계치θ에대해I( w1, w2) > θ를만족하는관계, 완전연결아님
–
Wθ( w ): 단어w에대한연관단어
대출
신용대출
전세대출
학자금
직장인
담보
담보대출
연체자
당일대출
연체대납
현황
도서관
소장자료
희망도서
조회
[ 그림] 단어연관그래프Gθ( 대출), θ= 2.1
…
…
13. 2007-06-12 13 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
관련연구–군집알고리즘
•
CHAMELEON -A Hierachical Clustering Algorithm
–
계층적군집화로동적인모델링을찾는군집화알고리즘
–
Intra-cluster similarity를최대화하고Inter-cluster similarity를최소화하는데이터를그룹핑
•
작동방법
STEP 1. K-nearest Neighbor Graph 로부터하부군집으로그래프분할
STEP 2. 하부군집을반복적으로병합: 시간복잡도O(n2)
•
군집유사도
–
상대적인상호연결성: RI ( Ci, Cj)
–
상대적인근접도: RC ( Ci, Cj)
그림. Overall freamework CHAMELEON
14. 2007-06-12 14 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
그래프분할알고리즘
•
Graph Partitioning
–
Global method, Local method, Multilevel hybrid method
•
Multilevel Graph Partitioning
–
Coarsenining 단계
–
Initial Partitioning 단계
–
Uncoarsening 단계
•
Multilevel k-way partitioning
–
그래프G = ( V, E ), | V | = n
G0
G0
Gi
•
Vi∩ Vj= 0, for i ≠ j
•
| Vi| = n / k
•
V1∪V2∪… ∪Vk= V
•
edge-cut 값은최소가되어야함
15. 2007-06-12 15 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
CHAMELEON 알고리즘–1. 분할단계
•
Matching Algorithm
–
Random Matching (RM)
–
Heavy Edge Matching (HEM)
–
Light Edge Matching (LEM)
–
Heavy Clique Matching (HCM) )()()(1iiiMWEWEW−=+
단, W(A)는A의간선의무게의합(edge weight)
※ A matchingof a graph is a set of edges, no two of which are incident on the same vertex.
16. 2007-06-12 16 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
CHAMELEON 알고리즘–2. 병합단계
•
클러스터유사도
–
Relative Inter-Connectivity
–
Relative Closeness
•
클러스터병합결정(2가지방법)
–
두척도의임계치를만족하면병합(Threashold: TRI, TRC)
–
두척도의곱으로이루어진척도를만족하면병합(Threashold: TSIM) SIMjijiTCCRCCCRI≥⋅α),(),( RIjiTCCRI≥),(RCjiTCCRC≥),(
and
17. 2007-06-12 17 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
Cluster Validation Index (CVI)
•
S_Dbw 인덱스:
–
상대적군집평가방법을위한인덱스
–
Density 정의
•
군집내데이터u에대해서반지름stdev 내의존재하는데이터개수
–
군집적합도인덱스
•
Inter-Cluster Density: 군집간밀도의평균, 낮을수록좋음
–
vi, vj는군집i, j의centroid; mij는vi와vj의centroid
•
Intra-Cluster Variance: 전체에대한군집의평균분산의비율, 낮을수록좋음
Σ= = niiuxfudensity1),()( > = otherwisestdevuxduxf:1),(:0),( ΣΣ= ≠ = − = cicjijjiijvdensityvdensitymdensitycccbwDens11)}(),(max{ )( )1( 1)(_ Σ= = ciiSvccScat122)(/)(1)(σσ )()(_)(_cScatcbwDenscDbwS+=
18. 2007-06-12 18 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
연관단어클러스터링단계
STEP 01
빈도테이블구성
STEP 02
단어간연관도계산
STEP 03
단어연관그래프구성
STEP 04
단어연관그래프분할
STEP 05
연관단어군집화
STEP 06
최적의군집결과선정
상호정보량(MI)
패싯분류법
단어연관그래프
그래프분할알고리즘
CHAMELEON 군집알고리즘
Density
2007-04-16
19. 2007-06-12 19 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
시스템흐름도
웹문서
단어빈도테이블
동시출현빈도테이블
가정의료기기
간병용품
medi
mall
의료용품
아로마
목욕용품
아로마테라피
공유기
네트워크
랜카드
라우터
건강보조식품
허브
가정의료기기
간병용품
medi
mall
의료용품
아로마
공유기
네트워크
랜카드
라우터
건강보조식품
아로마
목욕용품
아로마테라피
간병용품,건강보조식품아로마,의료용품,medi, …
아로마,목용용품아로마테라피, …
네트워크,공유기라우터,랜카드
정규화된상호정보량테이블
연관단어의미그룹1
연관단어의미그룹2
단어“허브”
단어연관그래프
그래프분할
하부군집병합
단어‘허브’의연관단어군집테이블
20. 2007-06-12 20 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
1단계, 2단계
단어1
단어2
빈도수
허브
네트워크
69
…
허브
건강보조
56
허브
아로마
138
…
허브
랜카드
36
…
웹문서
빈도그룹1
빈도그룹2
MI 평균
MI 표준편차
1
1
-0.8268
1.9427
1
2
-0.7239
1.9981
1
3
-0.6954
1.9842
…
…
…
…
2
1
-0.7239
1.9981
2
2
-0.4330
1.9364
…
…
단어
빈도수
빈도그룹
네트워크
3523
1
건강보조
748
8
…
…
…
허브
597
9
아로마
448
12
…
…
…
랜카드
131
44
기준단어
연관단어
SMI
허브
가정용의료기
2.7697
허브
간병용품
2.9988
허브
건강보조식품
2.4979
허브
공유기
2.3664
허브
네트워크
2.1771
허브
라우터
3.0372
…
...
...
허브
medi
2.4461
단어빈도테이블
동시출현빈도테이블
빈도그룹별평균, 표준편차테이블
정규화된상호정보량테이블
21. 2007-06-12 21 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
3단계: 단어연관그래프구성
•
단어연관그래프Gθ( w )
–
연관단어테이블
•
기준단어w 설정
•
연관도임계치θ설정
–
연관단어간선테이블
기준단어
연관단어
SMI
허브
가정용의료기
2.7697
허브
간병용품
2.9988
허브
건강보조식품
2.4979
허브
공유기
2.3664
허브
네트워크
2.1771
허브
라우터
3.0372
…
...
...
허브
medi
2.4461
가정의료기기
간병용품
medi
mall
의료용품
아로마
목욕용품
아로마테라피
공유기
네트워크
랜카드
라우터
건강보조식품
허브
연관단어1
연관단어2
SMI
아로마
의료용품
2.7844
아로마
mall
2.7841
아로마
아로마테라피
2.4687
mall
의료용품
3.5834
mall
간병용품
3.3881
간병용품
아로마
3.3623
…
…
…
라우터
공유기
2.3881
22. 2007-06-12 22 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
4단계: 단어연관그래프분할
•
단어연관그래프의특성
–
단어는하나이상의의미를가질수있음
•
단어는1개의의미그룹에서는1개의의미만을가짐
•
1개이상의그룹에서나온단어는서로다른의미를가짐(관계성없음)
–
단어는다른단어와의연결을통해서의미그룹을형성
•
{ “삼성”, “소니”, “디지털카메라” } vs { “삼성”, “소니”, “프린터”}
•
단어연관그래프분할
–
단어연관그래프: G = ( V, E ), | V | = n
–
subgraph의최소vertex 크기: MIN_SIZE
•
|Vi∩ Vj| ≥0, for i ≠ j
•
| Vi| ≥MIN_SIZE
•
V1∪V2∪… ∪Vk= V
•
중복되는vertex 개수는최소가되어야함
23. 2007-06-12 23 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
단어연관그래프분할
•
단어연관그래프를위한HEM 알고리즘(HEMWRG)
1단계: 연결된vertex끼리묶은가능한모든subgraph 생성(Depth=1)
•
subgraph 간에는간선무게없음
•
포함한간선의weight의합으로subgraph의weight 계산
2단계: weight가가장큰subgraph부터낮은순으로이동
3단계: weight가가장작은subgraph부터같은vertex를가진subgraph 탐색
•
찾은subgraph의번호로matched 표시
4단계: unmatched 된vertex를가진subgraph 모아연결하기
•
모든vertex가matched 된subgraph는제거
a
b
d
c
e
f
4
2
1
1
3
3
1
2
b,a,c,f
b,e,f
a,b,c,d
a,b,c,d,e
a,d,c,e
c,d,e,f
8
2
10
9
9
14
5
24. 2007-06-12 24 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
하부그래프2~7간선무게합: 14.2520
단어연관그래프분할
•
연관도기준단어“허브” –SMI 2.2 이상
가정의료기기
간병용품
medi
mall
의료용품
아로마
목욕용품
아로마테라피
공유기
네트워크
랜카드
라우터
건강보조식품
하부그래프1간선무게합: 68.3576
하부그래프8간선무게합: 60.5544
하부그래프11간선무게합: 7.8032
하부그래프15간선무게합: 7.4993
하부그래프2~7간선무게합: 14.2520
하부그래프2~7간선무게합: 60.5544
하부그래프2~7간선무게합: 14.2520
하부그래프9,10간선무게합: 7.8032
하부그래프14간선무게합: 7.4993
하부그래프13간선무게합: 7.4997
하부그래프12간선무게합: 7.4997
25. 2007-06-12 25 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
5단계: 연관단어클러스터링
•
연관도기준단어“허브” –SMI 2.1 이상, TSIM> 0.7
허브
RI*RC1.5= 0.2215(RI=0.2357,RC=0.9595 )
RI*RC1.5= 0.9604(RI=0.9839 ,RC = 0.9839 )
RI*RC1.5= 0(RI=0.0,RC=0.0 )
가정의료기기
간병용품
medi
mall
의료용품
아로마
건강보조식품
1
공유기
네트워크
라우터
4
목욕용품
아로마테라피
아로마
2
공유기
네트워크
랜카드
3
RI*RC1.5= 0(RI=0.0,RC=0.0 )
35. 2007-06-12 35 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
참고문헌
[ 1 ] 강신재, “온톨로지구축및단어의미중의성해소에의활용”, 컴퓨터연구정보센터, 2004
[ 2 ] 이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 컴퓨터연구정보센터, 2000
[ 3 ] 허준희, 최준혁, 이정현, 김중배, 임기욱, “문서의주제어별가중치부여와단어군집을이용한한국어문서자동분류시스템”, 컴퓨터연구정보센터, 2001
[ 4 ] 김희수, 최익규, 김민구, “개념간관계의추출과명명을위한통계적접근방법”
[ 5 ] 박흠, 권혁철, “웹문서클러스터링에서의자질필터링방법”
[ 6 ] T. Sugimachi, A Ishino, M. Takeda, F. Matsuo, "A Method of Extracting Related Words Using Standardized Mutual Information“
[ 7 ] Han. Kamber, "Data Mining -Concepts and Techniques" p.413~443
[ 8 ] George Karypis, Eui-Hong (Sam) Han, Vipin Kumar, "CHAMELEON: A Hierachical Clustering Algorithm Using Dynamic Modeling"
[ 9 ] George Karypis, Vipin Kumar, "Multievel k-way Paritioning Scheme for Irregular Graphs"
[10] Y. Matsuo, M. Ishizuka, "Keyword Extraction from A Single Document using Word Co-Occurrence Statistical Information", World Scientific Publishing (2004)
36. 2007-06-12 36 단어연관그래프를 이용한 단어 의미의 자동 군집 기법
참고문헌
[11] Dawn Lawrie, W. Bruce Crofit, “Discovering and Comparing Topic Heirarchies”, In Proceedings of RIAD2000 conference, pp.314-330, 2000
[12] Dekang Lin, “Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity”, Association for Computational Linguistics, 1997