SlideShare a Scribd company logo
1 of 37
Download to read offline
2007. 7. 12 
숭실대학교마이닝연구실 
민병국 
<마이닝연구실내부세미나> 
단어연관그래프를이용한단어의미의자동군집기법
2007-06-12 2 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
목차 
• 
연구배경 
• 
연구목적 
• 
관련연구 
• 
연관단어클러스터링기법 
• 
실험및평가 
• 
결론및향후과제
2007-06-12 3 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
연구배경 
웹검색 
질의어: ‘향수’ 
검색결과100건내 
• 
영화‘향수’–88건 
• 
세면도구‘향수’-7건 
• 
욕망‘향수’-5건
2007-06-12 4 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
연구배경 
개념적계층관계만표현 
연관관계반영못함 
신조어반영이어려움 
시소러스자동확장필요
2007-06-12 5 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
연구목적 
• 
연관단어클러스터링기법 
– 
단어의중의성고려 
– 
연관성있는의미군집의생성 
– 
검색및분류등의의미상특징으로사용 
• 
텍스트마이닝: 컴퓨터가텍스트를분석하고이해하고생성 
– 
Information Extraction 
– 
Topic Tracking 
– 
Summarization 
– 
Categorization 
– 
Clustering 
– 
Concept Linkage 
– 
Information Visualization 
– 
Question Answering
2007-06-12 6 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
향수-지능형검색서비스 
웹문서검색결과 
검색어–“향수”에대한결과 
검색어확장: 향수향기화장품샤넬 
검색어확장: 향수고향추억그리움 
검색어확장: 향수영화그루누이 
질의어확장또는검색결과를분류/군집화하여제공 
활용방안
2007-06-12 7 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
논문의주요아이디어 
• 
단어간연관도측정 
– 
MI의정규화된값인Standized Mutual Information을사용(※ 이하SMI라고기술) 
• 
연관단어클러스터링 
– 
집괴적인계층형군집알고리즘CHAMELEON 사용 
• 
단어연관그래프의분할 
– 
단어연관그래프에적합한수정된Matching 알고리즘제안 
• 
연관단어군집의질적평가 
– 
군집을군집내간선의밀도Density로선별
2007-06-12 8 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
중간발표지도사항 
• 
동시출현단어군내에서의클러스터링과정시클러스터의개수의선정방법? (사전또는사후) 
– 
클러스터개수가자동으로정해지는클러스터링방법을사용 
– 
클러스터밀도평가를통해양질의클러스터선별 
• 
각클러스터에서대표어를추출하는방법 
– 
클러스터의내의단어들과연결된간선의무게가가장높은단어 
• 
일반명사와고유명사의구분과처리방법 
– 
단어연관그래프가만들어지는모든명사에대해처리가능 
• 
기존의시소러스확장관련연구에대한조사 
• 
관련연구부족
2007-06-12 9 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
최종발표지도사항 
• 
관련연구 
– 
Dekang Lin, “Using Syntatic Dependency as Local Context to Resolve Word Sense Ambiguity”, In Proceedings of ACL/EACL-97, 1997, pp.64-71. 
– 
Dominic Widdow, Beate Dorow, “A Graph Model for Unsupervised Lexical Aquisition”, In 19thInternational Conference on Computational Linguistics, 2002, pp.1093-1099. 
– 
Tomohiko Sugimachi, Akira Ishino, Masayuki Takeda, Fumihiro Matsuo, “A Method of Extracting Related Words Using Standardized Mutual Information”, Lecture Notes in Computer Science, 2003, pp.478-485. 
– 
이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 한국정보과학회논문지B, 2000, pp.769-783. 
– 
신사임, 최기선, “의미경계의현실화를위한공기정보의자동군집화”, 한국정보과학회추계학술대회, 2004, pp.559-561. 
• 
제안한기법의평가방안 
– 
군집평가인덱스를사용한군집결과의상대적평가 
– 
상대적군집평가인덱스S_Dbw를단어연관그래프에사용할수있도록재정의S_DbwWRG인덱스 
– 
수록: 논문pp.33-38.
2007-06-12 10 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
관련연구 
• 
말뭉치기반의단어중의성연구 
– 
대단위말뭉치로부터의local contexts 에관한연구 
– 
WordNet 등의시소러스를이용한중의성해결 
– 
사전등의공기정보를이용한중의성해결 
• 
Two occrrences of the same word have identical meanings if they have similar local contexts 
• 
Two different words are likely to have similar meaningsif they occur in identical local contexts.
2007-06-12 11 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
관련연구 
• 
상호정보량(Mutual Information: MI) 
– 
단어w1와w2가같이출현할확률 
• 
P(w): the probability of woccurring in a document 
• 
정규화된상호정보량(Standized Mutual Information: SMI) 
– 
낮은빈도의단어와의상호정보량은큰값을갖는왜곡현상문제 
)()( ),(log),( 212121wPwPwwPwwI= jijiwwIwwZ, ,2121),( ),( σμ− = 
단, i는w1의빈도그룹, j는w2의빈도그룹σi,j는그룹i, j의상호정보량표준편차μi,j는그룹i, j의상호정보량평균
2007-06-12 12 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
관련연구-단어연관그래프 
• 
단어연관그래프:Gθ( w ) 
– 
vertex: 단어(단어w와w의연관단어) 
– 
edge: 임계치θ에대해I( w1, w2) > θ를만족하는관계, 완전연결아님 
– 
Wθ( w ): 단어w에대한연관단어 
대출 
신용대출 
전세대출 
학자금 
직장인 
담보 
담보대출 
연체자 
당일대출 
연체대납 
현황 
도서관 
소장자료 
희망도서 
조회 
[ 그림] 단어연관그래프Gθ( 대출), θ= 2.1 
… 
…
2007-06-12 13 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
관련연구–군집알고리즘 
• 
CHAMELEON -A Hierachical Clustering Algorithm 
– 
계층적군집화로동적인모델링을찾는군집화알고리즘 
– 
Intra-cluster similarity를최대화하고Inter-cluster similarity를최소화하는데이터를그룹핑 
• 
작동방법 
STEP 1. K-nearest Neighbor Graph 로부터하부군집으로그래프분할 
STEP 2. 하부군집을반복적으로병합: 시간복잡도O(n2) 
• 
군집유사도 
– 
상대적인상호연결성: RI ( Ci, Cj) 
– 
상대적인근접도: RC ( Ci, Cj) 
그림. Overall freamework CHAMELEON
2007-06-12 14 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
그래프분할알고리즘 
• 
Graph Partitioning 
– 
Global method, Local method, Multilevel hybrid method 
• 
Multilevel Graph Partitioning 
– 
Coarsenining 단계 
– 
Initial Partitioning 단계 
– 
Uncoarsening 단계 
• 
Multilevel k-way partitioning 
– 
그래프G = ( V, E ), | V | = n 
G0 
G0 
Gi 
• 
Vi∩ Vj= 0, for i ≠ j 
• 
| Vi| = n / k 
• 
V1∪V2∪… ∪Vk= V 
• 
edge-cut 값은최소가되어야함
2007-06-12 15 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
CHAMELEON 알고리즘–1. 분할단계 
• 
Matching Algorithm 
– 
Random Matching (RM) 
– 
Heavy Edge Matching (HEM) 
– 
Light Edge Matching (LEM) 
– 
Heavy Clique Matching (HCM) )()()(1iiiMWEWEW−=+ 
단, W(A)는A의간선의무게의합(edge weight) 
※ A matchingof a graph is a set of edges, no two of which are incident on the same vertex.
2007-06-12 16 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
CHAMELEON 알고리즘–2. 병합단계 
• 
클러스터유사도 
– 
Relative Inter-Connectivity 
– 
Relative Closeness 
• 
클러스터병합결정(2가지방법) 
– 
두척도의임계치를만족하면병합(Threashold: TRI, TRC) 
– 
두척도의곱으로이루어진척도를만족하면병합(Threashold: TSIM) SIMjijiTCCRCCCRI≥⋅α),(),( RIjiTCCRI≥),(RCjiTCCRC≥),( 
and
2007-06-12 17 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
Cluster Validation Index (CVI) 
• 
S_Dbw 인덱스: 
– 
상대적군집평가방법을위한인덱스 
– 
Density 정의 
• 
군집내데이터u에대해서반지름stdev 내의존재하는데이터개수 
– 
군집적합도인덱스 
• 
Inter-Cluster Density: 군집간밀도의평균, 낮을수록좋음 
– 
vi, vj는군집i, j의centroid; mij는vi와vj의centroid 
• 
Intra-Cluster Variance: 전체에대한군집의평균분산의비율, 낮을수록좋음 
Σ= = niiuxfudensity1),()(  > = otherwisestdevuxduxf:1),(:0),( ΣΣ= ≠ =      − = cicjijjiijvdensityvdensitymdensitycccbwDens11)}(),(max{ )( )1( 1)(_ Σ= = ciiSvccScat122)(/)(1)(σσ )()(_)(_cScatcbwDenscDbwS+=
2007-06-12 18 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
연관단어클러스터링단계 
STEP 01 
빈도테이블구성 
STEP 02 
단어간연관도계산 
STEP 03 
단어연관그래프구성 
STEP 04 
단어연관그래프분할 
STEP 05 
연관단어군집화 
STEP 06 
최적의군집결과선정 
상호정보량(MI) 
패싯분류법 
단어연관그래프 
그래프분할알고리즘 
CHAMELEON 군집알고리즘 
Density 
2007-04-16
2007-06-12 19 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
시스템흐름도 
웹문서 
단어빈도테이블 
동시출현빈도테이블 
가정의료기기 
간병용품 
medi 
mall 
의료용품 
아로마 
목욕용품 
아로마테라피 
공유기 
네트워크 
랜카드 
라우터 
건강보조식품 
허브 
가정의료기기 
간병용품 
medi 
mall 
의료용품 
아로마 
공유기 
네트워크 
랜카드 
라우터 
건강보조식품 
아로마 
목욕용품 
아로마테라피 
간병용품,건강보조식품아로마,의료용품,medi, … 
아로마,목용용품아로마테라피, … 
네트워크,공유기라우터,랜카드 
정규화된상호정보량테이블 
연관단어의미그룹1 
연관단어의미그룹2 
단어“허브” 
단어연관그래프 
그래프분할 
하부군집병합 
단어‘허브’의연관단어군집테이블
2007-06-12 20 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
1단계, 2단계 
단어1 
단어2 
빈도수 
허브 
네트워크 
69 
… 
허브 
건강보조 
56 
허브 
아로마 
138 
… 
허브 
랜카드 
36 
… 
웹문서 
빈도그룹1 
빈도그룹2 
MI 평균 
MI 표준편차 
1 
1 
-0.8268 
1.9427 
1 
2 
-0.7239 
1.9981 
1 
3 
-0.6954 
1.9842 
… 
… 
… 
… 
2 
1 
-0.7239 
1.9981 
2 
2 
-0.4330 
1.9364 
… 
… 
단어 
빈도수 
빈도그룹 
네트워크 
3523 
1 
건강보조 
748 
8 
… 
… 
… 
허브 
597 
9 
아로마 
448 
12 
… 
… 
… 
랜카드 
131 
44 
기준단어 
연관단어 
SMI 
허브 
가정용의료기 
2.7697 
허브 
간병용품 
2.9988 
허브 
건강보조식품 
2.4979 
허브 
공유기 
2.3664 
허브 
네트워크 
2.1771 
허브 
라우터 
3.0372 
… 
... 
... 
허브 
medi 
2.4461 
단어빈도테이블 
동시출현빈도테이블 
빈도그룹별평균, 표준편차테이블 
정규화된상호정보량테이블
2007-06-12 21 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
3단계: 단어연관그래프구성 
• 
단어연관그래프Gθ( w ) 
– 
연관단어테이블 
• 
기준단어w 설정 
• 
연관도임계치θ설정 
– 
연관단어간선테이블 
기준단어 
연관단어 
SMI 
허브 
가정용의료기 
2.7697 
허브 
간병용품 
2.9988 
허브 
건강보조식품 
2.4979 
허브 
공유기 
2.3664 
허브 
네트워크 
2.1771 
허브 
라우터 
3.0372 
… 
... 
... 
허브 
medi 
2.4461 
가정의료기기 
간병용품 
medi 
mall 
의료용품 
아로마 
목욕용품 
아로마테라피 
공유기 
네트워크 
랜카드 
라우터 
건강보조식품 
허브 
연관단어1 
연관단어2 
SMI 
아로마 
의료용품 
2.7844 
아로마 
mall 
2.7841 
아로마 
아로마테라피 
2.4687 
mall 
의료용품 
3.5834 
mall 
간병용품 
3.3881 
간병용품 
아로마 
3.3623 
… 
… 
… 
라우터 
공유기 
2.3881
2007-06-12 22 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
4단계: 단어연관그래프분할 
• 
단어연관그래프의특성 
– 
단어는하나이상의의미를가질수있음 
• 
단어는1개의의미그룹에서는1개의의미만을가짐 
• 
1개이상의그룹에서나온단어는서로다른의미를가짐(관계성없음) 
– 
단어는다른단어와의연결을통해서의미그룹을형성 
• 
{ “삼성”, “소니”, “디지털카메라” } vs { “삼성”, “소니”, “프린터”} 
• 
단어연관그래프분할 
– 
단어연관그래프: G = ( V, E ), | V | = n 
– 
subgraph의최소vertex 크기: MIN_SIZE 
• 
|Vi∩ Vj| ≥0, for i ≠ j 
• 
| Vi| ≥MIN_SIZE 
• 
V1∪V2∪… ∪Vk= V 
• 
중복되는vertex 개수는최소가되어야함
2007-06-12 23 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
단어연관그래프분할 
• 
단어연관그래프를위한HEM 알고리즘(HEMWRG) 
1단계: 연결된vertex끼리묶은가능한모든subgraph 생성(Depth=1) 
• 
subgraph 간에는간선무게없음 
• 
포함한간선의weight의합으로subgraph의weight 계산 
2단계: weight가가장큰subgraph부터낮은순으로이동 
3단계: weight가가장작은subgraph부터같은vertex를가진subgraph 탐색 
• 
찾은subgraph의번호로matched 표시 
4단계: unmatched 된vertex를가진subgraph 모아연결하기 
• 
모든vertex가matched 된subgraph는제거 
a 
b 
d 
c 
e 
f 
4 
2 
1 
1 
3 
3 
1 
2 
b,a,c,f 
b,e,f 
a,b,c,d 
a,b,c,d,e 
a,d,c,e 
c,d,e,f 
8 
2 
10 
9 
9 
14 
5
2007-06-12 24 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
하부그래프2~7간선무게합: 14.2520 
단어연관그래프분할 
• 
연관도기준단어“허브” –SMI 2.2 이상 
가정의료기기 
간병용품 
medi 
mall 
의료용품 
아로마 
목욕용품 
아로마테라피 
공유기 
네트워크 
랜카드 
라우터 
건강보조식품 
하부그래프1간선무게합: 68.3576 
하부그래프8간선무게합: 60.5544 
하부그래프11간선무게합: 7.8032 
하부그래프15간선무게합: 7.4993 
하부그래프2~7간선무게합: 14.2520 
하부그래프2~7간선무게합: 60.5544 
하부그래프2~7간선무게합: 14.2520 
하부그래프9,10간선무게합: 7.8032 
하부그래프14간선무게합: 7.4993 
하부그래프13간선무게합: 7.4997 
하부그래프12간선무게합: 7.4997
2007-06-12 25 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
5단계: 연관단어클러스터링 
• 
연관도기준단어“허브” –SMI 2.1 이상, TSIM> 0.7 
허브 
RI*RC1.5= 0.2215(RI=0.2357,RC=0.9595 ) 
RI*RC1.5= 0.9604(RI=0.9839 ,RC = 0.9839 ) 
RI*RC1.5= 0(RI=0.0,RC=0.0 ) 
가정의료기기 
간병용품 
medi 
mall 
의료용품 
아로마 
건강보조식품 
1 
공유기 
네트워크 
라우터 
4 
목욕용품 
아로마테라피 
아로마 
2 
공유기 
네트워크 
랜카드 
3 
RI*RC1.5= 0(RI=0.0,RC=0.0 )
2007-06-12 26 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
6단계: 최적의군집결과선정 
• 
단어연관그래프에서의S_Dbw 활용: S_DbwWRG 
– 
Density 정의 
• 
그래프의Vertex 간연결간선의무게합x 완전연결에대한비율 
– 
군집적합도인덱스 
• 
Inter-Cluster Density: 군집사이의간선밀도의평균, 낮을수록좋음 
• 
Intra-Cluster Variance: 군집의간선평균밀도에대한전체간선밀도의비율, 낮을수록좋음 
Σ= − = || 1)1( 2)( EkkwnnGdensityΣΣ= ≠ =      − = cicjijjiijWRGGdensityGdensityGdensityccbwDens11)}(),(max{ )( )1( 1_       =Σ= cGdensityGdensityScatciiWRG1)( /)( 
c는군집의개수
2007-06-12 27 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
6단계: 최적의군집결과선정 
C1 
C2 
C3 
G1,2 
G1,3 
G2,3 
a 
c 
d 
e 
b 
h 
f 
g 
i 
3 
2 
1 
2 
1 
3 
C1 
C2 
C3 
S 
G1 
G2 
G3 
density(G1)=1.1 
density(G2)=0.7 
density(G3)=0.8 
density(G)=0.5 
(가) 그래프G의Dens_bwWRG 
(나) 그래프G의ScatWRG 
기준단어 
병합임계치 
군집수 
Dens_bw 
Scat 
S_Dbw 
허브 
0.1 
3 
0.0000 
0.2539 
0.2539 
0.2 
4 
0.0580 
0.2444 
0.3024 
0.3 
4 
0.0580 
0.2444 
0.3024 
0.4 
5 
0.0621 
0.1889 
0.2510 
0.5 
5 
0.0621 
0.1889 
0.2510 
0.6 
5 
0.0621 
0.1889 
0.2510 
0.7 
5 
0.0621 
0.1889 
0.2510 
0.8 
6 
0.1076 
0.1763 
0.2839 
0.9 
6 
0.1076 
0.1763 
0.2839 
1 
6 
0.1076 
0.1763 
0.2839
2007-06-12 28 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
실험데이터 
• 
원본데이터 
– 
내용: 웹사이트설명문 
• 
실험데이터 
– 
단어군상위10,000개선정(최상위30개단어제외) 
– 
동시출현단어쌍개수: 2,276,992개 
단어 
빈도 
빈도순위 
제공 
86,029 
1 
소개 
84,046 
2 
안내 
48,756 
3 
수록 
46,673 
4 
전문 
46,585 
5 
판매 
43,087 
6 
정보 
36,578 
7 
관련 
26,662 
8 
위치 
26,027 
9 
서비스 
21,660 
10 
… 
… 
… 
원본데이터 
실험데이터 
백분율 
문서수 
477,449 
470,391 
98.52% 
단어수 
425,099 
10,000 
2.35% 
총레코드수 
5,326,060 
2,544,131 
47.77% 
최상위빈도30개단어제외 
데이터비교 
※ 두단어쌍테이블크기: 2,276,992 rows
2007-06-12 29 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
평가방법 
• 
군집알고리즘비교대상(클레멘타인참조) 
– 
K-평균군집알고리즘 
– 
Two Step 
– 
Anomaly Detection 
• 
평가데이터 
– 
중의성을가진단어30개, SMI 2.1 이상의연관단어 
• 
연관단어군집의결과평가 
– 
응용시스템의만족도조사 
– 
의미태깅된평가데이터사용 
대출, 양식, 배낭, 이전, 스포츠, 자동차, 렌탈, 포인트, 가사, 시공 
도서, 지원, 보안, TV, 전략, 기술, 신청, 단체, 용품, 포장, 레이져, 재생, 등…
2007-06-12 30 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
결과및평가 
자동차 
기아자동차 
명차 
기아 
대우자동차 
마티즈 
칼로스 
차량관리 
신차 
… 
보트 
비행기 
헬기 
rc 
프라모델 
모형 
요금표 
장기대여 
차종 
고속도로 
편의시설 
휴게소 
도로안내 
휴식공간 
고무부품 
부품 
joint 
hose 
서스펜션 
배기 
튜닝 
에어댐 
시트 
타이어 
경정비 
구조변경 
• 
기준단어: 자동차 
– 
연관단어선정: SMI > 2.1 (연관단어71개, 간선119개) 
– 
그래프분할: MIN_SIZE ≥ 3(하부군집18개) 
– 
군집병합: TSIM> 1.0 
– 
군집선별: TD> 3.0 
Density=6.4030 
Density=6.6675 
Density=7.0744 
Density=4.1253 
Density=2.0325 
Density=1.5840
2007-06-12 31 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
향후연구과제 
• 
실제뉴스데이터로재실험 
– 
각단계별임계치의민감도분석 
– 
Similarity based Clustering 병행: Cosine 유사도등… 
• 
단어특성별군집분석 
– 
TF.IDF 사용 
– 
Confidence, Lift 사용 
• 
어휘사전의자동구축 
– 
Topic 별연결 
– 
상, 하위범주별구축 
– 
시간대별이슈변화연결 
• 
텍스트마이닝의요소기술화
2007-06-12 32 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
응용분야-#1. 이슈별, 시간별
2007-06-12 33 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
응용분야-#2. 독자반응별
2007-06-12 34 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
응용분야-#3. 시소러스별
2007-06-12 35 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
참고문헌 
[ 1 ] 강신재, “온톨로지구축및단어의미중의성해소에의활용”, 컴퓨터연구정보센터, 2004 
[ 2 ] 이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 컴퓨터연구정보센터, 2000 
[ 3 ] 허준희, 최준혁, 이정현, 김중배, 임기욱, “문서의주제어별가중치부여와단어군집을이용한한국어문서자동분류시스템”, 컴퓨터연구정보센터, 2001 
[ 4 ] 김희수, 최익규, 김민구, “개념간관계의추출과명명을위한통계적접근방법” 
[ 5 ] 박흠, 권혁철, “웹문서클러스터링에서의자질필터링방법” 
[ 6 ] T. Sugimachi, A Ishino, M. Takeda, F. Matsuo, "A Method of Extracting Related Words Using Standardized Mutual Information“ 
[ 7 ] Han. Kamber, "Data Mining -Concepts and Techniques" p.413~443 
[ 8 ] George Karypis, Eui-Hong (Sam) Han, Vipin Kumar, "CHAMELEON: A Hierachical Clustering Algorithm Using Dynamic Modeling" 
[ 9 ] George Karypis, Vipin Kumar, "Multievel k-way Paritioning Scheme for Irregular Graphs" 
[10] Y. Matsuo, M. Ishizuka, "Keyword Extraction from A Single Document using Word Co-Occurrence Statistical Information", World Scientific Publishing (2004)
2007-06-12 36 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 
참고문헌 
[11] Dawn Lawrie, W. Bruce Crofit, “Discovering and Comparing Topic Heirarchies”, In Proceedings of RIAD2000 conference, pp.314-330, 2000 
[12] Dekang Lin, “Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity”, Association for Computational Linguistics, 1997
2007-06-12 37 단어연관그래프를 이용한 단어 의미의 자동 군집 기법

More Related Content

More from 병국 민

Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)병국 민
 
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213병국 민
 
네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)병국 민
 
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)병국 민
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)병국 민
 
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼병국 민
 

More from 병국 민 (6)

Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)
 
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
 
네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)
 
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
 

[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동 군집 기법

  • 1. 2007. 7. 12 숭실대학교마이닝연구실 민병국 <마이닝연구실내부세미나> 단어연관그래프를이용한단어의미의자동군집기법
  • 2. 2007-06-12 2 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 목차 • 연구배경 • 연구목적 • 관련연구 • 연관단어클러스터링기법 • 실험및평가 • 결론및향후과제
  • 3. 2007-06-12 3 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 연구배경 웹검색 질의어: ‘향수’ 검색결과100건내 • 영화‘향수’–88건 • 세면도구‘향수’-7건 • 욕망‘향수’-5건
  • 4. 2007-06-12 4 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 연구배경 개념적계층관계만표현 연관관계반영못함 신조어반영이어려움 시소러스자동확장필요
  • 5. 2007-06-12 5 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 연구목적 • 연관단어클러스터링기법 – 단어의중의성고려 – 연관성있는의미군집의생성 – 검색및분류등의의미상특징으로사용 • 텍스트마이닝: 컴퓨터가텍스트를분석하고이해하고생성 – Information Extraction – Topic Tracking – Summarization – Categorization – Clustering – Concept Linkage – Information Visualization – Question Answering
  • 6. 2007-06-12 6 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 향수-지능형검색서비스 웹문서검색결과 검색어–“향수”에대한결과 검색어확장: 향수향기화장품샤넬 검색어확장: 향수고향추억그리움 검색어확장: 향수영화그루누이 질의어확장또는검색결과를분류/군집화하여제공 활용방안
  • 7. 2007-06-12 7 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 논문의주요아이디어 • 단어간연관도측정 – MI의정규화된값인Standized Mutual Information을사용(※ 이하SMI라고기술) • 연관단어클러스터링 – 집괴적인계층형군집알고리즘CHAMELEON 사용 • 단어연관그래프의분할 – 단어연관그래프에적합한수정된Matching 알고리즘제안 • 연관단어군집의질적평가 – 군집을군집내간선의밀도Density로선별
  • 8. 2007-06-12 8 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 중간발표지도사항 • 동시출현단어군내에서의클러스터링과정시클러스터의개수의선정방법? (사전또는사후) – 클러스터개수가자동으로정해지는클러스터링방법을사용 – 클러스터밀도평가를통해양질의클러스터선별 • 각클러스터에서대표어를추출하는방법 – 클러스터의내의단어들과연결된간선의무게가가장높은단어 • 일반명사와고유명사의구분과처리방법 – 단어연관그래프가만들어지는모든명사에대해처리가능 • 기존의시소러스확장관련연구에대한조사 • 관련연구부족
  • 9. 2007-06-12 9 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 최종발표지도사항 • 관련연구 – Dekang Lin, “Using Syntatic Dependency as Local Context to Resolve Word Sense Ambiguity”, In Proceedings of ACL/EACL-97, 1997, pp.64-71. – Dominic Widdow, Beate Dorow, “A Graph Model for Unsupervised Lexical Aquisition”, In 19thInternational Conference on Computational Linguistics, 2002, pp.1093-1099. – Tomohiko Sugimachi, Akira Ishino, Masayuki Takeda, Fumihiro Matsuo, “A Method of Extracting Related Words Using Standardized Mutual Information”, Lecture Notes in Computer Science, 2003, pp.478-485. – 이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 한국정보과학회논문지B, 2000, pp.769-783. – 신사임, 최기선, “의미경계의현실화를위한공기정보의자동군집화”, 한국정보과학회추계학술대회, 2004, pp.559-561. • 제안한기법의평가방안 – 군집평가인덱스를사용한군집결과의상대적평가 – 상대적군집평가인덱스S_Dbw를단어연관그래프에사용할수있도록재정의S_DbwWRG인덱스 – 수록: 논문pp.33-38.
  • 10. 2007-06-12 10 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 관련연구 • 말뭉치기반의단어중의성연구 – 대단위말뭉치로부터의local contexts 에관한연구 – WordNet 등의시소러스를이용한중의성해결 – 사전등의공기정보를이용한중의성해결 • Two occrrences of the same word have identical meanings if they have similar local contexts • Two different words are likely to have similar meaningsif they occur in identical local contexts.
  • 11. 2007-06-12 11 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 관련연구 • 상호정보량(Mutual Information: MI) – 단어w1와w2가같이출현할확률 • P(w): the probability of woccurring in a document • 정규화된상호정보량(Standized Mutual Information: SMI) – 낮은빈도의단어와의상호정보량은큰값을갖는왜곡현상문제 )()( ),(log),( 212121wPwPwwPwwI= jijiwwIwwZ, ,2121),( ),( σμ− = 단, i는w1의빈도그룹, j는w2의빈도그룹σi,j는그룹i, j의상호정보량표준편차μi,j는그룹i, j의상호정보량평균
  • 12. 2007-06-12 12 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 관련연구-단어연관그래프 • 단어연관그래프:Gθ( w ) – vertex: 단어(단어w와w의연관단어) – edge: 임계치θ에대해I( w1, w2) > θ를만족하는관계, 완전연결아님 – Wθ( w ): 단어w에대한연관단어 대출 신용대출 전세대출 학자금 직장인 담보 담보대출 연체자 당일대출 연체대납 현황 도서관 소장자료 희망도서 조회 [ 그림] 단어연관그래프Gθ( 대출), θ= 2.1 … …
  • 13. 2007-06-12 13 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 관련연구–군집알고리즘 • CHAMELEON -A Hierachical Clustering Algorithm – 계층적군집화로동적인모델링을찾는군집화알고리즘 – Intra-cluster similarity를최대화하고Inter-cluster similarity를최소화하는데이터를그룹핑 • 작동방법 STEP 1. K-nearest Neighbor Graph 로부터하부군집으로그래프분할 STEP 2. 하부군집을반복적으로병합: 시간복잡도O(n2) • 군집유사도 – 상대적인상호연결성: RI ( Ci, Cj) – 상대적인근접도: RC ( Ci, Cj) 그림. Overall freamework CHAMELEON
  • 14. 2007-06-12 14 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 그래프분할알고리즘 • Graph Partitioning – Global method, Local method, Multilevel hybrid method • Multilevel Graph Partitioning – Coarsenining 단계 – Initial Partitioning 단계 – Uncoarsening 단계 • Multilevel k-way partitioning – 그래프G = ( V, E ), | V | = n G0 G0 Gi • Vi∩ Vj= 0, for i ≠ j • | Vi| = n / k • V1∪V2∪… ∪Vk= V • edge-cut 값은최소가되어야함
  • 15. 2007-06-12 15 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 CHAMELEON 알고리즘–1. 분할단계 • Matching Algorithm – Random Matching (RM) – Heavy Edge Matching (HEM) – Light Edge Matching (LEM) – Heavy Clique Matching (HCM) )()()(1iiiMWEWEW−=+ 단, W(A)는A의간선의무게의합(edge weight) ※ A matchingof a graph is a set of edges, no two of which are incident on the same vertex.
  • 16. 2007-06-12 16 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 CHAMELEON 알고리즘–2. 병합단계 • 클러스터유사도 – Relative Inter-Connectivity – Relative Closeness • 클러스터병합결정(2가지방법) – 두척도의임계치를만족하면병합(Threashold: TRI, TRC) – 두척도의곱으로이루어진척도를만족하면병합(Threashold: TSIM) SIMjijiTCCRCCCRI≥⋅α),(),( RIjiTCCRI≥),(RCjiTCCRC≥),( and
  • 17. 2007-06-12 17 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 Cluster Validation Index (CVI) • S_Dbw 인덱스: – 상대적군집평가방법을위한인덱스 – Density 정의 • 군집내데이터u에대해서반지름stdev 내의존재하는데이터개수 – 군집적합도인덱스 • Inter-Cluster Density: 군집간밀도의평균, 낮을수록좋음 – vi, vj는군집i, j의centroid; mij는vi와vj의centroid • Intra-Cluster Variance: 전체에대한군집의평균분산의비율, 낮을수록좋음 Σ= = niiuxfudensity1),()(  > = otherwisestdevuxduxf:1),(:0),( ΣΣ= ≠ =      − = cicjijjiijvdensityvdensitymdensitycccbwDens11)}(),(max{ )( )1( 1)(_ Σ= = ciiSvccScat122)(/)(1)(σσ )()(_)(_cScatcbwDenscDbwS+=
  • 18. 2007-06-12 18 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 연관단어클러스터링단계 STEP 01 빈도테이블구성 STEP 02 단어간연관도계산 STEP 03 단어연관그래프구성 STEP 04 단어연관그래프분할 STEP 05 연관단어군집화 STEP 06 최적의군집결과선정 상호정보량(MI) 패싯분류법 단어연관그래프 그래프분할알고리즘 CHAMELEON 군집알고리즘 Density 2007-04-16
  • 19. 2007-06-12 19 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 시스템흐름도 웹문서 단어빈도테이블 동시출현빈도테이블 가정의료기기 간병용품 medi mall 의료용품 아로마 목욕용품 아로마테라피 공유기 네트워크 랜카드 라우터 건강보조식품 허브 가정의료기기 간병용품 medi mall 의료용품 아로마 공유기 네트워크 랜카드 라우터 건강보조식품 아로마 목욕용품 아로마테라피 간병용품,건강보조식품아로마,의료용품,medi, … 아로마,목용용품아로마테라피, … 네트워크,공유기라우터,랜카드 정규화된상호정보량테이블 연관단어의미그룹1 연관단어의미그룹2 단어“허브” 단어연관그래프 그래프분할 하부군집병합 단어‘허브’의연관단어군집테이블
  • 20. 2007-06-12 20 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 1단계, 2단계 단어1 단어2 빈도수 허브 네트워크 69 … 허브 건강보조 56 허브 아로마 138 … 허브 랜카드 36 … 웹문서 빈도그룹1 빈도그룹2 MI 평균 MI 표준편차 1 1 -0.8268 1.9427 1 2 -0.7239 1.9981 1 3 -0.6954 1.9842 … … … … 2 1 -0.7239 1.9981 2 2 -0.4330 1.9364 … … 단어 빈도수 빈도그룹 네트워크 3523 1 건강보조 748 8 … … … 허브 597 9 아로마 448 12 … … … 랜카드 131 44 기준단어 연관단어 SMI 허브 가정용의료기 2.7697 허브 간병용품 2.9988 허브 건강보조식품 2.4979 허브 공유기 2.3664 허브 네트워크 2.1771 허브 라우터 3.0372 … ... ... 허브 medi 2.4461 단어빈도테이블 동시출현빈도테이블 빈도그룹별평균, 표준편차테이블 정규화된상호정보량테이블
  • 21. 2007-06-12 21 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 3단계: 단어연관그래프구성 • 단어연관그래프Gθ( w ) – 연관단어테이블 • 기준단어w 설정 • 연관도임계치θ설정 – 연관단어간선테이블 기준단어 연관단어 SMI 허브 가정용의료기 2.7697 허브 간병용품 2.9988 허브 건강보조식품 2.4979 허브 공유기 2.3664 허브 네트워크 2.1771 허브 라우터 3.0372 … ... ... 허브 medi 2.4461 가정의료기기 간병용품 medi mall 의료용품 아로마 목욕용품 아로마테라피 공유기 네트워크 랜카드 라우터 건강보조식품 허브 연관단어1 연관단어2 SMI 아로마 의료용품 2.7844 아로마 mall 2.7841 아로마 아로마테라피 2.4687 mall 의료용품 3.5834 mall 간병용품 3.3881 간병용품 아로마 3.3623 … … … 라우터 공유기 2.3881
  • 22. 2007-06-12 22 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 4단계: 단어연관그래프분할 • 단어연관그래프의특성 – 단어는하나이상의의미를가질수있음 • 단어는1개의의미그룹에서는1개의의미만을가짐 • 1개이상의그룹에서나온단어는서로다른의미를가짐(관계성없음) – 단어는다른단어와의연결을통해서의미그룹을형성 • { “삼성”, “소니”, “디지털카메라” } vs { “삼성”, “소니”, “프린터”} • 단어연관그래프분할 – 단어연관그래프: G = ( V, E ), | V | = n – subgraph의최소vertex 크기: MIN_SIZE • |Vi∩ Vj| ≥0, for i ≠ j • | Vi| ≥MIN_SIZE • V1∪V2∪… ∪Vk= V • 중복되는vertex 개수는최소가되어야함
  • 23. 2007-06-12 23 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 단어연관그래프분할 • 단어연관그래프를위한HEM 알고리즘(HEMWRG) 1단계: 연결된vertex끼리묶은가능한모든subgraph 생성(Depth=1) • subgraph 간에는간선무게없음 • 포함한간선의weight의합으로subgraph의weight 계산 2단계: weight가가장큰subgraph부터낮은순으로이동 3단계: weight가가장작은subgraph부터같은vertex를가진subgraph 탐색 • 찾은subgraph의번호로matched 표시 4단계: unmatched 된vertex를가진subgraph 모아연결하기 • 모든vertex가matched 된subgraph는제거 a b d c e f 4 2 1 1 3 3 1 2 b,a,c,f b,e,f a,b,c,d a,b,c,d,e a,d,c,e c,d,e,f 8 2 10 9 9 14 5
  • 24. 2007-06-12 24 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 하부그래프2~7간선무게합: 14.2520 단어연관그래프분할 • 연관도기준단어“허브” –SMI 2.2 이상 가정의료기기 간병용품 medi mall 의료용품 아로마 목욕용품 아로마테라피 공유기 네트워크 랜카드 라우터 건강보조식품 하부그래프1간선무게합: 68.3576 하부그래프8간선무게합: 60.5544 하부그래프11간선무게합: 7.8032 하부그래프15간선무게합: 7.4993 하부그래프2~7간선무게합: 14.2520 하부그래프2~7간선무게합: 60.5544 하부그래프2~7간선무게합: 14.2520 하부그래프9,10간선무게합: 7.8032 하부그래프14간선무게합: 7.4993 하부그래프13간선무게합: 7.4997 하부그래프12간선무게합: 7.4997
  • 25. 2007-06-12 25 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 5단계: 연관단어클러스터링 • 연관도기준단어“허브” –SMI 2.1 이상, TSIM> 0.7 허브 RI*RC1.5= 0.2215(RI=0.2357,RC=0.9595 ) RI*RC1.5= 0.9604(RI=0.9839 ,RC = 0.9839 ) RI*RC1.5= 0(RI=0.0,RC=0.0 ) 가정의료기기 간병용품 medi mall 의료용품 아로마 건강보조식품 1 공유기 네트워크 라우터 4 목욕용품 아로마테라피 아로마 2 공유기 네트워크 랜카드 3 RI*RC1.5= 0(RI=0.0,RC=0.0 )
  • 26. 2007-06-12 26 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 6단계: 최적의군집결과선정 • 단어연관그래프에서의S_Dbw 활용: S_DbwWRG – Density 정의 • 그래프의Vertex 간연결간선의무게합x 완전연결에대한비율 – 군집적합도인덱스 • Inter-Cluster Density: 군집사이의간선밀도의평균, 낮을수록좋음 • Intra-Cluster Variance: 군집의간선평균밀도에대한전체간선밀도의비율, 낮을수록좋음 Σ= − = || 1)1( 2)( EkkwnnGdensityΣΣ= ≠ =      − = cicjijjiijWRGGdensityGdensityGdensityccbwDens11)}(),(max{ )( )1( 1_       =Σ= cGdensityGdensityScatciiWRG1)( /)( c는군집의개수
  • 27. 2007-06-12 27 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 6단계: 최적의군집결과선정 C1 C2 C3 G1,2 G1,3 G2,3 a c d e b h f g i 3 2 1 2 1 3 C1 C2 C3 S G1 G2 G3 density(G1)=1.1 density(G2)=0.7 density(G3)=0.8 density(G)=0.5 (가) 그래프G의Dens_bwWRG (나) 그래프G의ScatWRG 기준단어 병합임계치 군집수 Dens_bw Scat S_Dbw 허브 0.1 3 0.0000 0.2539 0.2539 0.2 4 0.0580 0.2444 0.3024 0.3 4 0.0580 0.2444 0.3024 0.4 5 0.0621 0.1889 0.2510 0.5 5 0.0621 0.1889 0.2510 0.6 5 0.0621 0.1889 0.2510 0.7 5 0.0621 0.1889 0.2510 0.8 6 0.1076 0.1763 0.2839 0.9 6 0.1076 0.1763 0.2839 1 6 0.1076 0.1763 0.2839
  • 28. 2007-06-12 28 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 실험데이터 • 원본데이터 – 내용: 웹사이트설명문 • 실험데이터 – 단어군상위10,000개선정(최상위30개단어제외) – 동시출현단어쌍개수: 2,276,992개 단어 빈도 빈도순위 제공 86,029 1 소개 84,046 2 안내 48,756 3 수록 46,673 4 전문 46,585 5 판매 43,087 6 정보 36,578 7 관련 26,662 8 위치 26,027 9 서비스 21,660 10 … … … 원본데이터 실험데이터 백분율 문서수 477,449 470,391 98.52% 단어수 425,099 10,000 2.35% 총레코드수 5,326,060 2,544,131 47.77% 최상위빈도30개단어제외 데이터비교 ※ 두단어쌍테이블크기: 2,276,992 rows
  • 29. 2007-06-12 29 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 평가방법 • 군집알고리즘비교대상(클레멘타인참조) – K-평균군집알고리즘 – Two Step – Anomaly Detection • 평가데이터 – 중의성을가진단어30개, SMI 2.1 이상의연관단어 • 연관단어군집의결과평가 – 응용시스템의만족도조사 – 의미태깅된평가데이터사용 대출, 양식, 배낭, 이전, 스포츠, 자동차, 렌탈, 포인트, 가사, 시공 도서, 지원, 보안, TV, 전략, 기술, 신청, 단체, 용품, 포장, 레이져, 재생, 등…
  • 30. 2007-06-12 30 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 결과및평가 자동차 기아자동차 명차 기아 대우자동차 마티즈 칼로스 차량관리 신차 … 보트 비행기 헬기 rc 프라모델 모형 요금표 장기대여 차종 고속도로 편의시설 휴게소 도로안내 휴식공간 고무부품 부품 joint hose 서스펜션 배기 튜닝 에어댐 시트 타이어 경정비 구조변경 • 기준단어: 자동차 – 연관단어선정: SMI > 2.1 (연관단어71개, 간선119개) – 그래프분할: MIN_SIZE ≥ 3(하부군집18개) – 군집병합: TSIM> 1.0 – 군집선별: TD> 3.0 Density=6.4030 Density=6.6675 Density=7.0744 Density=4.1253 Density=2.0325 Density=1.5840
  • 31. 2007-06-12 31 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 향후연구과제 • 실제뉴스데이터로재실험 – 각단계별임계치의민감도분석 – Similarity based Clustering 병행: Cosine 유사도등… • 단어특성별군집분석 – TF.IDF 사용 – Confidence, Lift 사용 • 어휘사전의자동구축 – Topic 별연결 – 상, 하위범주별구축 – 시간대별이슈변화연결 • 텍스트마이닝의요소기술화
  • 32. 2007-06-12 32 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 응용분야-#1. 이슈별, 시간별
  • 33. 2007-06-12 33 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 응용분야-#2. 독자반응별
  • 34. 2007-06-12 34 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 응용분야-#3. 시소러스별
  • 35. 2007-06-12 35 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 참고문헌 [ 1 ] 강신재, “온톨로지구축및단어의미중의성해소에의활용”, 컴퓨터연구정보센터, 2004 [ 2 ] 이승우, 이근배, “국소문맥과공기정보를이용한비교사학습방식의명사의미중의성해소”, 컴퓨터연구정보센터, 2000 [ 3 ] 허준희, 최준혁, 이정현, 김중배, 임기욱, “문서의주제어별가중치부여와단어군집을이용한한국어문서자동분류시스템”, 컴퓨터연구정보센터, 2001 [ 4 ] 김희수, 최익규, 김민구, “개념간관계의추출과명명을위한통계적접근방법” [ 5 ] 박흠, 권혁철, “웹문서클러스터링에서의자질필터링방법” [ 6 ] T. Sugimachi, A Ishino, M. Takeda, F. Matsuo, "A Method of Extracting Related Words Using Standardized Mutual Information“ [ 7 ] Han. Kamber, "Data Mining -Concepts and Techniques" p.413~443 [ 8 ] George Karypis, Eui-Hong (Sam) Han, Vipin Kumar, "CHAMELEON: A Hierachical Clustering Algorithm Using Dynamic Modeling" [ 9 ] George Karypis, Vipin Kumar, "Multievel k-way Paritioning Scheme for Irregular Graphs" [10] Y. Matsuo, M. Ishizuka, "Keyword Extraction from A Single Document using Word Co-Occurrence Statistical Information", World Scientific Publishing (2004)
  • 36. 2007-06-12 36 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 참고문헌 [11] Dawn Lawrie, W. Bruce Crofit, “Discovering and Comparing Topic Heirarchies”, In Proceedings of RIAD2000 conference, pp.314-330, 2000 [12] Dekang Lin, “Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity”, Association for Computational Linguistics, 1997
  • 37. 2007-06-12 37 단어연관그래프를 이용한 단어 의미의 자동 군집 기법