Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
온라인 커뮤니티 상의 게시글에 대해

Louvain method와 클러스터링 기법을 적용한

내부 커뮤니티 성향 탐지 기법

Community Detection Technique for Online Community
u...
1
연구 개요
SNS 와 커뮤니티 게시글에는 현재 사람들의 실제 관심사가 실시간으로 반영되고 있으므로 이
를 분석하여 정부나 기업 등의 조직에서 의사 결정을 내리기 위한 핵심자료로써 사용될 수

있다. 이에 다양한 분석...
2
사용 데이터
• 얼마나 클러스터링이 잘 되었는지는 평가하기 위하여 특정 이슈가 발생한 일자를
선정하여 실험을 진행. 검파 드레스 논란이 이슈가 된 2 월 27 일 데이터를 선정.
• 검파 드레스 논란: 스코틀랜드 출...
3
컨텐츠 기반 분석
• 사용자가 작성한 게시글간의 유사도를 계산하여 비슷한 사
용자들끼리 그룹화
• 최적의 k개의 중심점을 찾아주는 x-means 클러스터링 기법
을 사용
• 각 사용자의 게시글로부터 TF-IDF를 사...
4
• TF-IDF
• 어떤 단어가 특정 문서 내에서 얼마나 중요한지를 나타내는
통계적 가중치
• TF-IDF 를 이용하여 핵심어들을 추출하고 사용자별로 사용한
단어에 대하여 TF-IDF 값을 계산.
• TF-IDF 값...
컨텐츠 기반 분석: 클러스터링
• X-means
• 기존에 널리 알려진 k-means 을 확장하여 향상된 속도와 최적화
된 k 값을 제공.
• 코사인유사도를 측정 기준으로 하여 x-means 클러스터링을 수행.
A, B...
• 커뮤니티의 사용자 간 관계로 만들어진 네트워크 그래프에서 만들어진 서브 네트워크
에 대해, 타 네트워크와의 연결성에 대한 서브 네트워크 내의 연결의 밀도를 나타내는
측정 척도로 아래와 같은 modularity Q 를...
그래프 기반 분석: Model
• Clien 커뮤니티 내의 각 사용자가 하나의 정점이 됨.
• 사용자 u가 사용자 v가 작성한 글 또는 댓글에 댓글을 작성했으면 간선
(u,v)의 가중치에 2 추가.
• v가 작성한 글에...
• u라는 사용자가 v라는 사용자에게 댓글을 n개 달았을 때, n > Count 이상이면 edge (u, v)
생성
• Count가 증가함에 따라 modularity가 증가하다 일정 시점이 되면 감소하는 경향을 보임
•...
• Self edge를 제외: 자신이 작성한 글에 댓글을 작성하는 경우 빈번
• Singleton들을 제외
• Singleton은 modularity가 높아지게 하지만 분석에 있어 실질적 의미가 없음.
• 기존의 모델에...
• 목표: modularity가 최대가 되도록 네트워크 분할
• VD Blondel et al.
Q =
h⌃in + ki,in
2m
⇣⌃tot + ki
2m
⌘2i h⌃in
2m
⇣⌃tot
2m
⌘2 ⇣ ki
2m
⌘2...
중심 사용자 분석:
• Closeness Centrality (근접 중심성)
• 자신과 연결된 모든 노드의 거리를 계산
• Betweeness Centrality (매개 중심성)
• 자신을 지나가는 최단 경로의 수
Cc...
실험 환경
• Python 의 BeautifulSoup 라이브러리를 사용하여 커뮤니티 사이트의 게시
물 정보를 가져와 MongoDB 에 저장.
• Python 한국어 정보처리 패키지인 KoNLPy를 사용하여 각 게시물에...
실험 결과: 컨텐츠 기반 분석
• 최소 n 명(n = 5, 10, 15) 이상의 사용자가 사용한 단어들로
feature 단어를 보정하였으며 3 번의 실험에서 모두 6 개의
클러스터로 나누어짐.
• 2번 클러스터에 드레스...
실험 결과: 그래프 기반 분석
• 2015년 2월 27일의 데이터로 분석한 결과.
• 크기가 큰 정점이 betweenness centrality가 가장 큰 사용자, 외곽선이 두꺼
운 정점이 closeness centra...
결론
온라인 커뮤니티에서 사용자들이 올린 게시글을 수집하여 내
부 커뮤니티를 탐지하는 기법 제안.

그래프 기반과 컨텐츠 기반의 2가지 방법을 교차 사용하여 각
기법이 지닌 단점을 보완.

분석 결과 컨텐츠 기반 기법은...
결론
• DE MEO, Pasquale, et al. “Generalized louvain method for
community detection in large networks”, In: Intelligent Syst...
Prochain SlideShare
Chargement dans…5
×

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법


301 vues

Publié le

오늘날 웹 상의 SNS나 블로그, 커뮤니티를 통해 사람들은 자신의 다양한 관심사와 취향을 드러낸다. 과거에는 데이터의 규모에 비해 부족한 데이터 처리 능력으로 인해 웹 상의 자료에 대한 분석이 충분히 이루어지지 못 했 으나 대용량 데이터 처리 기술과 인프라의 발전으로 기업이나 정부 등 많은 조직들이 데이터 분석을 수행하여 의사 결정에 필요한 핵심 정보를 얻고 있다. 본 논문은 기존에 연구가 활발하게 이루어진 SNS에서의 사용자 분 석이 아닌 온라인 커뮤니티에서의 내부 커뮤니티 탐지 기법을 제안한다. 사용자간의 관계가 명확하게 정해진 SNS와 달리 커뮤니티에서의 사용자 관계를 그래프 기반과 컨텐츠 기반의 두 가지 기법으로 분석함으로써 보다 정확한 커뮤니티 탐지 결과를 얻을 수 있다. 기법의 검증을 위해 국내 커뮤니티 사이트의 데이터를 대상으로 실 험을 수행하였으며 실험 결과 사용자들의 관계 및 게시글 성향에 따라 사용자들의 군집을 분류하는데 성공하였 음을 실험으로 보인다.

Publié dans : Ingénierie
  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법


  1. 1. 온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
 Community Detection Technique for Online Community using Louvain Method and Clustering Technique 김선영 김동현 박상현 박석* 서강대학교 컴퓨터공학과
 데이터베이스 연구실
  2. 2. 1 연구 개요 SNS 와 커뮤니티 게시글에는 현재 사람들의 실제 관심사가 실시간으로 반영되고 있으므로 이 를 분석하여 정부나 기업 등의 조직에서 의사 결정을 내리기 위한 핵심자료로써 사용될 수
 있다. 이에 다양한 분석 시도들이 이루어지고 있으나 다양하게 활용되고 있는 SNS와 달리
 커뮤니티는 사용자간의 관계성이 명시적으로 드러나 있지 않고, 게시글 자체도 구조화되어
 있지 않아 이에 대한 분석이 활발하게 이루어지지 않고 있다.
 
 그러나 커뮤니티 역시 사용자들의 현재 관심사와 특정 사안에 대한 의견을 파악할 수 있는 자료 로써 SNS에 못지않은 잠재적 가치를 지니고 있으므로 분석 기법에 대한 연구가 필요하다. 현재 존재하는 대부분의 커뮤니티 분석 서비스는 분석 대상이 되는 커뮤니티 전체 데이터를 대 상으로 단어 중심의 이슈 트렌딩에 초점을 맞추고 있다. 그러나 위에서도 언급하였듯이 커뮤니 티는 주제에 따라 다양한 내부 커뮤니티들이 형성되어 있으므로 전체 커뮤니티를 대상으로 한 분석으론 각 커뮤니티 내의 오가는 다양한 이슈를 충분히 파악할 수 없다. 제안 연구는 커뮤니티별로 커뮤니티 사용자에 의해 작성된 게시글과 댓글을 수집하여 분석함으 로써 커뮤니티 내부에 존재하는 사용자 그룹과 각 사용자 그룹별 특성 및 영향력 있는 사용자를 파악하는 것을 목표로 한다.
  3. 3. 2 사용 데이터 • 얼마나 클러스터링이 잘 되었는지는 평가하기 위하여 특정 이슈가 발생한 일자를 선정하여 실험을 진행. 검파 드레스 논란이 이슈가 된 2 월 27 일 데이터를 선정. • 검파 드레스 논란: 스코틀랜드 출신 가수 케이틀린 맥네일이 sns 에 올린 사진으 로 보는 사람에 따라서 드레스의 색깔이 다르게 보여서 그 이유 혹은 각자 무슨 색으로 보는가에 관한 글이 지속적으로 많이 올라옴.
  4. 4. 3 컨텐츠 기반 분석 • 사용자가 작성한 게시글간의 유사도를 계산하여 비슷한 사 용자들끼리 그룹화 • 최적의 k개의 중심점을 찾아주는 x-means 클러스터링 기법 을 사용 • 각 사용자의 게시글로부터 TF-IDF를 사용, 적합한 사용자별 대표 키워드를 추출및 특징 사용 1 개요 2 Featrue 선택 3 클러스터링
  5. 5. 4 • TF-IDF • 어떤 단어가 특정 문서 내에서 얼마나 중요한지를 나타내는 통계적 가중치 • TF-IDF 를 이용하여 핵심어들을 추출하고 사용자별로 사용한 단어에 대하여 TF-IDF 값을 계산. • TF-IDF 값이 높은 상위 5000개의 단어 중 m명 이상의 사용 자가 사용한 단어를 뽑아 PCA를 이용하여 200개의 feature 선정. BTF = |D| X j=1 nk,jNTF = BTFi Max{BTF} IDF = log |D| dj : tj 2 dj 컨텐츠 기반 분석 1 개요 2 Featrue 선택 3 클러스터링
  6. 6. 컨텐츠 기반 분석: 클러스터링 • X-means • 기존에 널리 알려진 k-means 을 확장하여 향상된 속도와 최적화 된 k 값을 제공. • 코사인유사도를 측정 기준으로 하여 x-means 클러스터링을 수행. A, B = 두 개의 문서에서 각 feature에 해당하는 단어가 나타난 횟수 벡터
 5 컨텐츠 기반 분석 1 개요 2 Featrue 선택 3 클러스터링
  7. 7. • 커뮤니티의 사용자 간 관계로 만들어진 네트워크 그래프에서 만들어진 서브 네트워크 에 대해, 타 네트워크와의 연결성에 대한 서브 네트워크 내의 연결의 밀도를 나타내는 측정 척도로 아래와 같은 modularity Q 를 정의 • Newman, 2004 Q = 1 2m X vw  Avw kvkw 2m (cv, cw) Avw = ⇢ 1 0 if vertices v and w are connected, otherwise. (cv, cw) = ⇢ 0 1 if vertices v and w are not in the same community otherwise. kv = X w Avw ci : the cluster where the vertex i assignedm = 1 2 X i,j Aij • Modularity 값이 클수록 각 서브 네트워크 내의 연결성은 높고, 외부와의 연결성은 낮다. 6 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석
  8. 8. 그래프 기반 분석: Model • Clien 커뮤니티 내의 각 사용자가 하나의 정점이 됨. • 사용자 u가 사용자 v가 작성한 글 또는 댓글에 댓글을 작성했으면 간선 (u,v)의 가중치에 2 추가. • v가 작성한 글에 작성된 댓글에 댓글을 작성했으면 간선 (u, v)의 가중치 에 1 을 추가. • 2가 추가된 경우는 u, v간의 직접적인 상호작용이고, 1이 추가된 경우는 작 성된 글을 통한 간접적인 상호작용이기 때문에 가중치에 차이를 둠. 7 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석 A, B, C, D: 사용자
  9. 9. • u라는 사용자가 v라는 사용자에게 댓글을 n개 달았을 때, n > Count 이상이면 edge (u, v) 생성 • Count가 증가함에 따라 modularity가 증가하다 일정 시점이 되면 감소하는 경향을 보임 • 발생 빈도가 적은 교류에 대해서는 제외하고 분석하는 것이 performance가 좋으나 약 20회 이상 일어나는 경우 제외하지 않는 것이 좋음 (2014년 12월 데이터에 대해 count가 17일 때 modularity가 가장 높은 값을 보임) 8 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석
  10. 10. • Self edge를 제외: 자신이 작성한 글에 댓글을 작성하는 경우 빈번 • Singleton들을 제외 • Singleton은 modularity가 높아지게 하지만 분석에 있어 실질적 의미가 없음. • 기존의 모델에서 singleton과 self edge를 제외한 후 다시 계산한 modularity 를 보면 제외한 경우가 제외하지 않은 경우보다 좋은 결과를 나타냄 9 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석
  11. 11. • 목표: modularity가 최대가 되도록 네트워크 분할 • VD Blondel et al. Q = h⌃in + ki,in 2m ⇣⌃tot + ki 2m ⌘2i h⌃in 2m ⇣⌃tot 2m ⌘2 ⇣ ki 2m ⌘2i 10 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석
  12. 12. 중심 사용자 분석: • Closeness Centrality (근접 중심성) • 자신과 연결된 모든 노드의 거리를 계산 • Betweeness Centrality (매개 중심성) • 자신을 지나가는 최단 경로의 수 Cc(Pk) = h nX i=1 d(Pi, Pk) i 1 CB(Pk) = h X s6=v6=t2V (v) st i 1 11 1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석
  13. 13. 실험 환경 • Python 의 BeautifulSoup 라이브러리를 사용하여 커뮤니티 사이트의 게시 물 정보를 가져와 MongoDB 에 저장. • Python 한국어 정보처리 패키지인 KoNLPy를 사용하여 각 게시물에 등장 하는 단어를 형태소 분석 및 추출. 단어의 등장 횟수를 카운트하여 업데이 트. • 데이터는 인터넷 커뮤니티 사이트 Clien의 2014 년 12 월 데이터를 수집하 여 사용. 12 데이터 처리
  14. 14. 실험 결과: 컨텐츠 기반 분석 • 최소 n 명(n = 5, 10, 15) 이상의 사용자가 사용한 단어들로 feature 단어를 보정하였으며 3 번의 실험에서 모두 6 개의 클러스터로 나누어짐. • 2번 클러스터에 드레스 이슈에 관련된 단어들이 몰려 있음 을 확인. • 가장 엄밀하게 평가한 n의 값이 15인 경우에도 2번 클러스터 에 드레스 논란에 관련된 단어 (검, 사진, 색, 옷, 화골, 드레 스, 눈, 흰색, 파, 골드, 논란, 검정, 화이트, 느낌, 경우, 파란 색, 검파, 파랑, 조명, 금색, 빛)를 사용한 사용자들이 높은 빈 도로 등장. 13 실험 결과 1 컨텐츠 기반 분석 2 그래프 기반 분석
  15. 15. 실험 결과: 그래프 기반 분석 • 2015년 2월 27일의 데이터로 분석한 결과. • 크기가 큰 정점이 betweenness centrality가 가장 큰 사용자, 외곽선이 두꺼 운 정점이 closeness centrality가 가장 큰 사용자. 사용자 수 Betweenness 중심 Closeness 중심 37 두둠칫님 종삼님 35 리트님 Darth Vader님 34 외선님 외선님 31 PARALLEL님 PARALLEL님 29 타락천사님 타락천사님 28 고구미세트님 고구미세트님 23 일격에주님곁님 일격에주님곁님 21 류시화님 볼빨간복숭아님 21 SAVIESA님 SAVIESA님 21 스퀴니님 스퀴니님 20 Nabesna님 Nabesna님 20 Myayu님 Myayu님 15 칼킨님 칼킨님 11 클리양님 앗싸가오리님 14 실험 결과 1 컨텐츠 기반 분석 2 그래프 기반 분석
  16. 16. 결론 온라인 커뮤니티에서 사용자들이 올린 게시글을 수집하여 내 부 커뮤니티를 탐지하는 기법 제안.
 그래프 기반과 컨텐츠 기반의 2가지 방법을 교차 사용하여 각 기법이 지닌 단점을 보완.
 분석 결과 컨텐츠 기반 기법은 특정 일에 이슈가 되었던 화제와 해당 화제를 주로 언급한 사용자의 그룹을 분석하는데 성공하 였으며, 그래프 기반의 경우 사용자들의 관계를 파악하였음.
 
 향후 일정 시간대동안의 변화 상황을 반영하여 동적인 커뮤니 티 탐지를 수행할 계획. 15 결론
  17. 17. 결론 • DE MEO, Pasquale, et al. “Generalized louvain method for community detection in large networks”, In: Intelligent Systems Design and Applications (ISDA), 2011. p. 88-93.
 • AYNAUD, Thomas, GUILLAUME, J.-L, “Static community detection algorithms for evolving networks. In: Modeling and Optimization in Mobile”, Ad Hoc and Wireless Networks (WiOpt), 2010. p. 513-519 • M. E. J. Newman and M. Girvan, Finding and evaluating community structure in networks. Phys. Rev. E 69, 026113, 2004 • VD Blondel et al. Fast unfolding of communities in large networks, 2008 16 References

×