2. 목차
• 1부 : Word2Vec Reproduce
• Hierarchical softmax
• Negative Sampling
• SubSampling
• 2부 : Dynamic Word Cloud reflecting Flow of Time
• What is Dynamic Word Cloud?
• How to Collect Big Data?
3. 팀원 소개
• 장민욱 : 데이터 수집, 응용 아이디어 제시 및 구체화, 기획 담당
• 김범수 : Word2Vec 구현 담당
• 장하진 : 데이터 시각화, 다이나믹스 담당
20. Advanced error propagation
• Resilent back propagation – one of the fastest error propagation
algorithm.
• Partial deravative of error 이 양수 일때
• new weight = old weight * 0.5
• else
• new weight = old weight * 1.2
23. What is Word Cloud?
A word cloud is a graphical representation of word frequency
24. What is Dynamic?
• 목표 : 키워드과 시간축에 따른 동적 Word Cloud 시각화
• 키워드 -> 시간의 흐름에 따른 데이터 시각화(Word Cloud)
• 키워드 데이터라는 가치가 살아있는 생물처럼
• 시간 순서에 따라 단어의 크기와 색이 변화
• Ex) 성장하는 키워드는 빨간 색, 줄어드는 키워드는 파란 색
25. Why and where to use?
• 시간에 따른 트렌드 변화상 분석
• Ex) CNN – 트럼프가 어느 시점을 중심으로 주목받기 시작하였는가?
• 한 주제의 시간에 따른 연관 단어의 변화상 분석
• Ex) Wikipedia – USB와 ThunderBolt는 언제부터 연관되어 언급되기 시작하
였나?
• 과거를 통한 미래의 변화상 예측
28. How to generate Word Cloud
• 1. 데이터 수집 후 월 단위로 학습
• 2. 유저가 Keyword 입력
• 3. 시간대에 따라 동적으로 변화하는 Word Cloud 출력
29. How many?
• 데이터를 얼마나 모을 것인가?
• 정보 검색 시간에 다루었던 55만 건의 문서들
• 목표는 억 단위 Web Pages
30. How to collect Big Data?
• 1번째 제안 : Selinium과 beautifulSoup을 이용한 CNN URL Crawling
- 기사 페이지에는 다른 기사 링크들이 있다.
- 동적으로 URL을 수집하며 분석하는 프로그램을 장시간 돌린다.
- CNN만으로 될까? 태그가 뉴스마다 다르다. 도움이 필요하다.
31. How to collect Big Data?
• 2번째 제안 : Dump 파일을 제공하는 DataSet을 사용하자.
- 대표적으로 Wiki는 한 달에 두 번 dump를 만들고 xml 형식으로 배포한다.
- Dump 파일로 시간대별 학습할 경우, 방향성이 달라진다.
- 이것 또한 빅 데이터일까?
32. How to collect Big Data?
• 3번째 제안 : Google Search Engine API를 이용
- 기간 검색을 사용하여 나오는 본문을 크롤링한다.
- 원하는 기간을 선택할 수 있고 본문을 자동 추출한다.
- 원하는 양과 기간을 선택할 수 있다는 점에서 긍정적
33. How to collect Big Data?
• 4번째 제안 : 공개된 DataSet을 이용
- Carnegie Mellon University에서 제공하는 clueweb09의 경우 09년도 1월-2
월 사이의 십억 web page를 제공
- 이처럼 공개된 데이터셋을 사용하는 방법이 있으나 기간이 제한된다.
34. How to collect Big Data?
• 현재 상황
• Google Search Engine API를 이용하는 3안을 재고
• 4안의 경우 범위와 활용성을 줄이게 될 것
35. Which data for where?
• 시간에 따른 트렌드 변화상 분석
• 일회성인 콘텐츠가 필요하다.
• Ex) Crawling한 뉴스 기사
• Ex) Google Search API
• 한 주제의 시간에 따른 연관 단어의 변화상 분석
• 시간에 따라 누적되는 데이터가 필요하다.
• Ex) Wikipedia Dump