SlideShare une entreprise Scribd logo
1  sur  23
Word2Vec
- SMD 분석서비스에 기반하여
이찬희
2016. 12. 16
1위: 엄마. 아빠
2위: 국가지도자. 전략가
3위: 기업 CEO
4위: 교사
5위: 상담원
☞ 사람 고유의 표현수단이
중요하게 사용되는 직업
사람 고유의 표현수단
표정
행동
언어
사람의 표현수단을 데이터화 시키려는
노력에는 어떤 것이 있을까?
컴퓨터가 어떻게 언어를 인식할 수 있을까?
표정, 음성 -> 감정이 담긴 표정들과 비교
동작 -> 하드웨어의 인식
언어 -> *벡터공간과 개별 벡터*
*Word Embedding*
단어를 표현하는데 드는 벡터공간보다
보다 저차원의 벡터공간으로
표현하는 방법을 총칭
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec
Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다
Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram
Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多
Word2Vec이 제시한 두 가지 알고리즘 - 예제
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘
Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음
Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
Source Data
: Buzzword in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
삼성전자, 2015년
4분기 실적발표
…
4분기는 CE부문을 중심으
로 매출은 다소 증가했지만,
…,
부품사업을 중심으로 영업
이익이 감소했다.
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소, 증가하다
+ <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
Buzzword WordCount
2015년 1
4분기 2
실적발표 1
…
매출
부품사업 1
영업이익 1
Pattern
Sent
Score
CE부문 + 매출 + 증가하다 +1
부품사업 + 영업이익 + 감소하다 -1
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
※ 이 데이터를 사용
Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지
Word2Vec 활용과정
1. Buzzword의 등장 순서 원복
2. Word2Vec 모델 구축
3. 클러스터링 알고리즘 적용
4. UI 붙이기
결과 1. 관련어 검색
• 주어진 단어에 대한 관련단어 검색기능
• 여러 단어를 제공할 수록 사용자가 원하는
결과를 제공할 확률이 높아짐
• 단순히 같은 의미를 가지는 단어만 제공하는
것보다 반의어를 함께 제공할 때 성능이 더
좋음
결과 1. 관련어 검색 - 단어 필터링
기존 상위
버즈워드
주제에 따른
필터링 목록 생성
필터링 이후의
버즈워드
시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
결과 2. 단어 클러스터링
• 벡터화된 단어를 클러스터링
• 클러스터링 알고리즘에 따라 결과가
달라짐
• 많은 단어들을 소수의 클러스터화를
통해 개별 의미가 아닌 Context를 찾
아낼 수 있음
: 즉, 사용자의 이해에 도움
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
12/14 13:00 전체시장 버즈워드 TOP 50
너무 많은 단어들이 등장하기 때문에,
단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써,
사용자의 이해에 보다 도움을 줄 수 있음
Word2Vec 개요 및 활용

Contenu connexe

Tendances

자연어처리 소개
자연어처리 소개자연어처리 소개
자연어처리 소개Jin wook
 
לבי במזרח
לבי במזרחלבי במזרח
לבי במזרחroykariv
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析CROSSHACK, Inc.
 
バージョン管理の断捨離
バージョン管理の断捨離バージョン管理の断捨離
バージョン管理の断捨離Kazushi Kamegawa
 
(독서광) 책 vs 책 - 파이썬 신간 분석
(독서광) 책 vs 책 - 파이썬 신간 분석(독서광) 책 vs 책 - 파이썬 신간 분석
(독서광) 책 vs 책 - 파이썬 신간 분석Jay Park
 
Customizing the Document Library
Customizing the Document LibraryCustomizing the Document Library
Customizing the Document LibraryAlfresco Software
 
Agrupa y vencerás - SEO técnico
Agrupa y vencerás - SEO técnicoAgrupa y vencerás - SEO técnico
Agrupa y vencerás - SEO técnicoLino Uruñuela
 
REST APIに入門する。
REST APIに入門する。REST APIに入門する。
REST APIに入門する。Kazushi Kawamura
 
Software engineer가 되기 위한 여정
Software engineer가 되기 위한 여정Software engineer가 되기 위한 여정
Software engineer가 되기 위한 여정Aree Oh
 
130323 KAIST CS 아주 소소한 진로 설명회
130323 KAIST CS 아주 소소한 진로 설명회130323 KAIST CS 아주 소소한 진로 설명회
130323 KAIST CS 아주 소소한 진로 설명회Yunseok Jang
 
Github codespaces すごく良い。もうこれで 十分なんじゃという話
Github codespaces すごく良い。もうこれで 十分なんじゃという話Github codespaces すごく良い。もうこれで 十分なんじゃという話
Github codespaces すごく良い。もうこれで 十分なんじゃという話xiidec
 
MySQL負荷分散の方法
MySQL負荷分散の方法MySQL負荷分散の方法
MySQL負荷分散の方法佐久本正太
 
How WordPress Themes Work
How WordPress Themes WorkHow WordPress Themes Work
How WordPress Themes WorkHandsOnWP.com
 
Kapacitorでネットワークにおける リアルタイムイベント検出
Kapacitorでネットワークにおけるリアルタイムイベント検出Kapacitorでネットワークにおけるリアルタイムイベント検出
Kapacitorでネットワークにおける リアルタイムイベント検出tetsusat
 
개발자가 되기전 누군가 알려주면 좋았을 모든 것들
개발자가 되기전 누군가 알려주면 좋았을 모든 것들개발자가 되기전 누군가 알려주면 좋았을 모든 것들
개발자가 되기전 누군가 알려주면 좋았을 모든 것들Yu Yongwoo
 
テストとリファクタリングに関する深い方法論 #wewlc_jp
テストとリファクタリングに関する深い方法論 #wewlc_jpテストとリファクタリングに関する深い方法論 #wewlc_jp
テストとリファクタリングに関する深い方法論 #wewlc_jpkyon mm
 
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵소프트웨어 학습 및 자바 웹 개발자 학습 로드맵
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵Javajigi Jaesung
 

Tendances (20)

자연어처리 소개
자연어처리 소개자연어처리 소개
자연어처리 소개
 
לבי במזרח
לבי במזרחלבי במזרח
לבי במזרח
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
Presentation php
Presentation phpPresentation php
Presentation php
 
バージョン管理の断捨離
バージョン管理の断捨離バージョン管理の断捨離
バージョン管理の断捨離
 
Single Page Application
Single Page ApplicationSingle Page Application
Single Page Application
 
(독서광) 책 vs 책 - 파이썬 신간 분석
(독서광) 책 vs 책 - 파이썬 신간 분석(독서광) 책 vs 책 - 파이썬 신간 분석
(독서광) 책 vs 책 - 파이썬 신간 분석
 
Customizing the Document Library
Customizing the Document LibraryCustomizing the Document Library
Customizing the Document Library
 
Agrupa y vencerás - SEO técnico
Agrupa y vencerás - SEO técnicoAgrupa y vencerás - SEO técnico
Agrupa y vencerás - SEO técnico
 
REST APIに入門する。
REST APIに入門する。REST APIに入門する。
REST APIに入門する。
 
Software engineer가 되기 위한 여정
Software engineer가 되기 위한 여정Software engineer가 되기 위한 여정
Software engineer가 되기 위한 여정
 
130323 KAIST CS 아주 소소한 진로 설명회
130323 KAIST CS 아주 소소한 진로 설명회130323 KAIST CS 아주 소소한 진로 설명회
130323 KAIST CS 아주 소소한 진로 설명회
 
Github codespaces すごく良い。もうこれで 十分なんじゃという話
Github codespaces すごく良い。もうこれで 十分なんじゃという話Github codespaces すごく良い。もうこれで 十分なんじゃという話
Github codespaces すごく良い。もうこれで 十分なんじゃという話
 
MySQL負荷分散の方法
MySQL負荷分散の方法MySQL負荷分散の方法
MySQL負荷分散の方法
 
APA style
APA styleAPA style
APA style
 
How WordPress Themes Work
How WordPress Themes WorkHow WordPress Themes Work
How WordPress Themes Work
 
Kapacitorでネットワークにおける リアルタイムイベント検出
Kapacitorでネットワークにおけるリアルタイムイベント検出Kapacitorでネットワークにおけるリアルタイムイベント検出
Kapacitorでネットワークにおける リアルタイムイベント検出
 
개발자가 되기전 누군가 알려주면 좋았을 모든 것들
개발자가 되기전 누군가 알려주면 좋았을 모든 것들개발자가 되기전 누군가 알려주면 좋았을 모든 것들
개발자가 되기전 누군가 알려주면 좋았을 모든 것들
 
テストとリファクタリングに関する深い方法論 #wewlc_jp
テストとリファクタリングに関する深い方法論 #wewlc_jpテストとリファクタリングに関する深い方法論 #wewlc_jp
テストとリファクタリングに関する深い方法論 #wewlc_jp
 
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵소프트웨어 학습 및 자바 웹 개발자 학습 로드맵
소프트웨어 학습 및 자바 웹 개발자 학습 로드맵
 

Similaire à Word2Vec 개요 및 활용

GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representationkeunbong kwak
 
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브민 허
 
Clou(python searh system)
Clou(python searh system)Clou(python searh system)
Clou(python searh system)wowodlr21
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기Donghyun Cho
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기수보 김
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144Darion Kim
 
MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]MongoDB
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5Taejoon Yoo
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)Eunchan Lee
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료Park Sungpil
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030Taejoon Yoo
 
The platform 2011
The platform 2011The platform 2011
The platform 2011NAVER D2
 
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기복연 이
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈HELENA LEE
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회yonsei87
 
EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다이상한모임
 

Similaire à Word2Vec 개요 및 활용 (20)

GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representation
 
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
Clou(python searh system)
Clou(python searh system)Clou(python searh system)
Clou(python searh system)
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
 
[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육
 
MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
The platform 2011
The platform 2011The platform 2011
The platform 2011
 
Ep msession3
Ep msession3Ep msession3
Ep msession3
 
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회
 
EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다
 

Plus de 찬희 이

Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation찬희 이
 
의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser찬희 이
 
mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전찬희 이
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기찬희 이
 
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform찬희 이
 
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation찬희 이
 
은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)찬희 이
 
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)찬희 이
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기찬희 이
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거찬희 이
 
프로젝트용 PC 환경구성 이찬희
프로젝트용 PC 환경구성   이찬희프로젝트용 PC 환경구성   이찬희
프로젝트용 PC 환경구성 이찬희찬희 이
 

Plus de 찬희 이 (11)

Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
 
의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser
 
mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
 
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
 
은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)
 
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
프로젝트용 PC 환경구성 이찬희
프로젝트용 PC 환경구성   이찬희프로젝트용 PC 환경구성   이찬희
프로젝트용 PC 환경구성 이찬희
 

Word2Vec 개요 및 활용

  • 1. Word2Vec - SMD 분석서비스에 기반하여 이찬희 2016. 12. 16
  • 2. 1위: 엄마. 아빠 2위: 국가지도자. 전략가 3위: 기업 CEO 4위: 교사 5위: 상담원 ☞ 사람 고유의 표현수단이 중요하게 사용되는 직업
  • 4. 사람의 표현수단을 데이터화 시키려는 노력에는 어떤 것이 있을까?
  • 5. 컴퓨터가 어떻게 언어를 인식할 수 있을까? 표정, 음성 -> 감정이 담긴 표정들과 비교 동작 -> 하드웨어의 인식 언어 -> *벡터공간과 개별 벡터*
  • 6. *Word Embedding* 단어를 표현하는데 드는 벡터공간보다 보다 저차원의 벡터공간으로 표현하는 방법을 총칭
  • 7. Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks ☞ Word2Vec
  • 8. Word Embedding 구현 알고리즘에 사용되는 기본 가정 Distributional Hypothesis 유사한 분포를 가지는 단어는 유사한 의미를 가진다
  • 9. Word2Vec • Google의 Tomas Mikolov가 이끄는 연구팀이 개발 • Neural Network 기반 Machine Learning 분석모델 • 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환 • 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음 • CBOW, Skip-gram
  • 10. Word2Vec이 제시한 두 가지 알고리즘 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < Skip-gram >< CBOW > 多 1 1 多
  • 11. Word2Vec이 제시한 두 가지 알고리즘 - 예제 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < CBOW > • 주변 단어를 통해 중간에 어떤 단어가 나올지 확 률적 유추를 하는 알고리즘 < Skip-gram > • 한 단어의 주변에 어떤 단어들이 나올지 확률적 유추를 하는 알고리즘
  • 12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가 : CBOW(Continuous Bag-of-Words) vs. Skip-gram 다른 Neural Network 기반 Word Embedding 알고리즘 다른 알고리즘에 비해 Word2Vec 알고리즘들의 성능이 좋았고 Word2Vec의 두 알고리즘 내에서 는 Skip-gram 알고리즘이 문법적, 의미적 면에서 성능이 더 좋았음
  • 13. Source Data : Buzzword Data in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티
  • 14.
  • 15. Source Data : Buzzword in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티 삼성전자, 2015년 4분기 실적발표 … 4분기는 CE부문을 중심으 로 매출은 다소 증가했지만, …, 부품사업을 중심으로 영업 이익이 감소했다. 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> Buzzword WordCount 2015년 1 4분기 2 실적발표 1 … 매출 부품사업 1 영업이익 1 Pattern Sent Score CE부문 + 매출 + 증가하다 +1 부품사업 + 영업이익 + 감소하다 -1 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> ※ 이 데이터를 사용
  • 16. Word2Vec 활용 • 활용한 기술 • 단어의 의미를 벡터로 변환: Word2Vec • 벡터의 클러스터링: K-means 알고리즘 • 사용한 Python 패키지 • 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리 • 'sklearn': K-means 알고리즘을 사용하기 위한 패키지 • 'tkinter': Python GUI 지원 패키지
  • 17. Word2Vec 활용과정 1. Buzzword의 등장 순서 원복 2. Word2Vec 모델 구축 3. 클러스터링 알고리즘 적용 4. UI 붙이기
  • 18. 결과 1. 관련어 검색 • 주어진 단어에 대한 관련단어 검색기능 • 여러 단어를 제공할 수록 사용자가 원하는 결과를 제공할 확률이 높아짐 • 단순히 같은 의미를 가지는 단어만 제공하는 것보다 반의어를 함께 제공할 때 성능이 더 좋음
  • 19. 결과 1. 관련어 검색 - 단어 필터링 기존 상위 버즈워드 주제에 따른 필터링 목록 생성 필터링 이후의 버즈워드 시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
  • 20. 결과 2. 단어 클러스터링 • 벡터화된 단어를 클러스터링 • 클러스터링 알고리즘에 따라 결과가 달라짐 • 많은 단어들을 소수의 클러스터화를 통해 개별 의미가 아닌 Context를 찾 아낼 수 있음 : 즉, 사용자의 이해에 도움
  • 21. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 12/14 13:00 전체시장 버즈워드 TOP 50 너무 많은 단어들이 등장하기 때문에, 단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
  • 22. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써, 사용자의 이해에 보다 도움을 줄 수 있음

Notes de l'éditeur

  1. http://blog.naver.com/wnchany/220672207131
  2. 사실 사람을 비롯한 살아있는 것들이 할 수 있는 것들을 데이터, 컴퓨터가 인식할 수 있게 바꾸는 노력들이 활발히 이루어지고 있다 각 섹션에 기술의 이름을 적을 것