SlideShare une entreprise Scribd logo
1  sur  59
大數據下的情緒分析
清華大學資工系 陳宜欣
Hello!
我是陳宜欣
目前在清華大學資訊工程系任教
智慧型資料工程與應用實驗室
(IDEA Lab)
You can find me at:
yishin@gmail.com
2
在 多元價值很重要
More than 50 % students come from other countries
Belize
France
St Lucia
Honduras
India China
Japan
Taiwan
Indonesia
São Tomé
3
1.
Why Emotion Analysis
There are few personal reasons
4
“I don’t understand woman!! Their
words are very vague and ambiguous”
From Carlos Argueta, my first foreign Ph.D. graduate
He’s the one to select the topic of sentiment analysis.
And the first suffering from depression in our lab
5
其實小孩也很難懂
寶寶心裡有苦,可是寶寶不會說
6
2.
情緒分析
先來看看大部份的處理方式是什麼
7
自然語言處理法
▷分析字的詞性
▷了解字的意義
▷了解字詞間的關聯
 需要蒐集辭典與標記過的字詞關聯
 字詞間的關聯還會被相對位置影響
 換個語言就要重新蒐集一次
This is the best thing happened in my life.
冠詞 冠詞 名詞名詞 所有詞介詞動詞 動詞形容詞
太難了!
8
資料探勘/機器學習法
▷蒐集大量的資料
▷人工標記訓練資料
▷利用資料探勘/機器學習法分析資料
 換個語言就要重新蒐集人工標記資料
 實際資料符合人工標記特色的比例偏低
(<<25%) 能不能
更簡單
一點?
9
3.
從經驗中學習
現實和理想的差距
10
情緒是許多小細節的累積
▷過去的方法卻容易忽略小細節
• Stop Words是第一批被拿掉的細節
→如:常常、在、之上
• 所有格、冠詞也容易被忽略
• 大部分的名詞可能也會被拿掉
你總是在學校吃零食
😒 生氣
😂 哭哭
👶 開心
11
情緒張力強的人更容易犯錯
▷到處都是錯字
• 有些字是不小心的
→例如: Luve you
• 有些字是故意犯錯的
→例如: I’m soooooooo happppppy
▷字典通常只記載對的字
• 錯誤怎麼標記?
→ 所需人工標記數量超出團隊預算
12
孩子是
我們的
老師
一個媽媽的喃喃自語
▷我家一歲小孩是怎麼判斷我在生氣?
• 沒讓孩子看到臉
• 也沒更改說話的語調
• 為什麼小孩通常都是對的?
▷我猜
• 一歲的孩子還不懂語法
• 一歲的孩子還沒背過詞典
• 媽媽生氣的時候應該是詞不達義的
所以,
目標是:
多語系
13
4.
克服限制
研究經費不足
14
Free Resources
▷免費數據
• 不管公網、私網,能合法下載的資料都是好物
▷Open source software
15
慢活哲學
▷學生速度都『比較』慢
▷所以絕對不能做人家都在做的事情
• 做違反學術常理的事情
No POS Tagging
No dictionary
Multilingual
😱
Failure Success
16
POS Tagging
Multiple dictionaries
One language
團體戰
▷實作組
• 寫程式
• 還是寫程式
▷天馬行空組
• 看論文
• 構思想法
▷嘴炮組
• 寫論文
• 產生投影片
▷無名英雄組
17
Crowdsourcing
Merriam-Webster: Obtaining needed services, ideas, or
content by soliciting contributions from a large group of
people, especially an online community
花錢
18
Subconscious Crowdsourcing
▷群眾的潛意識智慧
• 免費
• 從人們的日常紀錄中,擷取共同潛意識
→Ex1: “computers/companies/product-
support/apple” in delicious tag
→Ex2: “鹿茸 馬”, “馬卡茸”, “水母” in search log
→Ex3: “School day again #sad” in Twitter
Chun-Hao Chang, Elvis Saravia and Yi-Shin Chen, Subconscious Crowdsourcing: A Feasible Data Collection
Mechanism for Mental Disorder Detection on Social Media, The 2016 IEEE/ACM International Conference on
Advances in Social Networks Analysis and Mining (ASONAM 2016), San Francisco, CA, USA, 18 - 21 August, 2016
19
5.
案例1:判別文字中的情緒
利用潛意識的情緒用字
20
潛意識情緒大資料
▷Twitter, 目前最容易大量下載的資料
Throwing my phone always calms me down #anger
My sister always makes things look much more worse than they seem >:[ #anger
Why my brother always crabby !?!? #rude #youranadult #anger #issues
WHY DOES MY COMPUTER ALWAYS FREEZE??? NEVER FAILS. #anger
Im wanna crazy,if my life always sucks like this. #anger
Hashtag和表情符號最能標註情緒,所以可以當成人工標記的答案
21
潛意識情緒資料
22
潛意識情緒資料
23
潛意識情緒資料 等等!
還要有
對照組
24
非情緒資料
25
非情緒資料
26
非情緒資料
27
資料蒐集後的前處理
▷重點:拿掉麻煩的、不會處理的
o Too short
→ 短到拿不到特徵
o Contain too many hashtags
→ 資訊太多很難處理
o Are retweets
→ 會增加計算複雜度
o Have URLs
→ 還要再抓一次資料,這樣太累了
o Convert user mentions to <usermention> and
hashtags to <hashtag>
→ 消去識別碼, 不能偷看答案
反正是
大數據
28
處理原則
▷找出『實驗組』和『對照組』的相同、相異處
• 分析字詞出現的頻率
→ TF•IDF (Term frequency, inverse document frequency)
• 分析字詞互相伴隨出現的頻率
→ Co-occurrence
• 比較字詞間的重要關係程度
→ Centrality Graph
29
Graph Construction
▷建立兩種圖(情緒圖 & 非情緒圖)
• E.g.
→情緒文字:I love the World of Warcraft new game 
→ 非情緒文字: 3,000 killed in the world by ebola
I
of
Warcraft
new
game
WorldLove
the
0.9
0.84
0.65
0.12
0.12
0.53
0.67

0.45
3,000
world
by
ebola
the
killed in
0.49
0.87
0.93
0.83
0.55
0.25 30
圖型處理
▷將兩種圖型相同的地方剔除
• 留下情緒圖才有的特徵
▷接下來分析哪些字是所謂的中心點
• Betweenness, Closeness, Eigenvector, Degree, Katz
→ 都有免費軟體可以使用, e.g, Gaphi, GraphDB
▷再分析哪一些字常一起被使用
• Clustering Coefficient
Graph重要
字詞
31
去蕪存菁
留下圖型中的重要字詞
→重組成情緒特徵
32
情緒特徵排序
▷ 將情緒特徵排序
• 根據頻率、情緒專屬性、多元性
• 每一種情緒都有專屬的特徵排序
悲傷快樂 生氣
33
情緒特徵結果抽樣
悲傷快樂 生氣
finally * my
tomorrow !!! *
<hashtag> birthday .+
* yay !
:) * !
princess *
* hehe
prom dress *
memories *
* without my
sucks * <hashtag>
* tonight :(
* anymore ..
felt so *
. :( *
* :((
my * always
shut the *
teachers *
people say *
-.- *
understand why *
why are *
with these *
34
情緒分類正確率
35
Naïve Bayes SVM NRCWE Our Approach
English 81.90% 76.60% 35.40% 81.20%
Spanish 70.00% 52.00% 0.00% 80.00%
French 72.00% 61.00% 0.00% 84.00%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
Accuracy
使用情緒
詞典
無情緒詞典
商品喜好分析
36
商品喜好分析
37
5.
案例2:判別個人的情緒狀態
誰有躁鬱症?邊緣性人格障礙?
38
蒐集病患大資料
39
支援性團體
蒐集病患大資料
40
粉絲
蒐集病患大資料
41
蒐集病患大資料
42
蒐集病患大資料
43
接下來
蒐集對
照組
蒐集正常人大資料
44
蒐集正常人大資料
45
蒐集正常人大資料
46
處理原則
▷找出『實驗組』和『對照組』的相同、相異處
• 分析字詞出現的頻率
• 分析情緒資料(如:切換頻率、情緒出現頻率)
• 分析人際互動資料(如:跟朋友互動比例、轉文比例)
• 分析生活習慣(如:上網時間、熬夜與否)
• 分析性別、年齡
47
特徵
利用分類演算法
▷ 將特徵值送進分類法學習
▷ Various classifiers
• Neural Networks
• Naïve Bayes and Bayesian Belief Networks
• Support Vector Machines
• Random forest
48
測試結果
49
可能應用
50
可能應用
51
可能應用
52
可能應用
53
可能應用
54
選舉情蒐網?
55
選舉情蒐網?
56
選舉情蒐網?
57
選舉情蒐網?
58
More in the future…
Thank you.
Contact me at:
yishin@gmail.com

Contenu connexe

En vedette

En vedette (13)

2016 datascience emotion analysis - english version
2016 datascience emotion analysis - english version2016 datascience emotion analysis - english version
2016 datascience emotion analysis - english version
 
TAAI 2016 Keynote Talk: Intercultural Collaboration as a Multi‐Agent System
TAAI 2016 Keynote Talk: Intercultural Collaboration as a Multi‐Agent SystemTAAI 2016 Keynote Talk: Intercultural Collaboration as a Multi‐Agent System
TAAI 2016 Keynote Talk: Intercultural Collaboration as a Multi‐Agent System
 
照海華德福教育簡介
照海華德福教育簡介照海華德福教育簡介
照海華德福教育簡介
 
HUMAN PATHOGENIC ANTIMICROBIAL ACTIVITY AND GC-MS ANALYSIS OF CARALLUMA TRUNC...
HUMAN PATHOGENIC ANTIMICROBIAL ACTIVITY AND GC-MS ANALYSIS OF CARALLUMA TRUNC...HUMAN PATHOGENIC ANTIMICROBIAL ACTIVITY AND GC-MS ANALYSIS OF CARALLUMA TRUNC...
HUMAN PATHOGENIC ANTIMICROBIAL ACTIVITY AND GC-MS ANALYSIS OF CARALLUMA TRUNC...
 
Pušenje kao oblik zavisnosti
Pušenje kao oblik zavisnostiPušenje kao oblik zavisnosti
Pušenje kao oblik zavisnosti
 
Investigadores con éxito comercial
Investigadores con éxito comercialInvestigadores con éxito comercial
Investigadores con éxito comercial
 
The Anglo-Saxon Age and Beowulf
The Anglo-Saxon Age and BeowulfThe Anglo-Saxon Age and Beowulf
The Anglo-Saxon Age and Beowulf
 
ON SEMI-  -CONTINUITY WHERE   {L, M, R, S}
ON SEMI-  -CONTINUITY WHERE   {L, M, R, S}ON SEMI-  -CONTINUITY WHERE   {L, M, R, S}
ON SEMI-  -CONTINUITY WHERE   {L, M, R, S}
 
FLOOD ROUTING WITH REAL-TIME METHOD FOR FLASH FLOOD FORECASTING IN THE PLAIN ...
FLOOD ROUTING WITH REAL-TIME METHOD FOR FLASH FLOOD FORECASTING IN THE PLAIN ...FLOOD ROUTING WITH REAL-TIME METHOD FOR FLASH FLOOD FORECASTING IN THE PLAIN ...
FLOOD ROUTING WITH REAL-TIME METHOD FOR FLASH FLOOD FORECASTING IN THE PLAIN ...
 
Edu 639 entire course
Edu 639 entire courseEdu 639 entire course
Edu 639 entire course
 
Vitamins
VitaminsVitamins
Vitamins
 
Bar modelingmult&divmultistep
Bar modelingmult&divmultistepBar modelingmult&divmultistep
Bar modelingmult&divmultistep
 
About the Blog
About the BlogAbout the Blog
About the Blog
 

Similaire à 大數據下的情緒分析

主管學-溝通-詹翔霖教授
主管學-溝通-詹翔霖教授主管學-溝通-詹翔霖教授
主管學-溝通-詹翔霖教授文化大學
 
人格特質自我潛能激發 詹翔霖教授-991130
人格特質自我潛能激發 詹翔霖教授-991130人格特質自我潛能激發 詹翔霖教授-991130
人格特質自我潛能激發 詹翔霖教授-991130文化大學
 
職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家文化大學
 
職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家文化大學
 
人際溝通及情緒管理技巧-詹翔霖教授
人際溝通及情緒管理技巧-詹翔霖教授人際溝通及情緒管理技巧-詹翔霖教授
人際溝通及情緒管理技巧-詹翔霖教授文化大學
 
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授文化大學
 
有效的教學簡報技巧
有效的教學簡報技巧有效的教學簡報技巧
有效的教學簡報技巧林 稚蓉
 
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱naoleiying
 
人格特質自我潛能激發 詹翔霖
人格特質自我潛能激發 詹翔霖人格特質自我潛能激發 詹翔霖
人格特質自我潛能激發 詹翔霖文化大學
 
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授文化大學
 
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授文化大學
 
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授文化大學
 
20120329 如何自我行銷創造價值
20120329 如何自我行銷創造價值20120329 如何自我行銷創造價值
20120329 如何自我行銷創造價值LIN JACK
 
破解優質溝通力密碼
破解優質溝通力密碼破解優質溝通力密碼
破解優質溝通力密碼LIN JACK
 
溝通技巧(詹翔霖教授)
 溝通技巧(詹翔霖教授) 溝通技巧(詹翔霖教授)
溝通技巧(詹翔霖教授)文化大學
 
人際溝通-領袖精英培力營1024-詹翔霖教授
人際溝通-領袖精英培力營1024-詹翔霖教授人際溝通-領袖精英培力營1024-詹翔霖教授
人際溝通-領袖精英培力營1024-詹翔霖教授文化大學
 
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授文化大學
 
6thinking hats
6thinking hats6thinking hats
6thinking hatscnf03417
 
溝通-980920 高雄師範大學-詹翔霖教授
溝通-980920 高雄師範大學-詹翔霖教授溝通-980920 高雄師範大學-詹翔霖教授
溝通-980920 高雄師範大學-詹翔霖教授文化大學
 

Similaire à 大數據下的情緒分析 (20)

主管學-溝通-詹翔霖教授
主管學-溝通-詹翔霖教授主管學-溝通-詹翔霖教授
主管學-溝通-詹翔霖教授
 
人格特質自我潛能激發 詹翔霖教授-991130
人格特質自我潛能激發 詹翔霖教授-991130人格特質自我潛能激發 詹翔霖教授-991130
人格特質自我潛能激發 詹翔霖教授-991130
 
職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家
 
職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家職場與職務認知溝通-b1--詹翔霖教授-護理之家
職場與職務認知溝通-b1--詹翔霖教授-護理之家
 
人際溝通及情緒管理技巧-詹翔霖教授
人際溝通及情緒管理技巧-詹翔霖教授人際溝通及情緒管理技巧-詹翔霖教授
人際溝通及情緒管理技巧-詹翔霖教授
 
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授
100.07.16 聯發生技-人際溝通及情緒管理技巧-詹翔霖教授
 
如何做好面談工作
如何做好面談工作如何做好面談工作
如何做好面談工作
 
有效的教學簡報技巧
有效的教學簡報技巧有效的教學簡報技巧
有效的教學簡報技巧
 
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱
【赵晗职业规划 Mbti系列】寻找“合得来”的工作:与工作谈一场恋爱
 
人格特質自我潛能激發 詹翔霖
人格特質自我潛能激發 詹翔霖人格特質自我潛能激發 詹翔霖
人格特質自我潛能激發 詹翔霖
 
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授
104.12.02 工作夥伴關係與衝突解決-b3-1-嘉義大學-詹翔霖教授
 
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授
別鬧了!--掌握孩子情緒並不難-990507 復興國小-詹翔霖教授
 
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授
職場人際關係-行政院國軍退除役官兵輔導委員會雲林縣-詹翔霖教授
 
20120329 如何自我行銷創造價值
20120329 如何自我行銷創造價值20120329 如何自我行銷創造價值
20120329 如何自我行銷創造價值
 
破解優質溝通力密碼
破解優質溝通力密碼破解優質溝通力密碼
破解優質溝通力密碼
 
溝通技巧(詹翔霖教授)
 溝通技巧(詹翔霖教授) 溝通技巧(詹翔霖教授)
溝通技巧(詹翔霖教授)
 
人際溝通-領袖精英培力營1024-詹翔霖教授
人際溝通-領袖精英培力營1024-詹翔霖教授人際溝通-領袖精英培力營1024-詹翔霖教授
人際溝通-領袖精英培力營1024-詹翔霖教授
 
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授
105.12.08 工作夥伴關係與衝突解決-b3-1-嘉義-詹翔霖教授
 
6thinking hats
6thinking hats6thinking hats
6thinking hats
 
溝通-980920 高雄師範大學-詹翔霖教授
溝通-980920 高雄師範大學-詹翔霖教授溝通-980920 高雄師範大學-詹翔霖教授
溝通-980920 高雄師範大學-詹翔霖教授
 

Plus de Yi-Shin Chen

從自然語言處理到文字探勘
從自然語言處理到文字探勘從自然語言處理到文字探勘
從自然語言處理到文字探勘Yi-Shin Chen
 
從人工智慧反思教育現場
從人工智慧反思教育現場從人工智慧反思教育現場
從人工智慧反思教育現場Yi-Shin Chen
 
From NLP to text mining
From NLP to text mining From NLP to text mining
From NLP to text mining Yi-Shin Chen
 
照海華德福教育簡介
照海華德福教育簡介照海華德福教育簡介
照海華德福教育簡介Yi-Shin Chen
 
新竹實驗教育的新契機
新竹實驗教育的新契機新竹實驗教育的新契機
新竹實驗教育的新契機Yi-Shin Chen
 
Examples of working with streaming data
Examples of working with streaming dataExamples of working with streaming data
Examples of working with streaming dataYi-Shin Chen
 
2017 ncu experience sharing
2017 ncu experience sharing2017 ncu experience sharing
2017 ncu experience sharingYi-Shin Chen
 

Plus de Yi-Shin Chen (7)

從自然語言處理到文字探勘
從自然語言處理到文字探勘從自然語言處理到文字探勘
從自然語言處理到文字探勘
 
從人工智慧反思教育現場
從人工智慧反思教育現場從人工智慧反思教育現場
從人工智慧反思教育現場
 
From NLP to text mining
From NLP to text mining From NLP to text mining
From NLP to text mining
 
照海華德福教育簡介
照海華德福教育簡介照海華德福教育簡介
照海華德福教育簡介
 
新竹實驗教育的新契機
新竹實驗教育的新契機新竹實驗教育的新契機
新竹實驗教育的新契機
 
Examples of working with streaming data
Examples of working with streaming dataExamples of working with streaming data
Examples of working with streaming data
 
2017 ncu experience sharing
2017 ncu experience sharing2017 ncu experience sharing
2017 ncu experience sharing
 

大數據下的情緒分析