SlideShare une entreprise Scribd logo
1  sur  25
痞客邦PIXNET
Research Team Lead
痞客邦的關鍵字精靈
1
Who am I ?
● Kent Shih (施晨揚)
● 熱愛 Machine Learning & Data Analysis
● 本屆黑客松題目主要設計者之一
https://www.facebook.com/texib
2
關鍵字精靈(PIXBOT) 基本資料
• 出生:2015/12/23 6:03 PM
• 指令:12 道不同指令,以關鍵字分析為主要
功能
• 服務對象:渴望數據資料的同仁們
• 住在哪:PIXinsight 平台
3
What is Keyword ?
摘錄Wikipedia :
Keyword (computer programming), word or identifier that
has a particular meaning
to the programming language
4
文章熱門搜尋關鍵字分析
5
Why We Need ?
UX 部門主管 – 小左
中午看的文章
和晚上看會一樣
嗎 ?
應該不一樣吧?
可以抓幾篇看一
下
Kent
嗯我想想~但有上千篇文章
今晚不用睡了!
6
破千篇的文章早上
中午
晚上
怎麼算出來的呢?
早上下午
文章集
晚上
文章集
比對搜尋
紀錄差異
計算代表
的關鍵字
斷詞處理
8
早上到下午會搜尋的關鍵字
四神湯
下午茶
上引水產
9
下午晚上的搜尋關鍵字
啤酒
夜市
10
現在只要
原本 4000 文章 * 30 秒 = 33 小時
11
議題分析
12
最近有客戶想下尿
布的廣告
Why We Need ?
廣告部門主管
Brick
創作者
都怎麼介紹尿布啊
??
Kent
我們的老婆大人比
較清楚吧!!
總不能跟客戶這麼
說吧 XD
嗯我想想~
13
關聯詞
尿
布
14
相似詞
尿
布
15
相似詞 - 詞向量
皮
卡
丘
17
神奇寶貝 = 皮卡丘
神奇寶貝GO/精靈寶可夢GO] 2016/7/22
正式在日本提供服務&日本橫濱的
皮卡丘手遊台灣精靈寶可夢「Pokémon GO」
18
優像數位媒體科技股份有限公司
PIXNET DIGITAL MEDIA CORPORATION
怎麼算出來的呢?
大量優質文章
100萬篇文章
Top High Quality 2015 Q3 Q4
6.1 億篇文章
High
Quality
Classifier
Ranking
19
怎麼算出來的呢?
Word Embedding
優像數位媒體科技股份有限公司
PIXNET DIGITAL MEDIA CORPORATION
資料前處理 深度學習100 萬篇文章
20
怎麼算出來的呢?
Word2Vec
使用類神網路來產生以下模型:
給予短句中的前文即可預測出下一個
可能會出現的詞
附帶產生的結果
投影層即為詞向量(Word Vector)
我想要去沖繩潛水 潛水
打
球
潛
水
睡
覺
洗
臉
...
21
關聯詞
寶
可
夢
22
熱搜詞組
精靈寶可夢台灣
精靈寶可夢太陽
pokemon寶可夢
任天堂精靈寶可夢
23
廣告部
拿到一筆尿布廣告訂單
24
系統架構
NAS
MySQL
Spark
WorkerWorker Worker
Jieba Server
Gensim Word2Vec
Flask
Jupyter
Scikit
Learn
TensorFlow
Slack Bot
AWS Redshift
25

Contenu connexe

En vedette (6)

Ingles presentacion
Ingles presentacionIngles presentacion
Ingles presentacion
 
#34 the 23-point ux design checklist
#34   the 23-point ux design checklist#34   the 23-point ux design checklist
#34 the 23-point ux design checklist
 
The scope of interaction analytics
The scope of interaction analyticsThe scope of interaction analytics
The scope of interaction analytics
 
資料視覺化 / 数据可视化 Data Visualization
資料視覺化 / 数据可视化 Data Visualization資料視覺化 / 数据可视化 Data Visualization
資料視覺化 / 数据可视化 Data Visualization
 
elumalai_exp
elumalai_expelumalai_exp
elumalai_exp
 
一夜臺北~訂房網站的大數據分析
一夜臺北~訂房網站的大數據分析一夜臺北~訂房網站的大數據分析
一夜臺北~訂房網站的大數據分析
 

Similaire à 痞客邦的關鍵字精靈

網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
基欽 劉
 

Similaire à 痞客邦的關鍵字精靈 (20)

從統計到資料科學
從統計到資料科學從統計到資料科學
從統計到資料科學
 
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
 
漫談台灣機器人 產業&發展
漫談台灣機器人 產業&發展漫談台灣機器人 產業&發展
漫談台灣機器人 產業&發展
 
Kinect for flash新手上路
Kinect for flash新手上路Kinect for flash新手上路
Kinect for flash新手上路
 
從自然語言處理到文字探勘
從自然語言處理到文字探勘從自然語言處理到文字探勘
從自然語言處理到文字探勘
 
資料視覺化 (科智企業股份有限公司 內訓課程)
資料視覺化 (科智企業股份有限公司 內訓課程)資料視覺化 (科智企業股份有限公司 內訓課程)
資料視覺化 (科智企業股份有限公司 內訓課程)
 
智能 Bot 應用情境分享
智能 Bot 應用情境分享智能 Bot 應用情境分享
智能 Bot 應用情境分享
 
12 hrs UX research challenge 2018
12 hrs UX research challenge 201812 hrs UX research challenge 2018
12 hrs UX research challenge 2018
 
Google Cloud Summit BigQuery PIXNET
Google Cloud Summit BigQuery PIXNETGoogle Cloud Summit BigQuery PIXNET
Google Cloud Summit BigQuery PIXNET
 
Towards scrum of scrums
Towards scrum of scrumsTowards scrum of scrums
Towards scrum of scrums
 
HPX台南讀書會-Axure RP基礎課程
HPX台南讀書會-Axure RP基礎課程HPX台南讀書會-Axure RP基礎課程
HPX台南讀書會-Axure RP基礎課程
 
簡報規劃與技巧
簡報規劃與技巧簡報規劃與技巧
簡報規劃與技巧
 
高雄和春資工系-Axure RP基礎課程
高雄和春資工系-Axure RP基礎課程高雄和春資工系-Axure RP基礎課程
高雄和春資工系-Axure RP基礎課程
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf
 
Learn Django With ChatGPT
Learn Django With ChatGPTLearn Django With ChatGPT
Learn Django With ChatGPT
 
暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1
 
为什么比特币是靠谱的?
为什么比特币是靠谱的?为什么比特币是靠谱的?
为什么比特币是靠谱的?
 
Scratch程式教學 第一週
Scratch程式教學 第一週Scratch程式教學 第一週
Scratch程式教學 第一週
 

痞客邦的關鍵字精靈

Notes de l'éditeur

  1. 封面頁
  2. 內頁
  3. 內頁
  4. 內頁
  5. 內頁
  6. 內頁
  7. 分為兩包
  8. 內頁
  9. 老台北人的早午餐 下午茶
  10. 把酒言歡 夜市吃小吃 結論 : 雖然有上千的文章,在短短幾秒內就可以快速得一個關鍵字輪廓
  11. 內頁
  12. 內頁
  13. 網友的搜尋關鍵字 大王尿布 大學同學6 級中年大叔,應該都會假好道相報 Costco 特別便宜要不要大家一起一整箱
  14. 這裡有誰已經當爸爸 or 媽媽 紅屁股如果透氣不夠好 因為這兩張拿到客戶廣告訂單
  15. 將關字做聚類連想
  16. 都是卡通
  17. 擷取文章內容 相對位置
  18. 內頁
  19. 內頁
  20. 內頁
  21. 網友的搜尋關鍵字 大王尿布 Costco 特別便宜,同學們都會邀約一起團購
  22. 大陽版
  23. 透過 AWS Redshfit 服務,上億筆的瀏覽及搜尋