SlideShare a Scribd company logo
1 of 51
Download to read offline
Copyright(C)2014 Recruit Technologies Co.,Ltd All rights reserved
検索索基盤Qass  
⾼高林林  貴仁/@tatakaba
16/01/12
〜~  情報検索索の品質と『⾒見見る』検索索品質のハイブリッドエンジンの追求  〜~
ビックデータオールスターズ    
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
2
⾃自⼰己紹介
⾼高林林  貴仁  /  @tatakaba
2011  〜~  リクルート⼊入社
アプリケーションソリューショングループ
Ø 検索索基盤
Ø Hadoop基盤
Ø DWHとCEP
Ø R&D
2004  〜~  2011  ヤフージャパン株式会社
Ø 主に検索索システム担当
Ø web,地図,local検索索等
Ø WPO(Web  Performance  
Optimization)
プレミアムモルツ
⼤大好きです!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
Whatʼ’s  Qass??
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
4
Whatʼ’s  Qass??
l   elasticsearchを軸とした検索索基盤
l   検索索をサポートする機能の提供(FE&BE)
ü   サジェスト
ü   スペラー
ü   関連検索索
ü   リライター
検索索品質、UXを担保する事で、
事業に貢献!!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
5
Architecture
ビックデータ
を活⽤用した
フィードバッ
クシステム
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
6
ビックデータとQass
ログデータを活⽤用したデータ集計基盤
メトリクス/データ集計
indexing/ランキング/辞書
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
7
今⽇日のお話
検索索品質とランキング
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
情報検索索でいう検索索品質とは?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
9
検索索とは
ユーザー求めるドキュメントを抽出
ドキュ
メント
ドキュ
メント
ドキュ
メント
全体のドキュメントから
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
10
極論論をいうと
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
11
「ユーザーの求めていたドキュメント」
のみを抽出する事が可能なら
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
12
最強の検索索エンジン
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
13
それは、無理理〜~
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
14
結果のズレがある
ドキュメント全体
ユーザーが求めていた
ドキュメント
システムの検索索結果
CB A
実際には・・・
要求に答えられた部分
適合率率率 再現率率率
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
15
情報検索索的にいうと
• ユーザーの本来求めていた情報が、
検索索結果に含まれていた割合A:再現率率率
• 検索索結果の内、ユーザーが本来求め
ていた結果が含まれる割合B:適合率率率
• 適合率率率と再現率率率の重み付き調和平
均F値
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
16
式で表現すると
適合率率率=
「検索索結果のドキュメント」数
「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
F値  =
適合率率率
1
1
α +
再現率率率
1
(1  ー  α)
備考:α  =  割合
再現率率率=
「ユーザーの本来求めていたドキュメント」数
「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
17
適合率率率と再現率率率
l 適合率率率を上げれば、再現率率率は下がる
ü   結果を厳選すれば、適合率率率は上がるが、取りこぼ
しが多くなる為、再現率率率は下がる
l 再現率率率を上げれば、適合率率率は下がる
ü   結果を多くすれば、再現率率率は上がるが、ノイズが
多くなる為、適合率率率は下がる
再現率率率と適合率率率は、システムでは
相反しあう傾向
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
18
品質を上げる施策
l 形態素辞書の拡充(新語、略略語、通称地名等)
l クエリ展開(spark  or  (spark    and  apache))
再現率率率の向上施策
l 正規化(髙  =>  ⾼高)
l 表記ゆれ(引っ越し、引越、引越し)
l 同義語・略略語(⽊木村拓拓哉  ==  キムタク)
適合率率率の向上施策
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
19
再現率率率と適合率率率の
バランス良良い⾼高さが重要
検索索品質とは
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
20
検索索品質が  よければいいと
思ってた・・・。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
21
検索索品質だけじゃない
『領領域』もある・・・。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
22
⾮非公開
とあるサイトの禁書⽬目録
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
23
とあるサイトのABテスト結果
ほぼ、有意差なし・・・\(^o^)/
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
24
リクルートの事業領領域
旅⾏行行
IT/トレンド
⽣生活/地域情報
グルメ・美容
ライフスタイル領領域 ライフイベント領領域
進学
就職
結婚
転職
住宅宅購⼊入
⾞車車購⼊入
出産/育児
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
25
ライフスタイルとライブイベント違い
ショッピング、飲⾷食など、決断が軽い。
ある程度度の⽬目安(キーワード)がある
ライフスタイル
ライフイベント
結婚、住宅宅購⼊入など、決断が慎重
⾊色々な結果を⾒見見⽐比べたい
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
26
⼈人⽣生の中で、重要なイベントは、
簡単には決められない事が多い。
悩む・・・
就活
結婚式場どこ
にしよう。
bB買おうかな。
転職したい・・
どんな家がい
いかな。
考えたり、悩んだり、後悔したくない!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
28
ライフイベントにおける
新しい検索索体験
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
『⾒見見る』検索索品質とは?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
30
欲しい(⾒見見たい)情報が離離散してる
ドキュメント全体
『⾒見見る』検索索とは
最終的に
決定する情報
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
31
何かに似てませんか?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
32
32	
情報誌
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
33
情報誌と⾔言えば・・・
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
34
「まだ、ここにない、出会い」  by  リクルート
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
35
そこで、こんなアプローチ
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
36
l   編集者のKKDをモデル化
ü   KKD
ü   情報の整理理
ü ⼈人間味あるいい意味での偶発性
ü   確信を持ったノイズ
雑誌で表現した
ノウハウを検索索に
施策
(勘、経験、度度胸)
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
37
編集者のモデル化
編集者A
商材:A-‐‑‒>D
商材:D-‐‑‒>F
編集者B
商材:A-‐‑‒>C
商材:C-‐‑‒>F
編集者C
商材  :  A-‐‑‒>B
商材  :  B-‐‑‒>C
感性をモデル化して、ランキングに反映
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
38
検索索の品質領領域
旅⾏行行
IT/トレンド
⽣生活/地域情報
グルメ・美容
ライフスタイル領領域 ライフイベント領領域
進学
就職
結婚
転職
住宅宅購⼊入
⾞車車購⼊入
出産/育児
情報検索索の検索索品質 「⾒見見る」検索索品質
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
検索索ランキングの精度度
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
40
検索索結果(上位i件)のランキング順が、
「ユーザー求めたランキング」と、
どの程度度差があるか?
基本的な考え⽅方
NDCG
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
41
スコアリング
現実(DCG) 理理想(IDCG)
l   CTR、CVRなどをベースに理理想のランキングを⽣生成
ü   求めてるドキュメントを上位に
ü   求めてないドキュメントを下位に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
42
NDCGとは
l   現実(DCG)と理理想(IDCG)の差
l   複数のクエリの平均が検索索システムの精度度
検索索結果は、関連性の⾼高い順に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
43
Qassでのランキング例例
ランキングの作成に活⽤用
ü 複数の予測モデルを結合したスコア
l   wは各モデルの重要度度
ü   ジャンルごとの分布
l   xは各モデルの結果  (DBの値から)
ü   キーワードマッチ度度
ü   予測モデル
ü   ctrなどのスコア
質より量量!!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
44
まとめ
l 情報検索索の品質
l 情報誌ならではのだら⾒見見の品質
l 最適なランキング
l ⾊色々な要素を利利⽤用したスコア付け
品質とズレを掛けあわせたハイブリッド検索索
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
45
品質とズレを掛けあわせたハイブリッド検索索基盤
は、⽬目指しています!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
46
現在、@IT様のサイトで、
Qass基盤について連載中!
@it  qass
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
最後に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
48
ちょっとだけ、Sparkのお話
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
49
エンジニアの欲求
Sparkを利利⽤用した
集計基盤にリプレ
イスしてます。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
50
リプレイス内容
l   MapR1.2  =>  MapR4.1へ
l   Sparkを利利⽤用した機械学習
l   バッチからリアルタイムへ
l Spark-‐‑‒steaming
l Kafka
l elasticsearch-‐‑‒hadoop(storm&spark)
l   Drillを利利⽤用したアドホック集計?
リクルートテクノロジーズでも、Sparkを活⽤用した
事例例が増えてきてます。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
ご清聴ありがとうございました!
リクルートテクノロジーズ

More Related Content

What's hot

暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学MITSUNARI Shigeo
 
世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture世界一わかりやすいClean Architecture
世界一わかりやすいClean ArchitectureAtsushi Nakamura
 
「顧客の声を聞かない」とはどういうことか
「顧客の声を聞かない」とはどういうことか「顧客の声を聞かない」とはどういうことか
「顧客の声を聞かない」とはどういうことかYoshiki Hayama
 
ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計Yoshinori Matsunobu
 
それはYAGNIか? それとも思考停止か?
それはYAGNIか? それとも思考停止か?それはYAGNIか? それとも思考停止か?
それはYAGNIか? それとも思考停止か?Yoshitaka Kawashima
 
オーバーエンジニアリングって何? #devsumi #devsumiA
オーバーエンジニアリングって何? #devsumi #devsumiAオーバーエンジニアリングって何? #devsumi #devsumiA
オーバーエンジニアリングって何? #devsumi #devsumiAOre Product
 
ドメイン駆動設計 本格入門
ドメイン駆動設計 本格入門ドメイン駆動設計 本格入門
ドメイン駆動設計 本格入門増田 亨
 
ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方増田 亨
 
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったことドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと増田 亨
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかAtsushi Nakada
 
フロー効率性とリソース効率性について #xpjug
フロー効率性とリソース効率性について #xpjugフロー効率性とリソース効率性について #xpjug
フロー効率性とリソース効率性について #xpjugItsuki Kuroda
 
僕がつくった 70個のうちの48個のWebサービス達
僕がつくった 70個のうちの48個のWebサービス達僕がつくった 70個のうちの48個のWebサービス達
僕がつくった 70個のうちの48個のWebサービス達Yusuke Wada
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法についてYuji Otani
 
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来についてshinjiigarashi
 
リーンなコードを書こう:実践的なオブジェクト指向設計
リーンなコードを書こう:実践的なオブジェクト指向設計リーンなコードを書こう:実践的なオブジェクト指向設計
リーンなコードを書こう:実践的なオブジェクト指向設計増田 亨
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版MOCKS | Yuta Morishige
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」Takuto Wada
 
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –虎の穴 開発室
 
新入社員のための大規模ゲーム開発入門 サーバサイド編
新入社員のための大規模ゲーム開発入門 サーバサイド編新入社員のための大規模ゲーム開発入門 サーバサイド編
新入社員のための大規模ゲーム開発入門 サーバサイド編infinite_loop
 
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019Tokoroten Nakayama
 

What's hot (20)

暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 
世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture世界一わかりやすいClean Architecture
世界一わかりやすいClean Architecture
 
「顧客の声を聞かない」とはどういうことか
「顧客の声を聞かない」とはどういうことか「顧客の声を聞かない」とはどういうことか
「顧客の声を聞かない」とはどういうことか
 
ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計
 
それはYAGNIか? それとも思考停止か?
それはYAGNIか? それとも思考停止か?それはYAGNIか? それとも思考停止か?
それはYAGNIか? それとも思考停止か?
 
オーバーエンジニアリングって何? #devsumi #devsumiA
オーバーエンジニアリングって何? #devsumi #devsumiAオーバーエンジニアリングって何? #devsumi #devsumiA
オーバーエンジニアリングって何? #devsumi #devsumiA
 
ドメイン駆動設計 本格入門
ドメイン駆動設計 本格入門ドメイン駆動設計 本格入門
ドメイン駆動設計 本格入門
 
ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方
 
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったことドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
 
フロー効率性とリソース効率性について #xpjug
フロー効率性とリソース効率性について #xpjugフロー効率性とリソース効率性について #xpjug
フロー効率性とリソース効率性について #xpjug
 
僕がつくった 70個のうちの48個のWebサービス達
僕がつくった 70個のうちの48個のWebサービス達僕がつくった 70個のうちの48個のWebサービス達
僕がつくった 70個のうちの48個のWebサービス達
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法について
 
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について
導入から 10 年、PHP の trait は滅びるべきなのか その適切な使いどころと弱点、将来について
 
リーンなコードを書こう:実践的なオブジェクト指向設計
リーンなコードを書こう:実践的なオブジェクト指向設計リーンなコードを書こう:実践的なオブジェクト指向設計
リーンなコードを書こう:実践的なオブジェクト指向設計
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
 
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –
Supabase Edge Functions と Netlify Edge Functions を使ってみる – 機能とその比較 –
 
新入社員のための大規模ゲーム開発入門 サーバサイド編
新入社員のための大規模ゲーム開発入門 サーバサイド編新入社員のための大規模ゲーム開発入門 サーバサイド編
新入社員のための大規模ゲーム開発入門 サーバサイド編
 
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
 

Similar to 検索基盤Qass

キャリア入門講座【投影資料】
キャリア入門講座【投影資料】キャリア入門講座【投影資料】
キャリア入門講座【投影資料】Naturallink Maemoto
 
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704DemandSphere
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...Deep Learning Lab(ディープラーニング・ラボ)
 
キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】Naturallink Maemoto
 
20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」真吾 大塚
 
採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略Sonoko Tezuka
 
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)Keisuke Anzai
 
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804DemandSphere
 
両立を楽しむために【投影資料】
両立を楽しむために【投影資料】両立を楽しむために【投影資料】
両立を楽しむために【投影資料】Naturallink Maemoto
 
女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】Naturallink Maemoto
 
周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】Naturallink Maemoto
 
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料BrainPad Inc.
 
2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】Naturallink Maemoto
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416DemandSphere
 
僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべてfalcs
 
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。Gaku Sato
 
コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209DemandSphere
 
コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209Chika Noguchi
 
すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)ナイル株式会社
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見たHagimoto Junzo
 

Similar to 検索基盤Qass (20)

キャリア入門講座【投影資料】
キャリア入門講座【投影資料】キャリア入門講座【投影資料】
キャリア入門講座【投影資料】
 
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
 
キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】
 
20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」
 
採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略
 
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
 
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
 
両立を楽しむために【投影資料】
両立を楽しむために【投影資料】両立を楽しむために【投影資料】
両立を楽しむために【投影資料】
 
女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】
 
周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】
 
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料
 
2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416
 
僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて
 
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
 
コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209
 
コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209
 
すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見た
 

Recently uploaded

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 

Recently uploaded (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

検索基盤Qass

  • 1. Copyright(C)2014 Recruit Technologies Co.,Ltd All rights reserved 検索索基盤Qass   ⾼高林林  貴仁/@tatakaba 16/01/12 〜~  情報検索索の品質と『⾒見見る』検索索品質のハイブリッドエンジンの追求  〜~ ビックデータオールスターズ    
  • 2. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 2 ⾃自⼰己紹介 ⾼高林林  貴仁  /  @tatakaba 2011  〜~  リクルート⼊入社 アプリケーションソリューショングループ Ø 検索索基盤 Ø Hadoop基盤 Ø DWHとCEP Ø R&D 2004  〜~  2011  ヤフージャパン株式会社 Ø 主に検索索システム担当 Ø web,地図,local検索索等 Ø WPO(Web  Performance   Optimization) プレミアムモルツ ⼤大好きです!
  • 3. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved Whatʼ’s  Qass??
  • 4. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 4 Whatʼ’s  Qass?? l   elasticsearchを軸とした検索索基盤 l   検索索をサポートする機能の提供(FE&BE) ü   サジェスト ü   スペラー ü   関連検索索 ü   リライター 検索索品質、UXを担保する事で、 事業に貢献!!
  • 5. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 5 Architecture ビックデータ を活⽤用した フィードバッ クシステム
  • 6. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 6 ビックデータとQass ログデータを活⽤用したデータ集計基盤 メトリクス/データ集計 indexing/ランキング/辞書
  • 7. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 7 今⽇日のお話 検索索品質とランキング
  • 8. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 情報検索索でいう検索索品質とは?
  • 9. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 9 検索索とは ユーザー求めるドキュメントを抽出 ドキュ メント ドキュ メント ドキュ メント 全体のドキュメントから
  • 10. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 10 極論論をいうと
  • 11. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 11 「ユーザーの求めていたドキュメント」 のみを抽出する事が可能なら
  • 12. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 12 最強の検索索エンジン
  • 13. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 13 それは、無理理〜~
  • 14. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 14 結果のズレがある ドキュメント全体 ユーザーが求めていた ドキュメント システムの検索索結果 CB A 実際には・・・ 要求に答えられた部分 適合率率率 再現率率率
  • 15. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 15 情報検索索的にいうと • ユーザーの本来求めていた情報が、 検索索結果に含まれていた割合A:再現率率率 • 検索索結果の内、ユーザーが本来求め ていた結果が含まれる割合B:適合率率率 • 適合率率率と再現率率率の重み付き調和平 均F値
  • 16. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 16 式で表現すると 適合率率率= 「検索索結果のドキュメント」数 「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数 F値  = 適合率率率 1 1 α + 再現率率率 1 (1  ー  α) 備考:α  =  割合 再現率率率= 「ユーザーの本来求めていたドキュメント」数 「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
  • 17. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 17 適合率率率と再現率率率 l 適合率率率を上げれば、再現率率率は下がる ü   結果を厳選すれば、適合率率率は上がるが、取りこぼ しが多くなる為、再現率率率は下がる l 再現率率率を上げれば、適合率率率は下がる ü   結果を多くすれば、再現率率率は上がるが、ノイズが 多くなる為、適合率率率は下がる 再現率率率と適合率率率は、システムでは 相反しあう傾向
  • 18. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 18 品質を上げる施策 l 形態素辞書の拡充(新語、略略語、通称地名等) l クエリ展開(spark  or  (spark    and  apache)) 再現率率率の向上施策 l 正規化(髙  =>  ⾼高) l 表記ゆれ(引っ越し、引越、引越し) l 同義語・略略語(⽊木村拓拓哉  ==  キムタク) 適合率率率の向上施策
  • 19. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 19 再現率率率と適合率率率の バランス良良い⾼高さが重要 検索索品質とは
  • 20. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 20 検索索品質が  よければいいと 思ってた・・・。
  • 21. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 21 検索索品質だけじゃない 『領領域』もある・・・。
  • 22. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 22 ⾮非公開 とあるサイトの禁書⽬目録
  • 23. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 23 とあるサイトのABテスト結果 ほぼ、有意差なし・・・\(^o^)/
  • 24. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 24 リクルートの事業領領域 旅⾏行行 IT/トレンド ⽣生活/地域情報 グルメ・美容 ライフスタイル領領域 ライフイベント領領域 進学 就職 結婚 転職 住宅宅購⼊入 ⾞車車購⼊入 出産/育児
  • 25. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 25 ライフスタイルとライブイベント違い ショッピング、飲⾷食など、決断が軽い。 ある程度度の⽬目安(キーワード)がある ライフスタイル ライフイベント 結婚、住宅宅購⼊入など、決断が慎重 ⾊色々な結果を⾒見見⽐比べたい
  • 26. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 26 ⼈人⽣生の中で、重要なイベントは、 簡単には決められない事が多い。 悩む・・・ 就活 結婚式場どこ にしよう。 bB買おうかな。 転職したい・・ どんな家がい いかな。
  • 28. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 28 ライフイベントにおける 新しい検索索体験
  • 29. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 『⾒見見る』検索索品質とは?
  • 30. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 30 欲しい(⾒見見たい)情報が離離散してる ドキュメント全体 『⾒見見る』検索索とは 最終的に 決定する情報
  • 31. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 31 何かに似てませんか?
  • 32. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 32 32 情報誌
  • 33. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 33 情報誌と⾔言えば・・・
  • 34. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 34 「まだ、ここにない、出会い」  by  リクルート
  • 35. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 35 そこで、こんなアプローチ
  • 36. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 36 l   編集者のKKDをモデル化 ü   KKD ü   情報の整理理 ü ⼈人間味あるいい意味での偶発性 ü   確信を持ったノイズ 雑誌で表現した ノウハウを検索索に 施策 (勘、経験、度度胸)
  • 37. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 37 編集者のモデル化 編集者A 商材:A-‐‑‒>D 商材:D-‐‑‒>F 編集者B 商材:A-‐‑‒>C 商材:C-‐‑‒>F 編集者C 商材  :  A-‐‑‒>B 商材  :  B-‐‑‒>C 感性をモデル化して、ランキングに反映
  • 38. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 38 検索索の品質領領域 旅⾏行行 IT/トレンド ⽣生活/地域情報 グルメ・美容 ライフスタイル領領域 ライフイベント領領域 進学 就職 結婚 転職 住宅宅購⼊入 ⾞車車購⼊入 出産/育児 情報検索索の検索索品質 「⾒見見る」検索索品質
  • 39. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 検索索ランキングの精度度
  • 40. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 40 検索索結果(上位i件)のランキング順が、 「ユーザー求めたランキング」と、 どの程度度差があるか? 基本的な考え⽅方 NDCG
  • 41. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 41 スコアリング 現実(DCG) 理理想(IDCG) l   CTR、CVRなどをベースに理理想のランキングを⽣生成 ü   求めてるドキュメントを上位に ü   求めてないドキュメントを下位に
  • 42. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 42 NDCGとは l   現実(DCG)と理理想(IDCG)の差 l   複数のクエリの平均が検索索システムの精度度 検索索結果は、関連性の⾼高い順に
  • 43. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 43 Qassでのランキング例例 ランキングの作成に活⽤用 ü 複数の予測モデルを結合したスコア l   wは各モデルの重要度度 ü   ジャンルごとの分布 l   xは各モデルの結果  (DBの値から) ü   キーワードマッチ度度 ü   予測モデル ü   ctrなどのスコア 質より量量!!
  • 44. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 44 まとめ l 情報検索索の品質 l 情報誌ならではのだら⾒見見の品質 l 最適なランキング l ⾊色々な要素を利利⽤用したスコア付け 品質とズレを掛けあわせたハイブリッド検索索
  • 45. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 45 品質とズレを掛けあわせたハイブリッド検索索基盤 は、⽬目指しています!
  • 46. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 46 現在、@IT様のサイトで、 Qass基盤について連載中! @it  qass
  • 47. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 最後に
  • 48. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 48 ちょっとだけ、Sparkのお話
  • 49. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 49 エンジニアの欲求 Sparkを利利⽤用した 集計基盤にリプレ イスしてます。
  • 50. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 50 リプレイス内容 l   MapR1.2  =>  MapR4.1へ l   Sparkを利利⽤用した機械学習 l   バッチからリアルタイムへ l Spark-‐‑‒steaming l Kafka l elasticsearch-‐‑‒hadoop(storm&spark) l   Drillを利利⽤用したアドホック集計? リクルートテクノロジーズでも、Sparkを活⽤用した 事例例が増えてきてます。
  • 51. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved ご清聴ありがとうございました! リクルートテクノロジーズ