2. 2
五十嵐 祐貴 (いがらし ゆうき)
• 東北大学工学部情報知能システム総合学科卒業
• 東北大学大学院情報科学研究科 M1
• 篠原・吉仲研究室
o 文字列(特にパターンマッチング)の研究
• アルバイト・インターンなど
o Preferred Networks (2016/6~現在)
o SmartNews (2014/8~2014/9)
o 乾・岡崎研究室 (2013/4~2016/3)
http://vbcpp.net/about
3. 3
趣味・興味
• .NET Technologies
o .NET/Visual Studioに興味があります
o 登壇したり本を書いたり…
o Microsoft MVP for Visual Studio and Development Technologies
(2015, 2016, 2017)
• 旅行(18きっぷ)
• ラーメン二郎
o ホームは仙台
4. 4
研究内容
• 文字列処理
o 特にパターンマッチングの研究
• New Variants of Pattern Matching
with Constants and Variables [Igarashi+ 2017, f]
o SOFSEM 2018で発表予定
[f] https://arxiv.org/abs/1705.09504
Pattern: XaXYb
Text: aaabb
Match
貢献
・一般化した問題を定義
・既存手法を工夫すると同じ
計算量で解けることを示した
・(既存研究の間違い訂正)
13. 13
検索クエリなどの関係情報を利用した同義語判定
A Framework for Robust Discovery of
Entity Synonyms [Kaushik+ 2012, c]
• 検索クエリ集合とWebドキュメント集合を用いて
自動的に固有表現のシノニムを検出
• 応用例として検索エンジンの
「関連するキーワード」
o 論文内で”Canon EOS 400d Digital Camera”と
”canon rebel xti”と”canon kiss k”が
同じクエリだということを検出したいと述べている
[c] Chakrabarti, Kaushik, et al. "A framework for robust discovery of entity synonyms." Proceedings of
the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012.
https://www.microsoft.com/en-us/research/wp-content/uploads/2012/01/idg811-cheng.pdf
14. 14
検索クエリなどの関係情報を利用した同義語判定
ClickSim [Cheng+ 2010, d]
検索クエリ 𝑟𝑒, 𝑠𝑒 が与えられたとき
ただし𝑎𝑢𝑥(𝑤)は検索クエリ𝑤によってクリックされたドキュメント集合
[d] Cheng, Tao, Hady W. Lauw, and Stelios Paparizos. "Fuzzy matching of web queries to structured
data." Data Engineering (ICDE), 2010 IEEE 26th International Conference on. IEEE, 2010.
ドキュメント集合クエリ集合
𝑟𝑒
𝑠 𝑒
𝐹𝑐𝑠𝑖𝑚 =
2
3
36. 36
提案モデルの学習 設定
• データセット(キーワード数で前処理済み)
o ドキュメント数 100,000 記事
o 単語数 331,138 単語
o のべ単語数 49,187,387 単語
o キーワード数 47,751 個
• 主要なハイパーパラメータ
o 窓幅:5
o 次元数:100
o 最小単語出現回数:5回
o 最小キーワード出現回数:5回
43. 43
提案モデルの評価
• データセット
o ハッカドールに登録されている
シノニム辞書 5600組を使用
• 評価手法
o コサイン類似度
o k近傍一致度
o 相互ランク
• 評価対象
o 通常のSkip-gramモデル (Skip-gram)
o 周辺単語の代わりにキーワードを用いた学習した
Skip-gramモデル (Skip-gram Keyword)
o 提案手法 (Skip-gram ModType A/B)