SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
Copyright (C) CA Advance,inc
Elasticsearchでいろいろやってる話	
SmartTechGeeks 2015
Shinya  Takara
Copyright (C) CA Advance,inc
自己紹介	
• 氏名:高良真也 (31歳)
• 所属:CAアドバンス沖縄 技術統括本部
• 役割:プロダクト開発リーダ
• 最近の興味:Hubotちゃんいじり(ChatOps)
• バイクが大好き、だけどあまりいじれない><
• FB:    http://tinyurl.com/oqyzngd
• Twitter:    @takarake:
Copyright (C) CA Advance,inc
自己紹介(何をやってるのか)	
• カスタマーサポート(CS)業務用のシステムを担当
• 過去: 外部ツールを利用(メール○ィーラとか)
• 現在: ほぼリプレイスされ、本番運用中
• 担当エンジニア: 3名
• 最高のCSツールを目指して日々、お仕事してます
Copyright (C) CA Advance,inc
採用している技術	
• OS          :Amazon  Linux
• WEBサーバ    :nginx  1.4.7
• サーバサイド   :PHP5.4.30
• FW          :FuelPHP  1.3  (ちょっと古いw)
• DB          :MySQL5.5(Amazon  RDS)
• NoSQL       :Redis(Amazon  ElasticCache)
• 検索エンジン   :ElasticSearch 1.3.2
• ワーカー      :SuperVisor
Copyright (C) CA Advance,inc
今日のテーマ	
最近だと、これ→
Copyright (C) CA Advance,inc
今日のテーマ	
運用中のサービスでElasticSearchを使ってど
んなことをやっているかお話しします。
Copyright (C) CA Advance,inc
ElasticSearchの概要	
ü  ElasticSearchとは
•  分散型Resfulな全文検索エンジン	
•  Javaの全文検索エンジンであるLuceneを使用	
•  スキーマフリー&ドキュメント指向	
•  カラム毎のデータ型定義とかいらない	
•  マルチテナント対応	
•  複数のインデックスを持つことが可能	
•  オープンソース(Apache v2ライセンス)
Copyright (C) CA Advance,inc
ElasticSearchの概要	
ü  ElasticSearchとは	
•  よく知られる使い方だと	
•  FluentdとKibanaを使ってアクセスログ収集とか
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
•  なぜElasticsearchを使うの?
Kibanaを見ていて、、、
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
•  なぜElasticsearchを使うの?
あれ、これ使ったらデータ集計とか、集計デー
タのグラフ表示とか超早いんじゃね?
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
•  なぜElasticsearchを使うの?
1.  アクセスログのような膨大なデータの収集先に向いてる
a.  Kibanaを見れば一目瞭然ですよねー!
2.  欲しいデータの集計も早く、グラフ化もいける!
a.  Kibanaを見れば、、、、以下同文
Copyright (C) CA Advance,inc
ElasticSearchの概要	
ってことで、担当プロダクトで使ってみました!
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
•  下記の2つの機能にて利用
ü  レポート機能
→これいけるでしょ!
ü  類似データ検索によるレコメンド
  →こんなのあったんだっていう・・・
※これら2つの機能でどんな風にElasticsearch
を使ってるかご説明します
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• ではどう使ってるか?
•  INPUTフロー
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• ではどう使ってるか?
•  OUTPUTフロー
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  レポート機能
Ø  Aggregation  APIを利用
Ø  Date  histogramを利用してグラフ化
ü  類似データ検索によるレコメンド
Ø  More  Like  This  APIを利用
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  レポート機能
Ø Aggregationって?
•  検索結果に対して、データの解析ができる
•  SQLならGroup  Byに相当
•  maxやavgといった複雑な条件で集計が可能
•  階層的な集計、グループ化が可能
•  さらに詳しくは下記を参考
•  https://speakerdeck.com/johtani/aggregationarekore
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  レポート機能
Ø Date  histogramって?	
•  検索結果を日付毎にグルーピングが可能	
•  日付別での集計ができるため、グラフ向き	
•  ↓こんなグラフがすぐできます!
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  レポート機能
少しだけお見せします!
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  類似データ検索によるレコメンド	
Ø More  Like  This  APIって?	
•  類似データを検索し、類似度と共にデータを取得
•  テキストマイニングで必要なごにょごにょは不要!
•  一言で言うとこれ!↓
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• それぞれをどう実現してるか?
ü  類似データ検索によるレコメンド	
これも少しだけお見せします・・・
Copyright (C) CA Advance,inc
どうやって学習したか?	
• ひたすらググる!
•  けど英語ばかりで時間がかかった
• 下記の書籍を読む
•  これもバージョンが0.90.xなので微妙・・・
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• 開発してみての感想
ü  レポート機能
Ø MySQLで集計クエリを投げるより全然早い!	
Ø グラフ生成のために複雑なクエリがいらない!
Ø  「Day」を指定したら日別、「week」なら週別で取れる
Ø KibanaとElasticsearchって最強かも?><
Copyright (C) CA Advance,inc
Elasticsearchで何してる?	
• 開発してみての感想	
ü  類似データ検索によるレコメンド	
Ø 本番運用開始後に設計考慮漏れを発見><
Ø SQSのmax  msg  size(256KB)を超えてしまい、エラー
Ø 送信データが問合せ本文などを含むため、仕方ない
Ø INPUT仕様をS3×SQS連携でのデータ送信に変更し対応
Ø 類似度がいまいちなデータがとれてしまう・・・orz
Ø 原因は、類似判定用のデータにまだノイズが多く、類似判
定の際にノイズ部分を類似と判定されてしまうため
Ø ノイズさえなくせばもっと精度がよくデータが取れそう
Copyright (C) CA Advance,inc
総括	
• 柔軟な検索と高速な集計ができ、便利!
• 類似検索については類似判定用のデータのチューニング
が必要だが、「テキストマイニングとかしたことないけど類
似データ検索の仕組み入れたい」って人には優しい
• 他にも下記の機能があり、使うとさらに便利になりそう
•  サジェスト(前方一致)検索
•  あいまい検索
※皆さんも使ってみてはいかがでしょうか?
Copyright (C) CA Advance,inc
総括	
ご清聴ありがとうございました。
Copyright (C) CA Advance,inc
総括

Contenu connexe

Similaire à ElasticSearchでいろいろやってる話

ChatOpsでシステムの運用が改善された話
ChatOpsでシステムの運用が改善された話ChatOpsでシステムの運用が改善された話
ChatOpsでシステムの運用が改善された話Shinya Takara
 
担当プロダクトのDBをまるっとリプレイスするためにやったこと
担当プロダクトのDBをまるっとリプレイスするためにやったこと担当プロダクトのDBをまるっとリプレイスするためにやったこと
担当プロダクトのDBをまるっとリプレイスするためにやったことShinya Takara
 
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話Hajime Sano
 
Real-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingReal-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingRecruit Lifestyle Co., Ltd.
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 CData Software Japan
 
組み込みメーカーだからこそのAWS Cognitoの使い方
組み込みメーカーだからこそのAWS Cognitoの使い方組み込みメーカーだからこそのAWS Cognitoの使い方
組み込みメーカーだからこそのAWS Cognitoの使い方shotaueda3
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返りSatoshi Noto
 
Confluence x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする
 Confluence  x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする Confluence  x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする
Confluence x Brikit Theme Press でスタイリッシュなサイトを最速でデザインするAkira Higuchi
 
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについてDaisuke Tamada
 
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話ShunyoKawamoto
 
Windows Azure 最新 Update 2014/04/04
Windows Azure 最新 Update 2014/04/04Windows Azure 最新 Update 2014/04/04
Windows Azure 最新 Update 2014/04/04Ryusaburo Tanaka
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
 
Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤Recruit Lifestyle Co., Ltd.
 
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会) GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会) cvpaper. challenge
 
リモートワークと子育て3つの秘訣 #iw2017jp #techgirl
リモートワークと子育て3つの秘訣 #iw2017jp #techgirlリモートワークと子育て3つの秘訣 #iw2017jp #techgirl
リモートワークと子育て3つの秘訣 #iw2017jp #techgirlManami Taira
 
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」Hiroyuki Ohnaka
 
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組みはてなにおける機械学習の取り組み
はてなにおける機械学習の取り組みsyou6162
 
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~Manabu Murakami
 

Similaire à ElasticSearchでいろいろやってる話 (20)

ChatOpsでシステムの運用が改善された話
ChatOpsでシステムの運用が改善された話ChatOpsでシステムの運用が改善された話
ChatOpsでシステムの運用が改善された話
 
担当プロダクトのDBをまるっとリプレイスするためにやったこと
担当プロダクトのDBをまるっとリプレイスするためにやったこと担当プロダクトのDBをまるっとリプレイスするためにやったこと
担当プロダクトのDBをまるっとリプレイスするためにやったこと
 
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
 
Real-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingReal-time personalized recommendation using embedding
Real-time personalized recommendation using embedding
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術
 
[Dots.]taiga
[Dots.]taiga[Dots.]taiga
[Dots.]taiga
 
組み込みメーカーだからこそのAWS Cognitoの使い方
組み込みメーカーだからこそのAWS Cognitoの使い方組み込みメーカーだからこそのAWS Cognitoの使い方
組み込みメーカーだからこそのAWS Cognitoの使い方
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
 
Confluence x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする
 Confluence  x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする Confluence  x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする
Confluence x Brikit Theme Press でスタイリッシュなサイトを最速でデザインする
 
QnA Maker 逆入門
QnA Maker 逆入門QnA Maker 逆入門
QnA Maker 逆入門
 
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
 
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話
 
Windows Azure 最新 Update 2014/04/04
Windows Azure 最新 Update 2014/04/04Windows Azure 最新 Update 2014/04/04
Windows Azure 最新 Update 2014/04/04
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤
 
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会) GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
 
リモートワークと子育て3つの秘訣 #iw2017jp #techgirl
リモートワークと子育て3つの秘訣 #iw2017jp #techgirlリモートワークと子育て3つの秘訣 #iw2017jp #techgirl
リモートワークと子育て3つの秘訣 #iw2017jp #techgirl
 
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」
2015/10/14 JJUGナイトセミナー「テスト駆動開発ここが聞きたい」
 
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組みはてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
 
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~
テクニカルアーティストの仕事とスキル ~パイプライン系TAの事例~
 

Dernier

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Dernier (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

ElasticSearchでいろいろやってる話

  • 1. Copyright (C) CA Advance,inc Elasticsearchでいろいろやってる話 SmartTechGeeks 2015 Shinya  Takara
  • 2. Copyright (C) CA Advance,inc 自己紹介 • 氏名:高良真也 (31歳) • 所属:CAアドバンス沖縄 技術統括本部 • 役割:プロダクト開発リーダ • 最近の興味:Hubotちゃんいじり(ChatOps) • バイクが大好き、だけどあまりいじれない>< • FB:    http://tinyurl.com/oqyzngd • Twitter:    @takarake:
  • 3. Copyright (C) CA Advance,inc 自己紹介(何をやってるのか) • カスタマーサポート(CS)業務用のシステムを担当 • 過去: 外部ツールを利用(メール○ィーラとか) • 現在: ほぼリプレイスされ、本番運用中 • 担当エンジニア: 3名 • 最高のCSツールを目指して日々、お仕事してます
  • 4. Copyright (C) CA Advance,inc 採用している技術 • OS          :Amazon  Linux • WEBサーバ    :nginx  1.4.7 • サーバサイド   :PHP5.4.30 • FW          :FuelPHP  1.3  (ちょっと古いw) • DB          :MySQL5.5(Amazon  RDS) • NoSQL       :Redis(Amazon  ElasticCache) • 検索エンジン   :ElasticSearch 1.3.2 • ワーカー      :SuperVisor
  • 5. Copyright (C) CA Advance,inc 今日のテーマ 最近だと、これ→
  • 6. Copyright (C) CA Advance,inc 今日のテーマ 運用中のサービスでElasticSearchを使ってど んなことをやっているかお話しします。
  • 7. Copyright (C) CA Advance,inc ElasticSearchの概要 ü  ElasticSearchとは •  分散型Resfulな全文検索エンジン •  Javaの全文検索エンジンであるLuceneを使用 •  スキーマフリー&ドキュメント指向 •  カラム毎のデータ型定義とかいらない •  マルチテナント対応 •  複数のインデックスを持つことが可能 •  オープンソース(Apache v2ライセンス)
  • 8. Copyright (C) CA Advance,inc ElasticSearchの概要 ü  ElasticSearchとは •  よく知られる使い方だと •  FluentdとKibanaを使ってアクセスログ収集とか
  • 9. Copyright (C) CA Advance,inc Elasticsearchで何してる? •  なぜElasticsearchを使うの? Kibanaを見ていて、、、
  • 10. Copyright (C) CA Advance,inc Elasticsearchで何してる? •  なぜElasticsearchを使うの? あれ、これ使ったらデータ集計とか、集計デー タのグラフ表示とか超早いんじゃね?
  • 11. Copyright (C) CA Advance,inc Elasticsearchで何してる? •  なぜElasticsearchを使うの? 1.  アクセスログのような膨大なデータの収集先に向いてる a.  Kibanaを見れば一目瞭然ですよねー! 2.  欲しいデータの集計も早く、グラフ化もいける! a.  Kibanaを見れば、、、、以下同文
  • 12. Copyright (C) CA Advance,inc ElasticSearchの概要 ってことで、担当プロダクトで使ってみました!
  • 13. Copyright (C) CA Advance,inc Elasticsearchで何してる? •  下記の2つの機能にて利用 ü  レポート機能 →これいけるでしょ! ü  類似データ検索によるレコメンド   →こんなのあったんだっていう・・・ ※これら2つの機能でどんな風にElasticsearch を使ってるかご説明します
  • 14. Copyright (C) CA Advance,inc Elasticsearchで何してる? • ではどう使ってるか? •  INPUTフロー
  • 15. Copyright (C) CA Advance,inc Elasticsearchで何してる? • ではどう使ってるか? •  OUTPUTフロー
  • 16. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  レポート機能 Ø  Aggregation  APIを利用 Ø  Date  histogramを利用してグラフ化 ü  類似データ検索によるレコメンド Ø  More  Like  This  APIを利用
  • 17. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  レポート機能 Ø Aggregationって? •  検索結果に対して、データの解析ができる •  SQLならGroup  Byに相当 •  maxやavgといった複雑な条件で集計が可能 •  階層的な集計、グループ化が可能 •  さらに詳しくは下記を参考 •  https://speakerdeck.com/johtani/aggregationarekore
  • 18. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  レポート機能 Ø Date  histogramって? •  検索結果を日付毎にグルーピングが可能 •  日付別での集計ができるため、グラフ向き •  ↓こんなグラフがすぐできます!
  • 19. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  レポート機能 少しだけお見せします!
  • 20. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  類似データ検索によるレコメンド Ø More  Like  This  APIって? •  類似データを検索し、類似度と共にデータを取得 •  テキストマイニングで必要なごにょごにょは不要! •  一言で言うとこれ!↓
  • 21. Copyright (C) CA Advance,inc Elasticsearchで何してる? • それぞれをどう実現してるか? ü  類似データ検索によるレコメンド これも少しだけお見せします・・・
  • 22. Copyright (C) CA Advance,inc どうやって学習したか? • ひたすらググる! •  けど英語ばかりで時間がかかった • 下記の書籍を読む •  これもバージョンが0.90.xなので微妙・・・
  • 23. Copyright (C) CA Advance,inc Elasticsearchで何してる? • 開発してみての感想 ü  レポート機能 Ø MySQLで集計クエリを投げるより全然早い! Ø グラフ生成のために複雑なクエリがいらない! Ø  「Day」を指定したら日別、「week」なら週別で取れる Ø KibanaとElasticsearchって最強かも?><
  • 24. Copyright (C) CA Advance,inc Elasticsearchで何してる? • 開発してみての感想 ü  類似データ検索によるレコメンド Ø 本番運用開始後に設計考慮漏れを発見>< Ø SQSのmax  msg  size(256KB)を超えてしまい、エラー Ø 送信データが問合せ本文などを含むため、仕方ない Ø INPUT仕様をS3×SQS連携でのデータ送信に変更し対応 Ø 類似度がいまいちなデータがとれてしまう・・・orz Ø 原因は、類似判定用のデータにまだノイズが多く、類似判 定の際にノイズ部分を類似と判定されてしまうため Ø ノイズさえなくせばもっと精度がよくデータが取れそう
  • 25. Copyright (C) CA Advance,inc 総括 • 柔軟な検索と高速な集計ができ、便利! • 類似検索については類似判定用のデータのチューニング が必要だが、「テキストマイニングとかしたことないけど類 似データ検索の仕組み入れたい」って人には優しい • 他にも下記の機能があり、使うとさらに便利になりそう •  サジェスト(前方一致)検索 •  あいまい検索 ※皆さんも使ってみてはいかがでしょうか?
  • 26. Copyright (C) CA Advance,inc 総括 ご清聴ありがとうございました。
  • 27. Copyright (C) CA Advance,inc 総括

Notes de l'éditeur

  1. 箇条書き、文章になってしまってるので、短く。 もっと短くしないとやばい。