SlideShare une entreprise Scribd logo
1  sur  32
1
秋葉原IT戦略研究所
http://akibalab.info/
野田純一
2015.8.8 京都OSC
Apache Sparkでつぶやきビッグデータ
クローンをつくってみた
1. 自己紹介 野田純一
2
Github:
https://github.com/AKB428
Twitter:
https://twitter.com/n428dev
Qiita:
http://qiita.com/AKB428
Hatena:
http://akb428.hatenablog.com/
Junichi Noda Larry Wall
3
↓これが作りたい
2014 7月22日 NHK
Sparkについて
• HadoopのMapReduceとは別アプローチ(DAG)での並列分散集計処理を行う
• インメモリー処理
• 2015年6月11日に 1.4.0 がリリース。
https://spark.apache.org/releases/spark-release-1-4-0.html
• 1.4.0でSparkRが追加(R言語でSparkを利用できる)
• APIを利用できる言語はScala, Java, Python
4
SparkR
5
• Twitterストリームからデータを取得する。
• Twitter Streaming APIを使う。
• 400の検索キーワードが指定可能。
• Spark Streamingでリアルタイム集計を行う。
6
7
• 日本語文章を単語にわけて分解して集計
• 日本語を分解するため形態素解析ライブラリ
kuromojiを使う。
• アニメ作品など標準辞書にない単語はユーザー辞
書(CSV)を用意。
形態素解析ライブラリの必要性について
8
ユーザー辞書の必要性について
9
10
画面デモ(直近5分を毎分集計)
(F1)2015年3期 TVアニメ http://tv-anime.xyz/5/
(F1)ラブライブ http://tv-anime.biz/5/
(F2)ラブライブ http://lovelive-net.com/5/
(F2)秋葉原 http://akiba-net.com/5/
(F2)関東TV番組 http://telev.net/5/
F1=ユーザー辞書に登録してある単語のみ集計
F2=ユーザー辞書外の単語も集計
11
12
画面デモ(直近60分を毎分集計)
(F1)2015年3期 TVアニメ http://tv-anime.xyz/60/
(F1)ラブライブ http://tv-anime.biz/60/
(F2)ラブライブ http://lovelive-net.com/60/
(F2)秋葉原 http://akiba-net.com/60/
(F2)関東TV番組 http://telev.net/60/
F1=ユーザー辞書に登録してある単語のみ集計
F2=ユーザー辞書外の単語も集計
2015年7月22日
7月22日 ラブライブ 矢澤にこ 誕生日
13
14
2015年7月22日
過去のキャプチャ 今期(2015/夏期)のアニメ
15
デモ:リコメンドTwitterボット
https://twitter.com/Akihabaara_itso
https://twitter.com/AuctionMadoka
16
実際の売上
17
18
京都OSC用 つぶやきビックデータ
検索ハッシュタグ 「#osckansai」
http://2045.tokyo/5/
http://2045.tokyo/60/
※URLの内容は8/8当日のみ
京都OSC用になります
8/8 〜12:00
19
8/8 12:24〜
20
8/8 13:20
21
8/8 15:10
22
8/8 15:20
23
8/8 15:40
24
8/8 16:10
25
26
女子大生好きおっさんしかいない・・・
(呆れ)
似たような感じでIT系のイベントの当日に
SNSの盛り上がりを視覚的に計測表示する
ことが簡単にできます。
是非次回以降のOSCや他のITイベント、オ
タク系イベントでイベント展示の液晶モニ
タなどに表示して有効活用してください。
勿論OSSです。
27
Mikasaインストールについて
インストールマニュアル
https://gist.github.com/AKB428/c30bc6a979e05fa3a022
• TwitterAPIとAmazonAPIのアカウントがあれば1時間でセット
アップ完了。
• AmazonAPIアカウントはリコメンドしない場合は不要。
• TwitterAPIのアカウント取得も10分程度で可能。
Mikasa OL
https://github.com/AKB428/mikasa_ol
Mikasa RS
https://github.com/AKB428/mikasa_rs
28
Sparkについて〜最近の情勢
• 2015年6月15日 IBMが開発者と研究者を3500人Spark関連プロ
ジェクトに投入 http://japan.zdnet.com/article/35065964/
• 2015年 6月15〜17日 Spark summit 2015 開催 (サンフランシスコ)
• NTTデータ社が定期的に勉強会を実施
• 国内のサービス実例は少ない
• 2大Hadoopディストリビューション CDHとHDPにはSparkが搭
載
• Spark1.4からはUIでモニタリングも行えるようになった。
http://qiita.com/AKB428/items/71900eecdf2350e1e45f
29
参考文献紹介-1
「Scala逆引きレシピ」
• 他言語経験者でScalaが初心者の方にお奨め、情
報も新しく、PlayフレームワークやSBTの説明も
豊富。
30
参考文献紹介-2
「Learning Spark」
• Sparkのコーディングはこれを読めば理解可能。
• 英語初心者でもかなり読みやすい本なのでお奨
め。今年日本語化されるらしい。
31
32
ご清聴ありがとうございました

Contenu connexe

Tendances

2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
Yuki KAN
 
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
Yuki KAN
 
Spark in small or middle scale data processing with Elasticsearch
Spark in small or middle scale data processing with ElasticsearchSpark in small or middle scale data processing with Elasticsearch
Spark in small or middle scale data processing with Elasticsearch
chibochibo
 

Tendances (20)

楽天のSplunk as a service
楽天のSplunk as a service楽天のSplunk as a service
楽天のSplunk as a service
 
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
2015/04/25 妖怪は見た!実録Azure事件簿アプリケーション編 / Global Azure Boot Camp
 
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
2015/04/25 Azure JavaScript API App つくったよ (LT) / Global Azure Boot Camp
 
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
 
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくる
 
Spark Streaming on AWS -S3からKinesisへ-
Spark Streaming on AWS -S3からKinesisへ-Spark Streaming on AWS -S3からKinesisへ-
Spark Streaming on AWS -S3からKinesisへ-
 
Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化
Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化
Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化
 
第2回インフラエンジニアのためのプレゼン技術研究会(オススメの技術書)
第2回インフラエンジニアのためのプレゼン技術研究会(オススメの技術書)第2回インフラエンジニアのためのプレゼン技術研究会(オススメの技術書)
第2回インフラエンジニアのためのプレゼン技術研究会(オススメの技術書)
 
Spark in small or middle scale data processing with Elasticsearch
Spark in small or middle scale data processing with ElasticsearchSpark in small or middle scale data processing with Elasticsearch
Spark in small or middle scale data processing with Elasticsearch
 
Elastic StackでWebサーバのログ解析を始めた件について
Elastic StackでWebサーバのログ解析を始めた件についてElastic StackでWebサーバのログ解析を始めた件について
Elastic StackでWebサーバのログ解析を始めた件について
 
データポータルソフトウェア CKAN
データポータルソフトウェア CKANデータポータルソフトウェア CKAN
データポータルソフトウェア CKAN
 
Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方
 
elasticsearchプラグイン入門
elasticsearchプラグイン入門elasticsearchプラグイン入門
elasticsearchプラグイン入門
 
データカタログソフトウェア CKAN
データカタログソフトウェア CKANデータカタログソフトウェア CKAN
データカタログソフトウェア CKAN
 
MariaDBとMroongaで作る全言語対応超高速全文検索システム
MariaDBとMroongaで作る全言語対応超高速全文検索システムMariaDBとMroongaで作る全言語対応超高速全文検索システム
MariaDBとMroongaで作る全言語対応超高速全文検索システム
 
自作アプリを watchOS 2 対応した話 〜FastCheckin編〜
自作アプリを watchOS 2 対応した話 〜FastCheckin編〜自作アプリを watchOS 2 対応した話 〜FastCheckin編〜
自作アプリを watchOS 2 対応した話 〜FastCheckin編〜
 
Skinny Meetup Tokyo 2 日本語スライド
Skinny Meetup Tokyo 2 日本語スライドSkinny Meetup Tokyo 2 日本語スライド
Skinny Meetup Tokyo 2 日本語スライド
 
CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題
 
サバフェス2016-できる!快眠
サバフェス2016-できる!快眠サバフェス2016-できる!快眠
サバフェス2016-できる!快眠
 

Similaire à Apache sparkでつぶやきビッグデータ クローンをつくってみた

Similaire à Apache sparkでつぶやきビッグデータ クローンをつくってみた (20)

Databricks の始め方
Databricks の始め方Databricks の始め方
Databricks の始め方
 
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL GraphPySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
 
SparkTokyo2019NovIshizaki
SparkTokyo2019NovIshizakiSparkTokyo2019NovIshizaki
SparkTokyo2019NovIshizaki
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
Spark shark
Spark sharkSpark shark
Spark shark
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5
 
Apache Spark + Arrow
Apache Spark + ArrowApache Spark + Arrow
Apache Spark + Arrow
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring HadoopOSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
 
Skinny Framework で始めた Scala
Skinny Framework で始めた ScalaSkinny Framework で始めた Scala
Skinny Framework で始めた Scala
 
Seasar ユーザだったプログラマが目指す OSS の世界展開 #seasarcon
Seasar ユーザだったプログラマが目指す OSS の世界展開 #seasarconSeasar ユーザだったプログラマが目指す OSS の世界展開 #seasarcon
Seasar ユーザだったプログラマが目指す OSS の世界展開 #seasarcon
 
DWANGO by ドワンゴ
DWANGO by ドワンゴDWANGO by ドワンゴ
DWANGO by ドワンゴ
 
Osoljp201210 oi swift
Osoljp201210 oi swiftOsoljp201210 oi swift
Osoljp201210 oi swift
 
OHS#2 pythonでgreをつくってみる
OHS#2 pythonでgreをつくってみるOHS#2 pythonでgreをつくってみる
OHS#2 pythonでgreをつくってみる
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみたHive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 

Plus de Junichi Noda

Plus de Junichi Noda (20)

とらのあなエンジニア採用イベント 2017年2月9日
とらのあなエンジニア採用イベント 2017年2月9日とらのあなエンジニア採用イベント 2017年2月9日
とらのあなエンジニア採用イベント 2017年2月9日
 
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
[Anitech] ITでアニメを考える、「ShangriLa Meetup5」
 
アニメ聖地デザインパターン
アニメ聖地デザインパターンアニメ聖地デザインパターン
アニメ聖地デザインパターン
 
アニメ聖地巡礼についてのアイデアソンテンプレート
アニメ聖地巡礼についてのアイデアソンテンプレートアニメ聖地巡礼についてのアイデアソンテンプレート
アニメ聖地巡礼についてのアイデアソンテンプレート
 
アイデアスケッチ テンプレート
アイデアスケッチ テンプレートアイデアスケッチ テンプレート
アイデアスケッチ テンプレート
 
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
ITを使った今時の聖地巡礼ユーザー分析 in 沼津ITを使った今時の聖地巡礼ユーザー分析 in 沼津
ITを使った今時の聖地巡礼ユーザー分析 in 沼津
 
ラブライブ!サンシャイン!!入門書 (A4 縦向き)
ラブライブ!サンシャイン!!入門書 (A4 縦向き)ラブライブ!サンシャイン!!入門書 (A4 縦向き)
ラブライブ!サンシャイン!!入門書 (A4 縦向き)
 
法規制後でも個人で楽しむ ドローン入門 2016・秋
法規制後でも個人で楽しむドローン入門 2016・秋法規制後でも個人で楽しむドローン入門 2016・秋
法規制後でも個人で楽しむ ドローン入門 2016・秋
 
ラブライブ✕沼津 アニメタイアップについて
ラブライブ✕沼津 アニメタイアップについて ラブライブ✕沼津 アニメタイアップについて
ラブライブ✕沼津 アニメタイアップについて
 
Word2Vec Neologdで作るアニメ人工知能
Word2Vec Neologdで作るアニメ人工知能Word2Vec Neologdで作るアニメ人工知能
Word2Vec Neologdで作るアニメ人工知能
 
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
 
秋葉原IT戦略研究所のご紹介(2016/05/04)
秋葉原IT戦略研究所のご紹介(2016/05/04)秋葉原IT戦略研究所のご紹介(2016/05/04)
秋葉原IT戦略研究所のご紹介(2016/05/04)
 
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
日本のアニメ産業を爆速させるアニメAPIの開発と活用事例 (ニコニコ超会議2016 大和証券ステージ)
 
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行うShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム ver 1.1
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムver 1.1機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムver 1.1
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム ver 1.1
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
 
秋葉原IT戦略研究所のご紹介
秋葉原IT戦略研究所のご紹介秋葉原IT戦略研究所のご紹介
秋葉原IT戦略研究所のご紹介
 
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
秋葉原IT戦略研究所のREAL~コミュニティ立ち上げから半年間の成果~
 
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
アカリクVol7 「アドテク」gmoアドパートナーズ株式会社
 
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
 

Dernier

Dernier (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

Apache sparkでつぶやきビッグデータ クローンをつくってみた