SlideShare une entreprise Scribd logo
1  sur  7
データサイエンティスト
の今
データサイエンティストの祭り、「Data Palooza」に、
参加してみて感じたことのまとめ
モテる、データサイエンティスト
これやれば売上倍増だね!
ここが穴場じゃない?
統計、AI、駆使しちゃうよー
データの意味を見つけちゃうよー
ビックデータを使うシステム
作っちゃうよー
データ見える化しちゃうよー
・・・ビジネス視点
・・・サイエンス視点
・・・エンジニアリング視点
→ この3つの視点を持つことがモテるらしい
掘り下げる
サイエンス
エンジニアリング
SPSS/SAS/R + jupyter notebook
インフラ・・・Hadoop → Apache Spark
Webアプリケーション・・・Python + Tornado
回帰分析
独立性の検定
主成分分析・因子分析
クラスタリング
決定木 / 回帰木
サポートベクターマシン(SVM)
ロジスティック回帰
ランダムフォレスト
アソシエーション分析
計量時系列分析
ソフトウェア
分析手法
https://datascientistworkbench.com
クラウド作業環境(無料)
学習=mooc(無料)
仕事
http://bigdatauniversity.com
https://deepanalytics.jp/
・・・まだまだ変わっていく!
とある日の作業1
上司から無茶振り
「タイ料理が流行ってる、今のうちに原料を買い込むので何を買えば良い?」
「タイ料理で一番使われている原料を探すか」
「どこから探そう」
「料理の原料は、、レシピサイトにありそうだな」
→ レシピサイトからデータ収集しCSV形式で保存
クラウドのデータ分析サービスのdatascientistWorkbentchを起動。
同サービスのjupyter notebookを起動し、
レシピサイトから収集したデータを読み込む
まずは生姜、ショウガ、 Gingerなどの表記乱れをショウガに統一しよう。
→ データクレンジング( Open refine By google )
次はRを使って、グルーピングしてカウントを実施。
パクチーが一番多いことが判明! → 上司に報告
とある日の作業2
上司から無茶振り
「パクチー買い込んで大分儲けたわ。でもタイ料理下火になってきたので、次にくる
料理を教えて」
「レシピサイトの全料理の過去の傾向を見て、今後の予測をしてみよう」
どの予測モデルを利用しようかな。下記のようなチートシートを参考にモデルを選択
http://scikit-learn.org/stable/tutorial/machine_learning_map/
→ モデルの学習
インドネシア料理、ベトナム料理?など、上で作ったモデルに当てはめてみる。
→ テストデータを予測
インドネシア料理は85%の確立で流行る、ベトナムは90%!
→ 予測結果の評価
上司に報告せず、自分で買い込む。 end
とある日の作業(紀元前)
100万人のデータにアクセスすると、
結果取得に1時間掛かるよ、、分析なんてやってられない(><)
じゃ、パソコンをたくさん用意して、それぞれ別々にデータを格納して、
一度に全部のパソコンにアクセスすれば早くなるんじゃない?
データを別々に格納 → 分散ファイル・システム(HDFS)
一度に全部のパソコンにアクセス → (MapReduce)
これらを統合した技術が、Hadoop
で、MapReduceを改善したものが、Apache Spark、
「僕はHDDなんて遅いのにアクセスしないで、高速なメモリ上で処理を全部やっちゃうよー」
「よし、準備もできたし、分析作業に取り掛かるか」
→ とある日の作業1へ
データエンジニア視点だよ
最後に、うちらこんなん使って分析してます
「jupyter notebook」・・・レポートと数式やプログラミングを一緒に書ける!モテる!

Contenu connexe

En vedette

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密Ryo Matsuura
 
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up正志 井澤
 
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈Shu (shoe116)
 
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡Yuto Hamada
 
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話Takahiro YAMAGUCHI
 
データに振り回されて失敗した あんなことやこんなこと ~ゲームのために必要な本当の ビジネス・アナリティクス~
データに振り回されて失敗したあんなことやこんなこと~ゲームのために必要な本当のビジネス・アナリティクス~データに振り回されて失敗したあんなことやこんなこと~ゲームのために必要な本当のビジネス・アナリティクス~
データに振り回されて失敗した あんなことやこんなこと ~ゲームのために必要な本当の ビジネス・アナリティクス~Daisuke Nogami
 
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法Daisuke Nogami
 
DAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebminingDAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebminingTokoroten Nakayama
 
スマホマーケットの概要と、 マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、 マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)Tokoroten Nakayama
 

En vedette (10)

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
 
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
 
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
 
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡
不動産価格査定におけるヘドニックアプローチからディープラーニングへの進化の軌跡
 
TDAの概要と適用・有用性
TDAの概要と適用・有用性TDAの概要と適用・有用性
TDAの概要と適用・有用性
 
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話
CEDEC2013 ソーシャルゲームの開発現場でUXについて思いっきりあがいてみた1年間の話
 
データに振り回されて失敗した あんなことやこんなこと ~ゲームのために必要な本当の ビジネス・アナリティクス~
データに振り回されて失敗したあんなことやこんなこと~ゲームのために必要な本当のビジネス・アナリティクス~データに振り回されて失敗したあんなことやこんなこと~ゲームのために必要な本当のビジネス・アナリティクス~
データに振り回されて失敗した あんなことやこんなこと ~ゲームのために必要な本当の ビジネス・アナリティクス~
 
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
 
DAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebminingDAUを評価指標から捨てた会社の話 #tokyowebmining
DAUを評価指標から捨てた会社の話 #tokyowebmining
 
スマホマーケットの概要と、 マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
スマホマーケットの概要と、 マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
 

Similaire à データサイエンティストの今

ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)Kensuke SAEKI
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
Tableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とはTableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とはHiroshi Masuda
 
dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山Daiyu Hatakeyama
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
Tableau x データサイエンス
Tableau x データサイエンスTableau x データサイエンス
Tableau x データサイエンスHiroshi Masuda
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itselfHiroyukiOtsubo
 
データ処理の改善をどのように行なうか
データ処理の改善をどのように行なうかデータ処理の改善をどのように行なうか
データ処理の改善をどのように行なうかKen SASAKI
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauDataWorks Summit
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1Shunsuke Nakamura
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐Rakuten Group, Inc.
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~Kensuke SAEKI
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などRyusuke Ashiya
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方Shohei Hido
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1Shunsuke Nakamura
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1Shunsuke Nakamura
 

Similaire à データサイエンティストの今 (20)

ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
Tableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とはTableauデータサイエンス勉強会(ユーザ会)とは
Tableauデータサイエンス勉強会(ユーザ会)とは
 
dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
Tableau x データサイエンス
Tableau x データサイエンスTableau x データサイエンス
Tableau x データサイエンス
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
データ処理の改善をどのように行なうか
データ処理の改善をどのように行なうかデータ処理の改善をどのように行なうか
データ処理の改善をどのように行なうか
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 
OpenData_DataCurator_20140927
OpenData_DataCurator_20140927OpenData_DataCurator_20140927
OpenData_DataCurator_20140927
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
 

データサイエンティストの今