SlideShare une entreprise Scribd logo
1  sur  8
続・本当にあった怖い話
- クローラ編 -
Yukino Ikegami
2016/10/22 PyLadies Tokyo 2nd anniversary
自己紹介
 名前: 池上有希乃
 Python歴: 6年
 IO株式会社で みんなの顔文字キーボード
作ってます!
背景
 機械学習でWebページのカテゴリを推定したい
 まずは学習用のデータ集めから
 某検索APIを使ってWebページをtxt形式で収集する
クローラを作って動かした
 Pythonで100行くらいの簡単な使い捨てクローラ
 時間がかかるので回したまま退社
翌日……
出社したら
 会社のMacにログインできない!?
 パスワード忘れたのかと何回やってもだめ
 どういうこと!?
なんとトロイが!
 収集したサイトのうち1つにトロイの木馬が仕込ん
であった!
 アンチウイルスソフトが反応して情シス部門が
アカウントをロックしたらしい
 しかもアダルトサイトだったので二重につらい……
反省点
 クロールしたデータはそのままじゃなくてDBに保
存するべきだった
 JavaScriptの部分を削るか本文抽出してから保
存するべきだった
まとめ
 雑なクローラを回して迷惑をかけてしまった
 使い捨てだからといって手を抜かない
 検索APIを過信しすぎない

Contenu connexe

Plus de Yukino Ikegami

出会って5行でディープラーニング推論
出会って5行でディープラーニング推論出会って5行でディープラーニング推論
出会って5行でディープラーニング推論Yukino Ikegami
 
本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」Yukino Ikegami
 
テキスト前処理用Pythonモジュールneologdnの紹介
テキスト前処理用Pythonモジュールneologdnの紹介テキスト前処理用Pythonモジュールneologdnの紹介
テキスト前処理用Pythonモジュールneologdnの紹介Yukino Ikegami
 
Pythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnPythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnYukino Ikegami
 
Modeless Japanese Input Method
Modeless Japanese Input MethodModeless Japanese Input Method
Modeless Japanese Input MethodYukino Ikegami
 
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...Yukino Ikegami
 
Topic and Opinion Classification based Information Credibility Analysis on Tw...
Topic and Opinion Classification based Information Credibility Analysis on Tw...Topic and Opinion Classification based Information Credibility Analysis on Tw...
Topic and Opinion Classification based Information Credibility Analysis on Tw...Yukino Ikegami
 

Plus de Yukino Ikegami (8)

PyPI入門2018
PyPI入門2018PyPI入門2018
PyPI入門2018
 
出会って5行でディープラーニング推論
出会って5行でディープラーニング推論出会って5行でディープラーニング推論
出会って5行でディープラーニング推論
 
本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」
 
テキスト前処理用Pythonモジュールneologdnの紹介
テキスト前処理用Pythonモジュールneologdnの紹介テキスト前処理用Pythonモジュールneologdnの紹介
テキスト前処理用Pythonモジュールneologdnの紹介
 
Pythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnPythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearn
 
Modeless Japanese Input Method
Modeless Japanese Input MethodModeless Japanese Input Method
Modeless Japanese Input Method
 
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Sem...
 
Topic and Opinion Classification based Information Credibility Analysis on Tw...
Topic and Opinion Classification based Information Credibility Analysis on Tw...Topic and Opinion Classification based Information Credibility Analysis on Tw...
Topic and Opinion Classification based Information Credibility Analysis on Tw...