Contenu connexe
Similaire à Lighter Project #2 @cougar (20)
Lighter Project #2 @cougar
- 2. Not DataScientist
Not Engineer
• 商売
• マーケティング・リサーチの集計・分析・コンサル
• バックオフィスの業務推進(金融・証券・会計)
• ITインストラクター
• 好き
• シンセ/日本画とか
• 流行りモノ/イベント
• PC/ガジェット
• 目標
• 自分が楽しくて、世界をちょっと便利にすることで食っていく
Marketer & Bussiness
Consultant
- 6. Pythonでスクレイピングをしよう
• 必要なもの
• HTTPライブラリ
• requests
• urllib
• httplib
• http.client
• html解析ライブラリ
• Beautiful Soup
• pyQuery
• HTTPパーサ
• lxml
• html.parser
XPATHの利用経験があれば、さほど難しい感じはない
AnacondaにBeautiful Soupはプリインストールされている!
• スクレイピング beautiful soup:12,600件
• スクレイピング pyquery:1,110件
• スクレイピング lxml:2,130件
• スクレイピング html.parser:5,590 件
• beautiful soup lxml:96,100件
• beautifulsoup html.parser:92,300件
→圧倒的に記事が多い
→jQueryに慣れている人向け
→柔軟・高速
→標準ライブラリ
- 7. Beautiful Soup + lxmlでやろう
• 文字コードの考慮だけ必要かな?→chardet
• 参考:http://orangain.hatenablog.com/entry/encoding-in-requests-and-beautiful-soup
• すげえ簡単