2. Problema
El diario oficial de la federación tiene
información muy valiosa del país.
Pero está en un formato horrible.
http://www.dof.gob.mx/index.php
3. Solución
Si pudiéramos obtener la información,
almacenarla y presentarla en un formato
amigable para el lector en forma de una
suscripción para recibir notificaciones a ciertos
temas de interés.
4. Web Scraping
Es una técnica utilizada para la extracción de
información de sitios web utilizando un
programa de computadora que actúa de forma
similar a un explorador web.
5. Herramientas para web scraping
● Scrapy, scraping and web crawling
framework para Python: https://github.
com/scrapy/scrapy/
● Scraper wiki, es un servicio de workers
automáticos que se quedan “scrapeando”:
https://scraperwiki.com/
6. Demo Scrapy
Código del demo en:
https://github.com/CodeandoMexico/web-scraping
Guardar información en un archivo json:
$ scrapy crawl dof -o notes.json -t json