Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Scraping
1. Scraping express
Scraping express
El arte de recuperar datos
´
Seraf´n Velez Barrera
ı
serafa12000@gmail.com – @seravb
22 de febrero de 2013
´
Seraf´n Velez Barrera
ı Scraping express
3. Scraping express
´
Introduccion
´
¿Que eso del scraping?
´
El scraping es un tecnica que se usa para recuperar
´
datos de una web o documento basicamente.
ı ´
Seraf´n Velez Barrera Scraping express
4. Scraping express
´
¿Como se hace?
´
¿Como se hace?
´
Existen varios metodos, por ejemplo:
Para una web ´
Algun framework Scrapy, FastCrawl..
Tablas de PDF Algunas web Tabula
ı ´
Seraf´n Velez Barrera Scraping express
5. Scraping express
Scrapy
´
Instalacion de Scrapy
Podremos instalar Scrapy de varias maneras:
Descarga de la web oficial de Scrapy
L´nea de comandos:
ı
easy install -U Scrapy
pip install Scrapy
Centro de software
ı ´
Seraf´n Velez Barrera Scraping express
6. Scraping express
Scrapy
Conociendo a Scrapy
Cuando usamos Scrapy tenemos que crear un proyecto, y cada
proyecto se compone de:
Items Definimos los elementos a extraer.
´
Spiders Es el corazon del proyecto, aqu´ definimos el
ı
´
procedimiento de extraccion.
´
Pipelines Son los elementos para analizar lo obtenido: validacion de
´
datos, limpieza del codigo html...
ı ´
Seraf´n Velez Barrera Scraping express
9. Scraping express
Scrapy
´ ´
Primeros pasos - Definicion de la informacion
1 from scrapy .item import Item , Field
2 class ODDItem (Item ):
3 title = Field ()
4 link = Field ()
5 desc = Field ()
ı ´
Seraf´n Velez Barrera Scraping express
13. Scraping express
Conclusiones
´
Conclusion
1 Piensa bien que quieres buscar/hacer (piensa en los
´
aspectos legales tambien).
2 ´ ´ ´
Buscate algun framework para trabajar o programate tu
script/programa para extraer datos.
3 Extrae los datos.
4 ´
Procesalos.
5 ´
Almacenalos si te es necesario.
ı ´
Seraf´n Velez Barrera Scraping express
15. Scraping express
Conclusiones
Bibliograf´a
ı
Web oficial de Scrapy
Scrapy en un vistazo
Tutorial de Scrapy
Ejemplo en Github
Tabula
ı ´
Seraf´n Velez Barrera Scraping express
16. Scraping express
Conclusiones
Licencia
Scraping express - El arte de recuperar datos
´
by Seraf´n Velez Barrera is licensed under a
ı
Creative Commons Reconocimiento-
NoComercial-CompartirIgual 3.0 Unported
License.
ı ´
Seraf´n Velez Barrera Scraping express