SlideShare une entreprise Scribd logo
1  sur  28
Juan Carlos Gonzales Q
SCRAPING & API REST
https://www.facebook.com/elcharlygraf
NO ACCESO
SCRAPING
DATA SCRAPING
Tiene la atención de los periodistas que necesitan
acceder y organizar los datos para reportajes de investigación.
¿Qué es Scraping?
Es un método que nos
permite “extraer datos para
transportarlos a un
formato sencillo” para
analizarlos y cruzarlos con
mayor facilidad.
¿Hay límites para scraping?
¿A qué formatos nos
enfrentamos?
- PDF.
- HTML.
- RTF.
- JPG.
- DOCX.
● Cuando hacemos una búsqueda de datos, muchas veces nos
encontramos con información que está en distintos formatos.
● Las técnicas de scraping nos permiten unificar formatos de datos para
combinarlos y analizarlos luego.
Herramienta para scrapear PDF:
- www.zamzar.com
convierte .pdf’s a x
pdf docentes
Scrapear imágenes
Herramienta para scrapear imágenes:
- www.free-ocr.com
http://www.scielo.org.mx/img/revistas/rmie/v14
n43/a9c1.jpg
Scrapea imágenes.
Herramientas:
- Para desarrolladores:
SCRAPY: https://github.com/scrapy/scrapy/
Mozenda, Scraper wiki, DeiXto, Nokogiri, kimonolabs,
simple_html_dom, etc.
Import.io
¿Qué hacemos con
los datos?
Principalmente
recomiendo usar la
imaginación.
- Manual del periodismo de datos:
http://manual.periodismodedatos.org/
Aspectos Legales
“no estarán autorizadas la extracción y/o reutilización
repetidas o sistemáticas de partes no sustanciales del
contenido de una base de datos que supongan actos
contrarios a una explotación normal de dicha base o que
causen un perjuicio injustificado a los intereses
legítimos del fabricante”.
Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se
aprueba el Texto Refundido de la Ley de Propiedad Intelectual.
WEB SCRAPING
Técnicas utilizadas para obtener datos de sitios web. Podemos hacerlo
mediante el uso de comandos, extensiones, software o scripts.
¿En qué lenguajes?
- PHP
- PYTHON
- RUBI
- JAVASCRIPT
- JAVA
- Cualquiera :)
¿Cómo funciona?
- Script descarga.
- Script de scraping.
- Script de insert BD.
Software de scraping:
HTTrack
Crawlers Buscadores de vínculos, para indexar.
Crawlers Buscadores de vínculos, para indexar.
Facebook
Compartir enlace.
si, es simple :3
Frameworks de scraping
1. Goutte : Es una librería de rastreo web en PHP. Goutte proporciona una agradable API para
rastrear sitios web y extraer los datos de las respuestas ya sea HTML o XML. Ha sido creado con
Symfony2.
2. Guzzle: Es un framework que incluye las herramientas necesarias para crear un cliente robusto de
servicios web. Incluye: descripciones de Servicio para definir las entradas y salidas de una API,
iteradores para recorrer webs paginadas, procesamiento por lotes para el envío de un gran número
de solicitudes de la manera más eficiente posible. También ha sido creado usando Symfony2.
3. Snoopy: Es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar los
contenidos de la página web y la publicación de los formularios
4. PHPCrawl: Es un framework para el rastreo de sitios web usando el lenguaje de programación
PHP, por lo que es conocido como la librería webcrawler o rastreador de PHP.
SI ACCESO
API’S
Interfaz de programación de aplicaciones.
comunicación cliente - servidor.
¿Qué es una API?
WEB IO ANDROID OAUTH
API
REST: Representational State Tranfer (of resources)
¿Qué es REST?
Resources: Sustantivo
- User
- Company
- Etc.
Entities: Entidades
- Juan Carlos
- Laravel Perú {
users: '75'
}
Representation
- Json {
name: 'Juan Carlos',
edad: '23'
}
- Xml
<name>Juan Carlos</name>
- Csv
- Text
¿Para qué usar API REST?
● Exponer datos a otros programas.
● Facilitar el desarrollo del frontend.
● Crear arquitecturas orientadas a servicios.
Json, xml, texto plano...
¿Qué forma tiene la data?
HTTP: Mediante verbos o tipos de peticiones:
Get, Post, Put, Delete, Patch
¿Cual es el canal?
Esto nos devuelve estados:
200 - 299: Todo bien
400 - 499: Error del usuario
500 - 599: Error en el servidor
Las api’s del día a día.
API’S FAMOSAS
● Twitter
● Instagram
● Facebook
● Spotify
● Uber
Seguridad en las API’S
● APIS PÚBLICAS: Acceden por GET.
● APIS PRIVADAS: Necesitan un key & token.

Contenu connexe

Tendances (10)

Como crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea krComo crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea kr
 
Curs 1.6. Dades Enllaçades (14/02)
Curs 1.6. Dades Enllaçades (14/02)Curs 1.6. Dades Enllaçades (14/02)
Curs 1.6. Dades Enllaçades (14/02)
 
Busquedas en Internet
Busquedas en InternetBusquedas en Internet
Busquedas en Internet
 
Extensiones a un Buscador Web
Extensiones a un Buscador WebExtensiones a un Buscador Web
Extensiones a un Buscador Web
 
Busquedas efectivas en el Internet
Busquedas efectivas en el InternetBusquedas efectivas en el Internet
Busquedas efectivas en el Internet
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
 
¿que es mongodb?
¿que es mongodb?¿que es mongodb?
¿que es mongodb?
 
Web Semántica y Linked Data
Web Semántica y Linked DataWeb Semántica y Linked Data
Web Semántica y Linked Data
 
Proyecto final de metodología de investigación
Proyecto final de metodología de investigaciónProyecto final de metodología de investigación
Proyecto final de metodología de investigación
 
Te pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLiteTe pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLite
 

En vedette

Aparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señalesAparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señales
Liber Aparisi
 

En vedette (10)

Google Analytics API
Google Analytics APIGoogle Analytics API
Google Analytics API
 
Aparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señalesAparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señales
 
Apis webapps
Apis webappsApis webapps
Apis webapps
 
Apis, como reutilizar contenidos en tu web
Apis, como reutilizar contenidos en tu webApis, como reutilizar contenidos en tu web
Apis, como reutilizar contenidos en tu web
 
API WEB SQL ITParral
API WEB SQL ITParralAPI WEB SQL ITParral
API WEB SQL ITParral
 
OAuth and OpenID
OAuth and OpenIDOAuth and OpenID
OAuth and OpenID
 
Servicios web
Servicios webServicios web
Servicios web
 
SMPP 3.4 Protocol Specification (eng)
SMPP 3.4 Protocol Specification (eng)SMPP 3.4 Protocol Specification (eng)
SMPP 3.4 Protocol Specification (eng)
 
Diferencias de medición entre AdWords y Analytics
Diferencias de medición entre AdWords y AnalyticsDiferencias de medición entre AdWords y Analytics
Diferencias de medición entre AdWords y Analytics
 
Json short manual
Json short manualJson short manual
Json short manual
 

Similaire à WEB SCRAPING & API REST

Presentación html5
Presentación html5Presentación html5
Presentación html5
aydimdagam
 
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Ianpierr Miranda
 

Similaire à WEB SCRAPING & API REST (20)

WORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTWORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API REST
 
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Presentación html5
Presentación html5Presentación html5
Presentación html5
 
Fundamentos tecnologías web
Fundamentos tecnologías webFundamentos tecnologías web
Fundamentos tecnologías web
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Tarea 1.1 siza pamela
Tarea 1.1 siza pamelaTarea 1.1 siza pamela
Tarea 1.1 siza pamela
 
Pillarsjs una aventura Open Source
Pillarsjs una aventura Open SourcePillarsjs una aventura Open Source
Pillarsjs una aventura Open Source
 
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
 
Mada metodología ágil de desarrollo de apis
Mada   metodología ágil de desarrollo de apisMada   metodología ágil de desarrollo de apis
Mada metodología ágil de desarrollo de apis
 
HMSSC
HMSSCHMSSC
HMSSC
 
Gestores de contenido
Gestores de contenidoGestores de contenido
Gestores de contenido
 
Marco conceptual
Marco conceptualMarco conceptual
Marco conceptual
 
Taller iii corte
Taller iii corteTaller iii corte
Taller iii corte
 
Servidor push
Servidor pushServidor push
Servidor push
 
Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1
 
Web framework ligeros y micros en java barcamp 2014
Web framework ligeros y micros en java   barcamp 2014Web framework ligeros y micros en java   barcamp 2014
Web framework ligeros y micros en java barcamp 2014
 
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
 

Dernier

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Dernier (10)

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 

WEB SCRAPING & API REST

  • 1. Juan Carlos Gonzales Q SCRAPING & API REST https://www.facebook.com/elcharlygraf
  • 3. DATA SCRAPING Tiene la atención de los periodistas que necesitan acceder y organizar los datos para reportajes de investigación.
  • 4. ¿Qué es Scraping? Es un método que nos permite “extraer datos para transportarlos a un formato sencillo” para analizarlos y cruzarlos con mayor facilidad.
  • 6. ¿A qué formatos nos enfrentamos? - PDF. - HTML. - RTF. - JPG. - DOCX. ● Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en distintos formatos. ● Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.
  • 7. Herramienta para scrapear PDF: - www.zamzar.com convierte .pdf’s a x pdf docentes
  • 9. Herramienta para scrapear imágenes: - www.free-ocr.com http://www.scielo.org.mx/img/revistas/rmie/v14 n43/a9c1.jpg Scrapea imágenes.
  • 10. Herramientas: - Para desarrolladores: SCRAPY: https://github.com/scrapy/scrapy/ Mozenda, Scraper wiki, DeiXto, Nokogiri, kimonolabs, simple_html_dom, etc. Import.io
  • 11. ¿Qué hacemos con los datos? Principalmente recomiendo usar la imaginación. - Manual del periodismo de datos: http://manual.periodismodedatos.org/
  • 12. Aspectos Legales “no estarán autorizadas la extracción y/o reutilización repetidas o sistemáticas de partes no sustanciales del contenido de una base de datos que supongan actos contrarios a una explotación normal de dicha base o que causen un perjuicio injustificado a los intereses legítimos del fabricante”. Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intelectual.
  • 13. WEB SCRAPING Técnicas utilizadas para obtener datos de sitios web. Podemos hacerlo mediante el uso de comandos, extensiones, software o scripts.
  • 14. ¿En qué lenguajes? - PHP - PYTHON - RUBI - JAVASCRIPT - JAVA - Cualquiera :)
  • 15. ¿Cómo funciona? - Script descarga. - Script de scraping. - Script de insert BD. Software de scraping: HTTrack
  • 16. Crawlers Buscadores de vínculos, para indexar.
  • 17. Crawlers Buscadores de vínculos, para indexar.
  • 20. Frameworks de scraping 1. Goutte : Es una librería de rastreo web en PHP. Goutte proporciona una agradable API para rastrear sitios web y extraer los datos de las respuestas ya sea HTML o XML. Ha sido creado con Symfony2. 2. Guzzle: Es un framework que incluye las herramientas necesarias para crear un cliente robusto de servicios web. Incluye: descripciones de Servicio para definir las entradas y salidas de una API, iteradores para recorrer webs paginadas, procesamiento por lotes para el envío de un gran número de solicitudes de la manera más eficiente posible. También ha sido creado usando Symfony2. 3. Snoopy: Es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar los contenidos de la página web y la publicación de los formularios 4. PHPCrawl: Es un framework para el rastreo de sitios web usando el lenguaje de programación PHP, por lo que es conocido como la librería webcrawler o rastreador de PHP.
  • 22. Interfaz de programación de aplicaciones. comunicación cliente - servidor. ¿Qué es una API? WEB IO ANDROID OAUTH API
  • 23. REST: Representational State Tranfer (of resources) ¿Qué es REST? Resources: Sustantivo - User - Company - Etc. Entities: Entidades - Juan Carlos - Laravel Perú { users: '75' } Representation - Json { name: 'Juan Carlos', edad: '23' } - Xml <name>Juan Carlos</name> - Csv - Text
  • 24. ¿Para qué usar API REST? ● Exponer datos a otros programas. ● Facilitar el desarrollo del frontend. ● Crear arquitecturas orientadas a servicios.
  • 25. Json, xml, texto plano... ¿Qué forma tiene la data?
  • 26. HTTP: Mediante verbos o tipos de peticiones: Get, Post, Put, Delete, Patch ¿Cual es el canal? Esto nos devuelve estados: 200 - 299: Todo bien 400 - 499: Error del usuario 500 - 599: Error en el servidor
  • 27. Las api’s del día a día. API’S FAMOSAS ● Twitter ● Instagram ● Facebook ● Spotify ● Uber
  • 28. Seguridad en las API’S ● APIS PÚBLICAS: Acceden por GET. ● APIS PRIVADAS: Necesitan un key & token.