SlideShare une entreprise Scribd logo
1  sur  14
Desarrollo tecnológico y documental del
webcrawler Mbot: prueba de análisis web
de la universidad española
Prof. Manuel Blázquez Ochando
manuel.blazquez@pdi.ucm.es
http://www.mblazquez.es/
1“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Planteamiento y objetivos
•
No existen herramientas de webcrawling realmente
sencillas de utilizar , gestionar e instalar
•
En el año 2010 comienza el desarrollo del webcrawler
Mbot
– Mínimos requerimientos de instalación, fácil configuración y
ejecución
– Organización de la información tabulada en BD para su empleo
extensivo en investigaciones cibermétricas
2“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Hitos de la experimentación con Mbot
•
2011-02-28. Primeras pruebas del Mbot webcrawler
http://www.mblazquez.es/documents/articulo-pruebas1-mbot.html
– Demostración pública en línea
– Análisis de repositorios institucionales, universidades, c. investigación
•
2011-06-30. Análisis de la web y usabilidad: prueba de
funcionamiento de Mbot webcrawler. En: X Congreso del Capítulo
español de ISKO.
– Análisis completo del sitio web de NASA y ESA
– Más de 60.000 enlaces, 3 niveles de profundidad, ratio de extracción de
1,3 páginas por segundo, 15.000 imágenes, 500 canales de3“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
•
2012-11-30. Análisis webmétrico de los medios de comunicación
brasileños: prensa, radio y televisión. En: I Seminario Hispano
Brasileño de Biblioteconomía y Documentación
– 1.315 medios de comunicación, más de 2 millones de enlaces, 2
niveles de profundidad, 4000 canales de sindicación especializados,
creación del primer mapa de la web brasileña de medios de
comunicación
•
2013-05-24. FESABID 2013. Prueba de análisis web de la
universidad española
– Muestra de 147 sedes universitarias analizadas
– 270.000 enlaces únicos
– 1GB de datos
4“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Especificaciones de Mbot
•
Obtener datos: enlaces, metadatos, canales de sindicación,
imágenes, documentos, archivos multimedia, imágenes, código
fuente, texto completo depurado.
•
Almacenamiento: Base de datos SQL y archivos tabulados
•
Rastreo de páginas vinculadas con un máximo de 10 niveles de
análisis
•
Análisis de la web orientado al establecimiento de rankings, la
usabilidad y accesibilidad 5“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Un vistazo a Mbot
6
http://www.youtube.com/user/mblazquez7channel
“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
A
n
á
l
i
s
i
s
d
e
l
a
w
7
“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Nivel de
profundidad
del análisis
Nº de
recursos
analizados
Nº de enlaces
únicos
Sitios web Páginas web Tamaño en MB
Nivel 1 147 8.108 1.544 6.564 5
Nivel 2 6.479 41.031 5.165 35.866 109.7
Nivel 3 30.425 220.794 19.365 201.429 920.2
Total 37.051 269.933 26.074 243.859 1034.9
Tiempos de
ejecución
Inicio 2012-10-12T12:30:36+01:00 - Fin 2012-10-13T18:11:10+01:00
Análisis de dominios
8“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Dominios .es .de .uk .us .com .org .net .edu
Nº sitios 3.645 73 146 7 2.838 1.207 335 1.075
Nº páginas
118.38
5
819 686 4.438 37.573 4.965 6.785 78.814
Porcentaje
de enlaces
únicos
45,21% 0,33% 0,31% 1,65%
14,97
%
2,29% 2,64% 29,60%
ES (45,21%), EDU (29,60%) y COM (14,97%)
Tipología de páginas web según su
programación
•
Equilibrio entre la web estática y dinámica
•
Se emplea más la programación en PHP que ASP a la hora de
elaborar páginas web en la universidad
•
Práctica inexistencia de web semántica en formato RDF
9
Formato .html .xml .rdf .rss .php .asp
Nº de enlaces 59.267 166 0 2.811 38.512 22.202
Porcentaje
relativo a
formatos web
Enlaces a páginas estáticas
49,47%
Enlaces a páginas dinámicas
50,53%
“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Macroestructura de la web
10“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
Componente Porcentaje
MAIN 9,60%
IN 0,24%
OUT 2,84%
ISLAND 84,41%
TENTACLE IN 0,12%
TENTACLE OUT 2,55%
TUNNEL 0,21%
11
Mapa web de la universidad española
http://www.youtube.com/user/mblazquez7channel
“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
C
o
n
c
l
u
12
“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
4. El futuro de Mbot, será la consolidación del interfaz gráfico de control,
de los distintos modos de ejecución a saber: 1) análisis de rankings, 2)
análisis de enlaces, 3) análisis de contenidos, 4) análisis de usabilidad y
accesibilidad. Finalmente, una vez superadas las pruebas de ejecución y
rendimiento, la herramienta será puesta a disposición de cualquier
investigador como programa de código abierto.
5. En relación a la web universitaria española, se concluye que un
análisis a 3 niveles, permite obtener más de 250.000 enlaces únicos
de los que 26.000 son sitios web, suponiendo en conjunto un total de más
de 1GB de tamaño total.
6. Los dominios de tipo ES son los más abundantes con el 45% del total,
junto con los de tipo académico EDU con un 29%. La presencia de
dominios de terceros países es muy reducida, lo cual indica una baja13“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”
7. Los documentos de texto, imágenes y audiovisuales representan un
35% del total de enlaces únicos extraídos, quedando un 75% de sitios
y páginas web entre las que se encuentra un equilibrio cuantitativo
próximo al 50% entre el número de webs estáticas y dinámicas.
8. Sólo el 15% de la web universitaria española se encuentra en los
valores altos de interconexión de sus enlaces. El resto queda
débilmente vinculado, lo cual sugiere una red de universidades poco
cooperativa. La representación gráfica de la web de la universidad
española, permite corroborar este hecho, destacando el alto número de
islas, comprobando cómo la web universitaria española es en sí misma
una gran isla.
14“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo
de 2013”

Contenu connexe

Similaire à Fs12 manuel-blazquez-ochando

Rendición Grupal 2009
Rendición Grupal 2009Rendición Grupal 2009
Rendición Grupal 2009Manu Naranjo
 
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...cruetic2015
 
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...Donato Huayhua Huayhua
 
Presentación proyecto Biblioteca Digital Colombiana
Presentación proyecto Biblioteca Digital ColombianaPresentación proyecto Biblioteca Digital Colombiana
Presentación proyecto Biblioteca Digital Colombianacolfreepress
 
Exposición proyecto batems
Exposición proyecto batemsExposición proyecto batems
Exposición proyecto batemsCarlos Hdez
 
La plataforma Latttes en el Ecuador-Trávez
La plataforma Latttes en el Ecuador-TrávezLa plataforma Latttes en el Ecuador-Trávez
La plataforma Latttes en el Ecuador-TrávezLatindex
 
Exposición de Tesis - Teoría de Sistemas.
Exposición de Tesis - Teoría de Sistemas.Exposición de Tesis - Teoría de Sistemas.
Exposición de Tesis - Teoría de Sistemas.migue beltran
 
Pre inscripcion rea
Pre inscripcion reaPre inscripcion rea
Pre inscripcion readiodotower
 
Formato_Información general.pptx
Formato_Información general.pptxFormato_Información general.pptx
Formato_Información general.pptxKarla Silva
 
master-desarrollo-web- online
master-desarrollo-web- onlinemaster-desarrollo-web- online
master-desarrollo-web- onlinesayocanos
 
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01Ramiro Nahuel Pol
 
Reunión Grupo de Trabajo de Tecnologías del Aprendizaje
Reunión Grupo de Trabajo de Tecnologías del AprendizajeReunión Grupo de Trabajo de Tecnologías del Aprendizaje
Reunión Grupo de Trabajo de Tecnologías del AprendizajeINTEF
 

Similaire à Fs12 manuel-blazquez-ochando (20)

Ponencia tics
Ponencia ticsPonencia tics
Ponencia tics
 
Visión y proyectos de RedCLARA: el presente y el futuro por Florencio Utrera...
 Visión y proyectos de RedCLARA: el presente y el futuro por Florencio Utrera... Visión y proyectos de RedCLARA: el presente y el futuro por Florencio Utrera...
Visión y proyectos de RedCLARA: el presente y el futuro por Florencio Utrera...
 
Rendición Grupal 2009
Rendición Grupal 2009Rendición Grupal 2009
Rendición Grupal 2009
 
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...
Repositorio de contenidos digitales de la UNED. Web semántica y búsquedas fed...
 
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...
PORTAL WEB PARA LA GESTIÓN DE INFORMACIÓN DEL INSTITUTO DE INVESTIGACIONES LI...
 
Presentación proyecto Biblioteca Digital Colombiana
Presentación proyecto Biblioteca Digital ColombianaPresentación proyecto Biblioteca Digital Colombiana
Presentación proyecto Biblioteca Digital Colombiana
 
Máster en Ingeniería Web
Máster en Ingeniería WebMáster en Ingeniería Web
Máster en Ingeniería Web
 
Exposición proyecto batems
Exposición proyecto batemsExposición proyecto batems
Exposición proyecto batems
 
La plataforma Latttes en el Ecuador-Trávez
La plataforma Latttes en el Ecuador-TrávezLa plataforma Latttes en el Ecuador-Trávez
La plataforma Latttes en el Ecuador-Trávez
 
La nueva web de la BV-SSPA
La nueva web de la BV-SSPALa nueva web de la BV-SSPA
La nueva web de la BV-SSPA
 
Exposición de Tesis - Teoría de Sistemas.
Exposición de Tesis - Teoría de Sistemas.Exposición de Tesis - Teoría de Sistemas.
Exposición de Tesis - Teoría de Sistemas.
 
Jenui2001
Jenui2001Jenui2001
Jenui2001
 
Taller de CONTENTdm
Taller de CONTENTdmTaller de CONTENTdm
Taller de CONTENTdm
 
CAMPI
CAMPICAMPI
CAMPI
 
Pre inscripcion rea
Pre inscripcion reaPre inscripcion rea
Pre inscripcion rea
 
Formato_Información general.pptx
Formato_Información general.pptxFormato_Información general.pptx
Formato_Información general.pptx
 
master-desarrollo-web- online
master-desarrollo-web- onlinemaster-desarrollo-web- online
master-desarrollo-web- online
 
Cuestionario
CuestionarioCuestionario
Cuestionario
 
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01
UDESA 2010 - Educación y Tecnología - Ciencias de la Educación - Taller 01
 
Reunión Grupo de Trabajo de Tecnologías del Aprendizaje
Reunión Grupo de Trabajo de Tecnologías del AprendizajeReunión Grupo de Trabajo de Tecnologías del Aprendizaje
Reunión Grupo de Trabajo de Tecnologías del Aprendizaje
 

Plus de FESABID

Cuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaCuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaFESABID
 
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...FESABID
 
Información bibliográfica BNE: experiencias cooperativas
Información bibliográfica BNE: experiencias cooperativasInformación bibliográfica BNE: experiencias cooperativas
Información bibliográfica BNE: experiencias cooperativasFESABID
 
El catalogo colectivo de REBIUN. 1990-2015
El catalogo colectivo de REBIUN. 1990-2015El catalogo colectivo de REBIUN. 1990-2015
El catalogo colectivo de REBIUN. 1990-2015FESABID
 
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...FESABID
 
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de Madrid
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de MadridMOOCs y Bibliotecas: el caso de la Universidad Carlos III de Madrid
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de MadridFESABID
 
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...FESABID
 
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...FESABID
 
Oportunidades para el desarrollo profesional de los especialistas de gestión ...
Oportunidades para el desarrollo profesional de los especialistas de gestión ...Oportunidades para el desarrollo profesional de los especialistas de gestión ...
Oportunidades para el desarrollo profesional de los especialistas de gestión ...FESABID
 
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...FESABID
 
Estrategias para abordar el cumplimiento de los requisitos de la documentació...
Estrategias para abordar el cumplimiento de los requisitos de la documentació...Estrategias para abordar el cumplimiento de los requisitos de la documentació...
Estrategias para abordar el cumplimiento de los requisitos de la documentació...FESABID
 
Cuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaCuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaFESABID
 
Datos.bne y otras políticas abiertas de datos bibliográficos en BNE
Datos.bne y otras políticas abiertas de datos bibliográficos en BNEDatos.bne y otras políticas abiertas de datos bibliográficos en BNE
Datos.bne y otras políticas abiertas de datos bibliográficos en BNEFESABID
 
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de España
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de EspañaDatos de todos y para todos: Plan RISP de la Biblioteca Nacional de España
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de EspañaFESABID
 
Portal de indicadores económicos y de servicios locales
Portal de indicadores económicos y de servicios localesPortal de indicadores económicos y de servicios locales
Portal de indicadores económicos y de servicios localesFESABID
 
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...FESABID
 
DATAGOV: un paso más en la apertura de datos al servicio del ciudadano
DATAGOV: un paso más en la apertura de datos al servicio del ciudadanoDATAGOV: un paso más en la apertura de datos al servicio del ciudadano
DATAGOV: un paso más en la apertura de datos al servicio del ciudadanoFESABID
 
Inteligencia emocional en unidades de información: una experiencia formativa ...
Inteligencia emocional en unidades de información: una experiencia formativa ...Inteligencia emocional en unidades de información: una experiencia formativa ...
Inteligencia emocional en unidades de información: una experiencia formativa ...FESABID
 
Informes ThinkEPI 2015 siobre documentación y comunicación
Informes ThinkEPI 2015 siobre documentación y comunicaciónInformes ThinkEPI 2015 siobre documentación y comunicación
Informes ThinkEPI 2015 siobre documentación y comunicaciónFESABID
 
Acceso Abierto en 2014: se sigue avanzando
Acceso Abierto en 2014: se sigue avanzandoAcceso Abierto en 2014: se sigue avanzando
Acceso Abierto en 2014: se sigue avanzandoFESABID
 

Plus de FESABID (20)

Cuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaCuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación española
 
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...
Catálogos colectivos y agregación de contenidos: proyectos de la S.G. de Coor...
 
Información bibliográfica BNE: experiencias cooperativas
Información bibliográfica BNE: experiencias cooperativasInformación bibliográfica BNE: experiencias cooperativas
Información bibliográfica BNE: experiencias cooperativas
 
El catalogo colectivo de REBIUN. 1990-2015
El catalogo colectivo de REBIUN. 1990-2015El catalogo colectivo de REBIUN. 1990-2015
El catalogo colectivo de REBIUN. 1990-2015
 
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...
La biblioteca Jaume Fuster: un aliado para la formación continua en el territ...
 
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de Madrid
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de MadridMOOCs y Bibliotecas: el caso de la Universidad Carlos III de Madrid
MOOCs y Bibliotecas: el caso de la Universidad Carlos III de Madrid
 
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...
Biblioforma’t: el itinerario formativo de la Red de Bibliotecas Municipales d...
 
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...
Explota tus datos: Análisis cuantitativo de sitios web de bibliotecas a travé...
 
Oportunidades para el desarrollo profesional de los especialistas de gestión ...
Oportunidades para el desarrollo profesional de los especialistas de gestión ...Oportunidades para el desarrollo profesional de los especialistas de gestión ...
Oportunidades para el desarrollo profesional de los especialistas de gestión ...
 
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...
La nuevas normas de sistemas de gestión y los cambios en los requisitos de la...
 
Estrategias para abordar el cumplimiento de los requisitos de la documentació...
Estrategias para abordar el cumplimiento de los requisitos de la documentació...Estrategias para abordar el cumplimiento de los requisitos de la documentació...
Estrategias para abordar el cumplimiento de los requisitos de la documentació...
 
Cuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación españolaCuando fallan los sistemas que gestionan los datos de la investigación española
Cuando fallan los sistemas que gestionan los datos de la investigación española
 
Datos.bne y otras políticas abiertas de datos bibliográficos en BNE
Datos.bne y otras políticas abiertas de datos bibliográficos en BNEDatos.bne y otras políticas abiertas de datos bibliográficos en BNE
Datos.bne y otras políticas abiertas de datos bibliográficos en BNE
 
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de España
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de EspañaDatos de todos y para todos: Plan RISP de la Biblioteca Nacional de España
Datos de todos y para todos: Plan RISP de la Biblioteca Nacional de España
 
Portal de indicadores económicos y de servicios locales
Portal de indicadores económicos y de servicios localesPortal de indicadores económicos y de servicios locales
Portal de indicadores económicos y de servicios locales
 
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...
RED_PARLAMENTA: Espacio virtual de comunicación, intercambio y transparencia ...
 
DATAGOV: un paso más en la apertura de datos al servicio del ciudadano
DATAGOV: un paso más en la apertura de datos al servicio del ciudadanoDATAGOV: un paso más en la apertura de datos al servicio del ciudadano
DATAGOV: un paso más en la apertura de datos al servicio del ciudadano
 
Inteligencia emocional en unidades de información: una experiencia formativa ...
Inteligencia emocional en unidades de información: una experiencia formativa ...Inteligencia emocional en unidades de información: una experiencia formativa ...
Inteligencia emocional en unidades de información: una experiencia formativa ...
 
Informes ThinkEPI 2015 siobre documentación y comunicación
Informes ThinkEPI 2015 siobre documentación y comunicaciónInformes ThinkEPI 2015 siobre documentación y comunicación
Informes ThinkEPI 2015 siobre documentación y comunicación
 
Acceso Abierto en 2014: se sigue avanzando
Acceso Abierto en 2014: se sigue avanzandoAcceso Abierto en 2014: se sigue avanzando
Acceso Abierto en 2014: se sigue avanzando
 

Fs12 manuel-blazquez-ochando

  • 1. Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española Prof. Manuel Blázquez Ochando manuel.blazquez@pdi.ucm.es http://www.mblazquez.es/ 1“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 2. Planteamiento y objetivos • No existen herramientas de webcrawling realmente sencillas de utilizar , gestionar e instalar • En el año 2010 comienza el desarrollo del webcrawler Mbot – Mínimos requerimientos de instalación, fácil configuración y ejecución – Organización de la información tabulada en BD para su empleo extensivo en investigaciones cibermétricas 2“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 3. Hitos de la experimentación con Mbot • 2011-02-28. Primeras pruebas del Mbot webcrawler http://www.mblazquez.es/documents/articulo-pruebas1-mbot.html – Demostración pública en línea – Análisis de repositorios institucionales, universidades, c. investigación • 2011-06-30. Análisis de la web y usabilidad: prueba de funcionamiento de Mbot webcrawler. En: X Congreso del Capítulo español de ISKO. – Análisis completo del sitio web de NASA y ESA – Más de 60.000 enlaces, 3 niveles de profundidad, ratio de extracción de 1,3 páginas por segundo, 15.000 imágenes, 500 canales de3“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 4. • 2012-11-30. Análisis webmétrico de los medios de comunicación brasileños: prensa, radio y televisión. En: I Seminario Hispano Brasileño de Biblioteconomía y Documentación – 1.315 medios de comunicación, más de 2 millones de enlaces, 2 niveles de profundidad, 4000 canales de sindicación especializados, creación del primer mapa de la web brasileña de medios de comunicación • 2013-05-24. FESABID 2013. Prueba de análisis web de la universidad española – Muestra de 147 sedes universitarias analizadas – 270.000 enlaces únicos – 1GB de datos 4“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 5. Especificaciones de Mbot • Obtener datos: enlaces, metadatos, canales de sindicación, imágenes, documentos, archivos multimedia, imágenes, código fuente, texto completo depurado. • Almacenamiento: Base de datos SQL y archivos tabulados • Rastreo de páginas vinculadas con un máximo de 10 niveles de análisis • Análisis de la web orientado al establecimiento de rankings, la usabilidad y accesibilidad 5“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 6. Un vistazo a Mbot 6 http://www.youtube.com/user/mblazquez7channel “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 7. A n á l i s i s d e l a w 7 “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013” Nivel de profundidad del análisis Nº de recursos analizados Nº de enlaces únicos Sitios web Páginas web Tamaño en MB Nivel 1 147 8.108 1.544 6.564 5 Nivel 2 6.479 41.031 5.165 35.866 109.7 Nivel 3 30.425 220.794 19.365 201.429 920.2 Total 37.051 269.933 26.074 243.859 1034.9 Tiempos de ejecución Inicio 2012-10-12T12:30:36+01:00 - Fin 2012-10-13T18:11:10+01:00
  • 8. Análisis de dominios 8“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013” Dominios .es .de .uk .us .com .org .net .edu Nº sitios 3.645 73 146 7 2.838 1.207 335 1.075 Nº páginas 118.38 5 819 686 4.438 37.573 4.965 6.785 78.814 Porcentaje de enlaces únicos 45,21% 0,33% 0,31% 1,65% 14,97 % 2,29% 2,64% 29,60% ES (45,21%), EDU (29,60%) y COM (14,97%)
  • 9. Tipología de páginas web según su programación • Equilibrio entre la web estática y dinámica • Se emplea más la programación en PHP que ASP a la hora de elaborar páginas web en la universidad • Práctica inexistencia de web semántica en formato RDF 9 Formato .html .xml .rdf .rss .php .asp Nº de enlaces 59.267 166 0 2.811 38.512 22.202 Porcentaje relativo a formatos web Enlaces a páginas estáticas 49,47% Enlaces a páginas dinámicas 50,53% “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 10. Macroestructura de la web 10“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013” Componente Porcentaje MAIN 9,60% IN 0,24% OUT 2,84% ISLAND 84,41% TENTACLE IN 0,12% TENTACLE OUT 2,55% TUNNEL 0,21%
  • 11. 11 Mapa web de la universidad española http://www.youtube.com/user/mblazquez7channel “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 12. C o n c l u 12 “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 13. 4. El futuro de Mbot, será la consolidación del interfaz gráfico de control, de los distintos modos de ejecución a saber: 1) análisis de rankings, 2) análisis de enlaces, 3) análisis de contenidos, 4) análisis de usabilidad y accesibilidad. Finalmente, una vez superadas las pruebas de ejecución y rendimiento, la herramienta será puesta a disposición de cualquier investigador como programa de código abierto. 5. En relación a la web universitaria española, se concluye que un análisis a 3 niveles, permite obtener más de 250.000 enlaces únicos de los que 26.000 son sitios web, suponiendo en conjunto un total de más de 1GB de tamaño total. 6. Los dominios de tipo ES son los más abundantes con el 45% del total, junto con los de tipo académico EDU con un 29%. La presencia de dominios de terceros países es muy reducida, lo cual indica una baja13“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”
  • 14. 7. Los documentos de texto, imágenes y audiovisuales representan un 35% del total de enlaces únicos extraídos, quedando un 75% de sitios y páginas web entre las que se encuentra un equilibrio cuantitativo próximo al 50% entre el número de webs estáticas y dinámicas. 8. Sólo el 15% de la web universitaria española se encuentra en los valores altos de interconexión de sus enlaces. El resto queda débilmente vinculado, lo cual sugiere una red de universidades poco cooperativa. La representación gráfica de la web de la universidad española, permite corroborar este hecho, destacando el alto número de islas, comprobando cómo la web universitaria española es en sí misma una gran isla. 14“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”