SlideShare une entreprise Scribd logo
1  sur  35
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




              Repositorios de Datos para
               comunidades científicas.
                            Caso Comunidad LAGO
                                          Parte 1


                    Cátedra Scientiae. Facultad de Ciencias
                     Universidad Industrial de Santander
                                      Rodrigo Torréns
                                 José Alejandro Torres Niño
                                        Luis Nuñez
                                     Noviembre, 2011

     Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     1
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                                    Contenido
    Hablaremos sobre:


• El problema de la ubicación, preservación y
  uso de colecciones de datos científicas
• Tendencias en la colaboración científica
• Herramientas que pueden ayudar a
  solucionar algunos de los problemas



Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     2
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO



                    Los datos producto de una
                    investigación científica
Partamos de las preguntas básicas:

• Los datos que yo necesito…
  existen?

• Donde están?

• Como los obtengo?

La mayoria de los científicos se han
   planteado estas preguntas alguna vez

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     3
Repositorios de Datos para comunidades científicas.
                                                                                     Caso Comunidad LAGO



                     4 axiomas para la ciencia
                     intensiva en datos
Acceso                                               Flujo
• Global y abierto                                   •     Procesos
• Colecciones completas                              •     Curaduría
• Reservorios distribuidos (BD,                      •     Gerencia y mantenimiento
  repositorios de datos, datos                       •     Publicación
  en “la nube” )                                     Compartir
• Preservación                                       •     Estándares, XML
Interacción                                                esquemas, ontologías
• Metadata                                           •     Redes sociales
• Servicios web de herramientas                      •     Minería de datos
• Reutilización


   Claudio Mendoza.
   http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf

 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     4
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO



                     Problemas-retos a los que nos
                     enfrentamos
Tenemos que tener capacidades para…


• Manejar volumen de datos generados actualmente
• Preservarlos
• Encontrarlos
• Compartirlos, distribuirlos
• Usarlos, reusarlos

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     5
Repositorios de Datos para comunidades científicas.
                                                                                                                  Caso Comunidad LAGO




                                       …Problemas a los que nos enfrentamos
Ejemplo de degradación normal de los contenidos de
  información asociados con datos y metadatos a través del
  tiempo
                                      Momento de publicación




                                              Detalles específicos acerca de la recolección de los
                                              datos se pierden al pasar el tiempo


                                                                             Retiro o cambio de carrera del
     e d s od ne no C
         nó ca m o n
                 r f I




                                                                             científico recolector
              i t
            i




                         Accidente puede destruir datos
                         y documentación                                         Muerte del investigador y subsecuente perdida
                                                                                 de registros restantes




                                                                                                     Tiempo         (Michener, 1997)
   Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                                                6
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO


                     El problema del “diluvio” de datos. La era
                     del Petabyte

Volumen de datos…




                                                                                  www.wired.com
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida          7
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO



                     Nuevas formas de colaboración
                     científica
Ante estos retos, tenemos posibilidades y nuevas maneras
  de…

• Producir datos,

• de compartirlos (publicarlos), y…

• de trabajar colaborativamente




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     8
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO



                     Nuevas formas de colaboración
                     científica
Frecuentemente o cada vez más escuchamos y hablamos de…

•     “ciberinfraestructura”
•     “e-ciencia”
•     “e-investigación”
•     “colaboracion ubicua”
•     “data-driven Science”
•     “computación grid”
•     “computación social”
•     “acceso abierto al conocimiento”
…refiriendose a nuevas formas de producción y diseminación del conocimiento

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     9
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     e-ciencia
• El termino e-ciencia es usado para
  representar la creciente colaboración
  global de personas y uso de recursos
  compartidos, que serán (son) necesarias
  para resolver nuevos problemas de la
  ciencia y la ingeniería

         Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective
                      http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    10
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     Ejemplos de colecciones de datos:

 Datos generados por redes nacionales y mundiales de
   investigación (biología, medicina, física, etc.):

 • Datos del LHC generados en el CERN
 • Datos generados por las redes mundiales de sensores
   sísmicos
 • Estudios sobre cambios globales (GCMD-NASA)
 • Astronomía, los “telescopios virtuales” (Global Internet
   Telescope)
 • Banco de datos de Proteinas (PDB, Protein Data Bank)
 • Datos del genoma humano y de otras especies
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    11
Repositorios de Datos para comunidades científicas.
                                                                                     Caso Comunidad LAGO




                     Iniciativas de Acceso Abierto
A esto se unen las iniciativas por el uso sin
   restricciones de la información y datos:

• Iniciativas de Acceso Abierto al
  Conocimiento (OA, Open Access
  Initiatives)
• Movimiento Datos Libres (OD,
  Open Data)
• Repositorios Institucionales y por
  disciplina (temáticos)


 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    12
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO


                                                                     CERN LHC
                     Ejemplos:
-




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    13
Repositorios de Datos para comunidades científicas.
                                                                                        Caso Comunidad LAGO


                         Necesidad de usar tecnologías de
                         información (TICs)

    Para…

•    Ubicar
•    Accesar
•    Recuperar
•    Compartir
     …datos
          La mayoría usa
         LA RED (la Web) para
     satisfacer estas necesidades

    Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    14
Repositorios de Datos para comunidades científicas.
                                                                                      Caso Comunidad LAGO




                        Un objetivo importante

Qué debemos hacer para lograr el…

 Uso secundario y a largo
  plazo de colecciones de
      datos científicos
                                                 Se debe…

                                                 Garantizar permanencia de
                                                 los datos en el tiempo

                                                 Poder ubicar y recuperar la
                                                 información

  Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    15
Repositorios de Datos para comunidades científicas.
                                                                                     Caso Comunidad LAGO




                      Herramientas

Herramientas organizativas y tecnológicas que pueden hacer esto posible:


         Formación de Redes de colaboración entre
          científicos y entre usuarios de información
     Tecnologías de Información y Comunicaciones

                   Uso de metadatos y estándares
                    de intercambio de información
                      Creación y mantenimiento de
                          repositorios de datos

 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    16
Repositorios de Datos para comunidades científicas.
                                                                                          Caso Comunidad LAGO




                        ¿Qué significa la palabra “metadatos”?
• " Datos sobre los datos " .

• "Nivel superior de la información, o instrucciones que
  describen el contenido, contexto, calidad, estructura, y
  accesibilidad de una colección de datos específica"
     (J.K. Michener 1997).

a)                               b)                                      c)                          Mc

                                                          M
     D                                                                                  M2
                                                                          M1


                    M                 D
                                                                               D         D




       Metadatos como                      Metadatos externos al                   Meta-metadatos
       parte de los datos                 recurso de información              (colecciones de metadatos)


Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                          17
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     ¿Para qué “metadatos”?
  Preguntas que se deberían poder responder usando metadatos:

  •Qué datos describe una coleccion de datos científicos?
  •Quién produjo la colección?
  •Porqué fue creada la colección?
  •Cómo fue creada la colección?
  •Qué datos componen la colección?
  •Cuan confiables son los datos. Que problemas persisten
  en la colección?
  •Cómo alguien puede obtener una copia de la colección?
  •Quién escribio los metadatos?
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    18
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     ¿Para qué “metadatos”?
• El valor científico y económico de las
  colecciones de datos es muy grande
• Para asegurar su uso posterior, la comunidad
  científica necesita acceso eficiente a estos datos
• Los datos tienen que ser confiables y
  persistentes en el tiempo
• La calidad de los datos debe poder probarse




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    19
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    ¿Que hacer?
• Tratar a los datos como si fueran una
  publicación científica tradicional
     –   Edición
     –   Agregación (documentación con metadatos)
     –   Análisis
     –   Revisión por pares
     –   Publicación

     …para que sean útiles a los usuarios finales



Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    20
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO


                        Ejemplos de metadatos y de comunidades
                                  que usan metadatos
       Muestra datos NBII                                Documentación de datos
       http://www.nbii.gov/                          geoespaciales (estándar FGDC)
                                                      http://cndg.clearinghouse.gub.uy




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    21
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO


                        Ejemplos de metadatos y de comunidades
                                  que usan metadatos
   Documentación de datos geoespaciales
   (Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov)




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    22
Repositorios de Datos para comunidades científicas.
                                                                                     Caso Comunidad LAGO


                          Algunos de los estándares para metadatos
                             geoespaciales, biológicos, científicos y
                                   ambientales más usados
    
   •FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal
   Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]

   •FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].

   •Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la
   Tierra. [gcmd.gsfc.nasa.gov]

   •Darwin Core (DwC). Colecciones de Historia Natural.

   •Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos
   ecológicos. Base del estándar EML. [lternet.washington.edu]

   •Dublin Core. Estandar general de identificacion de objetos de información en Internet.
   [www.dublincore.org]

   •CCLRC Scientific metadata model (CSMD). study-data set orientated model

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                     23
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    Repositorios
• Almacenan y preservan la producción de una
  institución o de una disciplina científica.
• Contienen información académica y científica. -
  Artículos de revista, tesis, congresos, informes,
  colecciones de datos, etc.
• Compuestos de Metadatos + documentos.
• Libre acceso a sus contenidos (open access), es
  la tendencia actual.




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    24
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    Repositorios institucionales
• Incluyen los contenidos académicos de una
  institución (universidad, centro de investigación,
  etc.).

Ejemplos:
• CERN Document Server: http://cdsweb.cern.ch/
• Repositorio SABER-ULA: http://www.saber.ula.ve
• Dspace@MIT: http://dspace.mit.edu




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    25
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     Repositorios temáticos
• Incluyen los contenidos académicos de una
  disciplina o ámbito temático.

Ejemplos:
     –   E-LIS (biblioteconomía y documentación),
     –   ArXiv (física),
     –   Cogprints (psicología),
     –   Repec (economía).




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    26
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    Repositorios temáticos




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    27
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     Repositorios de datos
• Publican y preservan colecciones de datos
• Organizados frecuentemente por disciplinas
  científicas como por ejemplo:
     –   HEP,
     –   Genómica
     –   Datos geoespaciales,
     –   Datos biológicos
     –   Datos astronómicos
     –   Datos gubernamentales



Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    28
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     Plataforma Dspace
• DSpace es una plataforma de software de
  Código Abierto que provee herramientas de
  administración de repositorios para gestionar
  muchos tipos de contenidos digitales,
  incluyendo colecciones de datos.




                                                                www.dspace.org

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    29
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                     ¿Donde usan Dspace?




                                                                www.dspace.org

Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    30
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    Repositorios de datos con Dspace




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    31
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                         Dificultades comunes

• Escaso conocimiento de la importancia de la preservación y
  posibilidades de uso secundario de los datos
• Poca disposición de los científicos para compartir los datos.
• Poca receptividad o disposición para aportar metadatos que
  documenten las colecciones de datos.
• Confusiones y reservas que tienen que ver con los derechos de
  propiedad, publicación y uso de los datos.
• Dificultades (aún) con la conexión a internet (conectividad,
  velocidad)
• Costos de los instrumentos de captura de datos
• No existe la figura de “gerente local de información”, o es muy
  costoso tenerlos


Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    32
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                             El Futuro
• Redes de gestión de conocimientos basadas en datos y metadatos

• Herramientas analíticas "en-línea" con acceso a datos de red de
  científicos

• Herramientas que facilitan la creación de diferentes formas de
  metadatos

• Creación de más bancos de datos internacionales o federados
  perteneciantes a multiples dominios y organizaciones

• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de
  datos” (Datagrids)

• Por último…Comunidades y sociedades del conocimiento


Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    33
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                    A manera de conclusión para esta parte

• El reto para la infraestructura de investigación
  actual es facilitar la más amplia diseminación
  posible de los descubrimientos científicos
• Estas infraestructuras allanaran el camino para
  la e-ciencia, donde los investigadores serán
  capaces de producir, gestionar, diseminar y
  comparar grandes conjuntos de datos,
  magnificando las posibilidaded de nuevos
  descubrimientos

             Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46



Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    34
Repositorios de Datos para comunidades científicas.
                                                                                    Caso Comunidad LAGO




                           Gracias por la atención!!




                                torrens@ula.ve




Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida                    35

Contenu connexe

Similaire à Repositorios de Datos para comunidades científicas.

Acceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresAcceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresTorres Salinas
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Fernando-Ariel Lopez
 
El horizonte de la investigación en el siglo xxi
El horizonte de la investigación en el siglo xxiEl horizonte de la investigación en el siglo xxi
El horizonte de la investigación en el siglo xxiHugo Banda
 
Mirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónMirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónFernando-Ariel Lopez
 
3m 8ago11E-investigación bibliográfica: Web 2.0 y 3.0, teoría y práctica
3m 8ago11E-investigación  bibliográfica:  Web 2.0 y 3.0, teoría y  práctica3m 8ago11E-investigación  bibliográfica:  Web 2.0 y 3.0, teoría y  práctica
3m 8ago11E-investigación bibliográfica: Web 2.0 y 3.0, teoría y prácticaE-investigación bibliográfica, FCUNAM
 
Maredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandaMaredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandamaredata
 
Biblioteca digital
Biblioteca digitalBiblioteca digital
Biblioteca digitalagraphic
 
Implementación de un Repositorio de Datos Científicos usando Dspace
Implementación de un Repositorio de Datos Científicos usando DspaceImplementación de un Repositorio de Datos Científicos usando Dspace
Implementación de un Repositorio de Datos Científicos usando DspaceRodrigo Torrens
 
Open Data in a Big World by Fernando Ariel López
Open Data in a Big World by Fernando Ariel López Open Data in a Big World by Fernando Ariel López
Open Data in a Big World by Fernando Ariel López LEARN Project
 
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...Repositorios de tesis: Capacidad del sistema académico NEA para la generación...
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...Belarmina Benitez
 
Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Jorge Serrano-Cobos
 
Seminario Almacenamiento de Datos Ambientales Hoy
Seminario Almacenamiento de Datos Ambientales HoySeminario Almacenamiento de Datos Ambientales Hoy
Seminario Almacenamiento de Datos Ambientales HoyCAESCG.org
 
La difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasLa difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasJavier Hernández San Miguel
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
Repositorios digitales como apoyo a la investigación científica
Repositorios digitales como apoyo a la investigación científicaRepositorios digitales como apoyo a la investigación científica
Repositorios digitales como apoyo a la investigación científicaLibio Huaroto
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDataLab Community
 
Aleix peset hoja de ruta 5 oct
Aleix peset hoja de ruta 5 octAleix peset hoja de ruta 5 oct
Aleix peset hoja de ruta 5 octmaredata
 

Similaire à Repositorios de Datos para comunidades científicas. (20)

Acceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actoresAcceso abierto a los datos de investigación definición políticas y actores
Acceso abierto a los datos de investigación definición políticas y actores
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬
 
El horizonte de la investigación en el siglo xxi
El horizonte de la investigación en el siglo xxiEl horizonte de la investigación en el siglo xxi
El horizonte de la investigación en el siglo xxi
 
Gestión de Datos Científicos
Gestión de Datos CientíficosGestión de Datos Científicos
Gestión de Datos Científicos
 
Mirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigaciónMirando al futuro, del acceso abierto a datos abiertos de investigación
Mirando al futuro, del acceso abierto a datos abiertos de investigación
 
3m 8ago11E-investigación bibliográfica: Web 2.0 y 3.0, teoría y práctica
3m 8ago11E-investigación  bibliográfica:  Web 2.0 y 3.0, teoría y  práctica3m 8ago11E-investigación  bibliográfica:  Web 2.0 y 3.0, teoría y  práctica
3m 8ago11E-investigación bibliográfica: Web 2.0 y 3.0, teoría y práctica
 
Maredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandaMaredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernanda
 
Biblioteca digital
Biblioteca digitalBiblioteca digital
Biblioteca digital
 
Implementación de un Repositorio de Datos Científicos usando Dspace
Implementación de un Repositorio de Datos Científicos usando DspaceImplementación de un Repositorio de Datos Científicos usando Dspace
Implementación de un Repositorio de Datos Científicos usando Dspace
 
Open Data in a Big World by Fernando Ariel López
Open Data in a Big World by Fernando Ariel López Open Data in a Big World by Fernando Ariel López
Open Data in a Big World by Fernando Ariel López
 
Representación de los recursos dentro de una Biblioteca Digital: Propuesta té...
Representación de los recursos dentro de una Biblioteca Digital: Propuesta té...Representación de los recursos dentro de una Biblioteca Digital: Propuesta té...
Representación de los recursos dentro de una Biblioteca Digital: Propuesta té...
 
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...Repositorios de tesis: Capacidad del sistema académico NEA para la generación...
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...
 
Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015
 
Seminario Almacenamiento de Datos Ambientales Hoy
Seminario Almacenamiento de Datos Ambientales HoySeminario Almacenamiento de Datos Ambientales Hoy
Seminario Almacenamiento de Datos Ambientales Hoy
 
La difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasLa difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativas
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
La e-investigación en España
La e-investigación en EspañaLa e-investigación en España
La e-investigación en España
 
Repositorios digitales como apoyo a la investigación científica
Repositorios digitales como apoyo a la investigación científicaRepositorios digitales como apoyo a la investigación científica
Repositorios digitales como apoyo a la investigación científica
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data Science
 
Aleix peset hoja de ruta 5 oct
Aleix peset hoja de ruta 5 octAleix peset hoja de ruta 5 oct
Aleix peset hoja de ruta 5 oct
 

Plus de Rodrigo Torrens

Panorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaPanorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaRodrigo Torrens
 
Un vistazo al análisis de redes sociales
Un vistazo al análisis de redes socialesUn vistazo al análisis de redes sociales
Un vistazo al análisis de redes socialesRodrigo Torrens
 
Centro de Teleinformación. Visión personal de la Organización
Centro de Teleinformación. Visión personal de la OrganizaciónCentro de Teleinformación. Visión personal de la Organización
Centro de Teleinformación. Visión personal de la OrganizaciónRodrigo Torrens
 
Proyecto GIS: Sistema de Información Bioclimática para Mérida
Proyecto GIS: Sistema de Información Bioclimática para MéridaProyecto GIS: Sistema de Información Bioclimática para Mérida
Proyecto GIS: Sistema de Información Bioclimática para MéridaRodrigo Torrens
 
Desarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información BioclimáticaDesarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información BioclimáticaRodrigo Torrens
 
Proyectos tesis electronicas en la ULA
Proyectos tesis electronicas en la ULAProyectos tesis electronicas en la ULA
Proyectos tesis electronicas en la ULARodrigo Torrens
 
Panorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaPanorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaRodrigo Torrens
 
Repositorio de Datos LAGO
Repositorio de Datos LAGORepositorio de Datos LAGO
Repositorio de Datos LAGORodrigo Torrens
 
Uso de Dspace en la Universidad de Los Andes, Venezuela
Uso de Dspace en la Universidad de Los Andes, VenezuelaUso de Dspace en la Universidad de Los Andes, Venezuela
Uso de Dspace en la Universidad de Los Andes, VenezuelaRodrigo Torrens
 
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012Rodrigo Torrens
 
ULA Pionera en el Acceso Abierto al Conocimiento
ULA Pionera en el Acceso Abierto al ConocimientoULA Pionera en el Acceso Abierto al Conocimiento
ULA Pionera en el Acceso Abierto al ConocimientoRodrigo Torrens
 
Experiencias en la Publicación Electrónica Universitaria. 2003
Experiencias en la Publicación Electrónica Universitaria. 2003Experiencias en la Publicación Electrónica Universitaria. 2003
Experiencias en la Publicación Electrónica Universitaria. 2003Rodrigo Torrens
 
Herramientas y estándares para las bibliotecas digitales. Mexico 2002
Herramientas y estándares para las bibliotecas digitales. Mexico 2002Herramientas y estándares para las bibliotecas digitales. Mexico 2002
Herramientas y estándares para las bibliotecas digitales. Mexico 2002Rodrigo Torrens
 
Recomendaciones para la Creación de un Repositorio Institucional basadas en ...
Recomendaciones para la Creación de un Repositorio Institucional  basadas en ...Recomendaciones para la Creación de un Repositorio Institucional  basadas en ...
Recomendaciones para la Creación de un Repositorio Institucional basadas en ...Rodrigo Torrens
 
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...Rodrigo Torrens
 
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...Evolución de los Servicios y Herramientas del Repositorio Institucional de la...
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...Rodrigo Torrens
 
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo?
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo? OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo?
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo? Rodrigo Torrens
 
Dspace y su uso en el RI de la Universidad de Los Andes, Venezuela
Dspace y su uso en el RI de la Universidad de Los Andes, VenezuelaDspace y su uso en el RI de la Universidad de Los Andes, Venezuela
Dspace y su uso en el RI de la Universidad de Los Andes, VenezuelaRodrigo Torrens
 

Plus de Rodrigo Torrens (20)

Panorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaPanorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en Latinoamerica
 
Un vistazo al análisis de redes sociales
Un vistazo al análisis de redes socialesUn vistazo al análisis de redes sociales
Un vistazo al análisis de redes sociales
 
Centro de Teleinformación. Visión personal de la Organización
Centro de Teleinformación. Visión personal de la OrganizaciónCentro de Teleinformación. Visión personal de la Organización
Centro de Teleinformación. Visión personal de la Organización
 
Proyecto GIS: Sistema de Información Bioclimática para Mérida
Proyecto GIS: Sistema de Información Bioclimática para MéridaProyecto GIS: Sistema de Información Bioclimática para Mérida
Proyecto GIS: Sistema de Información Bioclimática para Mérida
 
Desarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información BioclimáticaDesarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información Bioclimática
 
Proyectos tesis electronicas en la ULA
Proyectos tesis electronicas en la ULAProyectos tesis electronicas en la ULA
Proyectos tesis electronicas en la ULA
 
Teleinformacion 2001
Teleinformacion 2001Teleinformacion 2001
Teleinformacion 2001
 
Panorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en LatinoamericaPanorama Actual del Acceso Abierto en Latinoamerica
Panorama Actual del Acceso Abierto en Latinoamerica
 
Repositorio de Datos LAGO
Repositorio de Datos LAGORepositorio de Datos LAGO
Repositorio de Datos LAGO
 
Uso de Dspace en la Universidad de Los Andes, Venezuela
Uso de Dspace en la Universidad de Los Andes, VenezuelaUso de Dspace en la Universidad de Los Andes, Venezuela
Uso de Dspace en la Universidad de Los Andes, Venezuela
 
Introducción a OAI-PMH
Introducción a OAI-PMHIntroducción a OAI-PMH
Introducción a OAI-PMH
 
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012
 
ULA Pionera en el Acceso Abierto al Conocimiento
ULA Pionera en el Acceso Abierto al ConocimientoULA Pionera en el Acceso Abierto al Conocimiento
ULA Pionera en el Acceso Abierto al Conocimiento
 
Experiencias en la Publicación Electrónica Universitaria. 2003
Experiencias en la Publicación Electrónica Universitaria. 2003Experiencias en la Publicación Electrónica Universitaria. 2003
Experiencias en la Publicación Electrónica Universitaria. 2003
 
Herramientas y estándares para las bibliotecas digitales. Mexico 2002
Herramientas y estándares para las bibliotecas digitales. Mexico 2002Herramientas y estándares para las bibliotecas digitales. Mexico 2002
Herramientas y estándares para las bibliotecas digitales. Mexico 2002
 
Recomendaciones para la Creación de un Repositorio Institucional basadas en ...
Recomendaciones para la Creación de un Repositorio Institucional  basadas en ...Recomendaciones para la Creación de un Repositorio Institucional  basadas en ...
Recomendaciones para la Creación de un Repositorio Institucional basadas en ...
 
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...
 
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...Evolución de los Servicios y Herramientas del Repositorio Institucional de la...
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...
 
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo?
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo? OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo?
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo?
 
Dspace y su uso en el RI de la Universidad de Los Andes, Venezuela
Dspace y su uso en el RI de la Universidad de Los Andes, VenezuelaDspace y su uso en el RI de la Universidad de Los Andes, Venezuela
Dspace y su uso en el RI de la Universidad de Los Andes, Venezuela
 

Repositorios de Datos para comunidades científicas.

  • 1. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Parte 1 Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 1
  • 2. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Contenido Hablaremos sobre: • El problema de la ubicación, preservación y uso de colecciones de datos científicas • Tendencias en la colaboración científica • Herramientas que pueden ayudar a solucionar algunos de los problemas Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 2
  • 3. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Los datos producto de una investigación científica Partamos de las preguntas básicas: • Los datos que yo necesito… existen? • Donde están? • Como los obtengo? La mayoria de los científicos se han planteado estas preguntas alguna vez Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 3
  • 4. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO 4 axiomas para la ciencia intensiva en datos Acceso Flujo • Global y abierto • Procesos • Colecciones completas • Curaduría • Reservorios distribuidos (BD, • Gerencia y mantenimiento repositorios de datos, datos • Publicación en “la nube” ) Compartir • Preservación • Estándares, XML Interacción esquemas, ontologías • Metadata • Redes sociales • Servicios web de herramientas • Minería de datos • Reutilización Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 4
  • 5. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Problemas-retos a los que nos enfrentamos Tenemos que tener capacidades para… • Manejar volumen de datos generados actualmente • Preservarlos • Encontrarlos • Compartirlos, distribuirlos • Usarlos, reusarlos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 5
  • 6. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO …Problemas a los que nos enfrentamos Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo Momento de publicación Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo Retiro o cambio de carrera del e d s od ne no C nó ca m o n r f I científico recolector i t i Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida de registros restantes Tiempo (Michener, 1997) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 6
  • 7. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO El problema del “diluvio” de datos. La era del Petabyte Volumen de datos… www.wired.com Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 7
  • 8. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Nuevas formas de colaboración científica Ante estos retos, tenemos posibilidades y nuevas maneras de… • Producir datos, • de compartirlos (publicarlos), y… • de trabajar colaborativamente Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 8
  • 9. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Nuevas formas de colaboración científica Frecuentemente o cada vez más escuchamos y hablamos de… • “ciberinfraestructura” • “e-ciencia” • “e-investigación” • “colaboracion ubicua” • “data-driven Science” • “computación grid” • “computación social” • “acceso abierto al conocimiento” …refiriendose a nuevas formas de producción y diseminación del conocimiento Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 9
  • 10. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO e-ciencia • El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 10
  • 11. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de colecciones de datos: Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.): • Datos del LHC generados en el CERN • Datos generados por las redes mundiales de sensores sísmicos • Estudios sobre cambios globales (GCMD-NASA) • Astronomía, los “telescopios virtuales” (Global Internet Telescope) • Banco de datos de Proteinas (PDB, Protein Data Bank) • Datos del genoma humano y de otras especies Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 11
  • 12. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Iniciativas de Acceso Abierto A esto se unen las iniciativas por el uso sin restricciones de la información y datos: • Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives) • Movimiento Datos Libres (OD, Open Data) • Repositorios Institucionales y por disciplina (temáticos) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 12
  • 13. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO CERN LHC Ejemplos: - Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 13
  • 14. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Necesidad de usar tecnologías de información (TICs) Para… • Ubicar • Accesar • Recuperar • Compartir …datos La mayoría usa LA RED (la Web) para satisfacer estas necesidades Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 14
  • 15. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Un objetivo importante Qué debemos hacer para lograr el… Uso secundario y a largo plazo de colecciones de datos científicos Se debe… Garantizar permanencia de los datos en el tiempo Poder ubicar y recuperar la información Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 15
  • 16. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Herramientas Herramientas organizativas y tecnológicas que pueden hacer esto posible: Formación de Redes de colaboración entre científicos y entre usuarios de información Tecnologías de Información y Comunicaciones Uso de metadatos y estándares de intercambio de información Creación y mantenimiento de repositorios de datos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 16
  • 17. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Qué significa la palabra “metadatos”? • " Datos sobre los datos " . • "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997). a) b) c) Mc M D M2 M1 M D D D Metadatos como Metadatos externos al Meta-metadatos parte de los datos recurso de información (colecciones de metadatos) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 17
  • 18. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Para qué “metadatos”? Preguntas que se deberían poder responder usando metadatos: •Qué datos describe una coleccion de datos científicos? •Quién produjo la colección? •Porqué fue creada la colección? •Cómo fue creada la colección? •Qué datos componen la colección? •Cuan confiables son los datos. Que problemas persisten en la colección? •Cómo alguien puede obtener una copia de la colección? •Quién escribio los metadatos? Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 18
  • 19. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Para qué “metadatos”? • El valor científico y económico de las colecciones de datos es muy grande • Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos • Los datos tienen que ser confiables y persistentes en el tiempo • La calidad de los datos debe poder probarse Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 19
  • 20. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Que hacer? • Tratar a los datos como si fueran una publicación científica tradicional – Edición – Agregación (documentación con metadatos) – Análisis – Revisión por pares – Publicación …para que sean útiles a los usuarios finales Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 20
  • 21. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de metadatos y de comunidades que usan metadatos Muestra datos NBII Documentación de datos http://www.nbii.gov/ geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 21
  • 22. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Ejemplos de metadatos y de comunidades que usan metadatos Documentación de datos geoespaciales (Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov) Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 22
  • 23. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y ambientales más usados   •FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov] •FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov]. •Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la Tierra. [gcmd.gsfc.nasa.gov] •Darwin Core (DwC). Colecciones de Historia Natural. •Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos ecológicos. Base del estándar EML. [lternet.washington.edu] •Dublin Core. Estandar general de identificacion de objetos de información en Internet. [www.dublincore.org] •CCLRC Scientific metadata model (CSMD). study-data set orientated model Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 23
  • 24. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios • Almacenan y preservan la producción de una institución o de una disciplina científica. • Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc. • Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la tendencia actual. Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 24
  • 25. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios institucionales • Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.). Ejemplos: • CERN Document Server: http://cdsweb.cern.ch/ • Repositorio SABER-ULA: http://www.saber.ula.ve • Dspace@MIT: http://dspace.mit.edu Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 25
  • 26. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios temáticos • Incluyen los contenidos académicos de una disciplina o ámbito temático. Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología), – Repec (economía). Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 26
  • 27. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios temáticos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 27
  • 28. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de datos • Publican y preservan colecciones de datos • Organizados frecuentemente por disciplinas científicas como por ejemplo: – HEP, – Genómica – Datos geoespaciales, – Datos biológicos – Datos astronómicos – Datos gubernamentales Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 28
  • 29. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Plataforma Dspace • DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos. www.dspace.org Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 29
  • 30. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO ¿Donde usan Dspace? www.dspace.org Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 30
  • 31. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Repositorios de datos con Dspace Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 31
  • 32. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Dificultades comunes • Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos • Poca disposición de los científicos para compartir los datos. • Poca receptividad o disposición para aportar metadatos que documenten las colecciones de datos. • Confusiones y reservas que tienen que ver con los derechos de propiedad, publicación y uso de los datos. • Dificultades (aún) con la conexión a internet (conectividad, velocidad) • Costos de los instrumentos de captura de datos • No existe la figura de “gerente local de información”, o es muy costoso tenerlos Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 32
  • 33. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO El Futuro • Redes de gestión de conocimientos basadas en datos y metadatos • Herramientas analíticas "en-línea" con acceso a datos de red de científicos • Herramientas que facilitan la creación de diferentes formas de metadatos • Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones • Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids) • Por último…Comunidades y sociedades del conocimiento Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 33
  • 34. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO A manera de conclusión para esta parte • El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos • Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 34
  • 35. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Gracias por la atención!! torrens@ula.ve Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 35

Notes de l'éditeur

  1. Costos de producir nuevas colecciones de datos Dificultades de ubicación de los datos Problemas para identificar calidad y detalles de las colecciones de datos Quien los capturó? Que metodos o procedimientos se usaron Los puedo usar? Cuanto cuestan? Anecdotas sobre ubicacion y uso de datos en Venezuela
  2. Uno de los retos que habremos de enfrentar en esta nueva manera de hacer investigación es manejar, administrar, analizar y preservar un “diluvio de datos” (Hey y Trefethen, 2003a) generado por una red de sensores a escala mundial y experimentos de grandes dimensiones (aceleradores de partículas, red de observatorios terrestres y satelitales, enormes bases de datos genéticas, por mencionar las más impactantes). Este alud de mediciones, desbordando toda capacidad para su manejo que no sea mediante las TIC, convierte a estos instrumentos en herramientas informáticas y a la experimentación en minería de datos. Los grandes productores de datos son colaboraciones mundiales, industriales y multinacionales, las cuales generan ingentes volúmenes de datos que deben ser distribuidos geográficamente y mantenidos por esos proyectos mientras duren. Muchos de esos datos nunca aparecerán publicados y cuando finalice la colaboración, muchas de las medidas experimentales se perderán o serán enviadas a reservorios nacionales (o internacionales) que nada tuvieron que ver con su producción. Gran parte de las decisiones y criterios para generarlos quedarán sepultados en una inmensa correspondencia electrónica que nadie dispondrá (Gray y Szalay, 2002). Igual suerte correrán los datos producidos por multitud de pequeños grupos de investigación quienes, atacando problemas similares, se encuentran distribuidos por toda la geografía mundial. Todos ellos, grandes y pequeños productores de datos enfrentarán los mismos problemas de catalogación, preservación y diseminación de datos y del conocimiento que a partir de éstos surge. Es imperioso planificar y construir repositorios de datos que los almacenen mientras se produzcan y que conserven la traza testimonial de las decisiones y criterios que los generaron (Gray y Szalay, 2002; Karasti y colaboradores, 2006; Borgman y colaboradores, 2007; Murray-Rust, 2008).
  3. Uno de los retos que habremos de enfrentar en esta nueva manera de hacer investigación es manejar, administrar, analizar y preservar un “diluvio de datos” (Hey y Trefethen, 2003a) generado por una red de sensores a escala mundial y experimentos de grandes dimensiones (aceleradores de partículas, red de observatorios terrestres y satelitales, enormes bases de datos genéticas, por mencionar las más impactantes). Este alud de mediciones, desbordando toda capacidad para su manejo que no sea mediante las TIC, convierte a estos instrumentos en herramientas informáticas y a la experimentación en minería de datos. Los grandes productores de datos son colaboraciones mundiales, industriales y multinacionales, las cuales generan ingentes volúmenes de datos que deben ser distribuidos geográficamente y mantenidos por esos proyectos mientras duren. Muchos de esos datos nunca aparecerán publicados y cuando finalice la colaboración, muchas de las medidas experimentales se perderán o serán enviadas a reservorios nacionales (o internacionales) que nada tuvieron que ver con su producción. Gran parte de las decisiones y criterios para generarlos quedarán sepultados en una inmensa correspondencia electrónica que nadie dispondrá (Gray y Szalay, 2002). Igual suerte correrán los datos producidos por multitud de pequeños grupos de investigación quienes, atacando problemas similares, se encuentran distribuidos por toda la geografía mundial. Todos ellos, grandes y pequeños productores de datos enfrentarán los mismos problemas de catalogación, preservación y diseminación de datos y del conocimiento que a partir de éstos surge. Es imperioso planificar y construir repositorios de datos que los almacenen mientras se produzcan y que conserven la traza testimonial de las decisiones y criterios que los generaron (Gray y Szalay, 2002; Karasti y colaboradores, 2006; Borgman y colaboradores, 2007; Murray-Rust, 2008).
  4. Cada vez con mayor frecuencia y efectividad los investigadores de todas las naciones intercambian datos, ideas, publicaciones, referencias y artículos. Si bien una serie de emergentes y novedosos ambientes de colaboración electrónica no terminan de ser utilizados como herramientas cotidianas para estas interacciones (Coles y colaboradores, 2006; Borgman, 2006; De Roure y Frey, 2007; Collins y colaboradores, 2007), el correo electrónico, la mensajería instantánea y, sobre todo LA RED, se erigen como los apoyos y motores a éstas nuevas formas de colaboración ubicua. Pero más allá de este intercambio entre pares, transitamos por la era postgutemberg en la cual los productores de información (investigadores, centros de investigación y-o instituciones académicas) tienen la capacidad de publicar y difundir directamente su producción intelectual, sin intermediarios editoriales y a costos cada vez menores.
  5. Los términos “ciberinfraestructura”, “e-ciencia” y “e-investigación”, han sido acuñados para describir esta nueva forma de producción y diseminación del conocimiento, donde el uso intensivo de las Tecnologías de Información y Comunicación (TIC), la distribución geográfica de los recursos de medición, procesamiento y análisis, pero sobre todo su acceso ubicuo, son sus características más resaltantes y descriptivas (ver Hey y Trefethen (2003b), Foster (2005) y Hey y Trefethen (2005), así como las referencias allí citadas).
  6. Telescopio Virtual: http://www.jb.man.ac.uk/news/evlbi/ http://www.evlbi.org/
  7. Telescopio Virtual: http://www.jb.man.ac.uk/news/evlbi/ http://www.evlbi.org/
  8. LA RED como herramienta habilitante principal
  9. Colocar aqui la tabla de contenido completa
  10. Ideally, it should be possible for a user to easily perform tasks such as: Discover the existence of data Access the data for research and analysis Find detailed information describing the data and its production processes Access the data sources and collection instruments from which and with which the data was collected, compiled, and aggregated Effectively communicate with the agencies involved in the production, storage, distribution of the data Share knowledge with other users http://www.opendatafoundation.org/
  11. Colocar aqui la tabla de contenido completa
  12. Colocar aqui la tabla de contenido completa
  13. El problema de los estandares: hay muchos!! Cual usar?? Dublin Core: estandar genérico de identificación de óbjetos de información