El documento describe los desafíos que plantea la gran cantidad y fragmentación de estándares para la descripción de metadatos en biociencia, lo que dificulta la interoperabilidad de los datos. Propone el uso de herramientas que permitan adoptar de forma flexible los estándares definidos por las comunidades científicas para describir experimentos de manera normalizada, facilitando así la comparación y reproducibilidad de los estudios.
1. Metadatos
en
biociencia:
posibilitando
la
invesQgación
reproducible
y
reuQlizable
Alejandra
González-‐Beltrán,
PhD
Senior Software Engineer, ISATeam
Oxford
e-‐Research
Centre,
University
of
Oxford
Oxford,
UK
SELENfest
2012
–
CIFASIS,
UNR,
19
Diciembre
2012
2. El
contexto
health
agro
env
tox/pharma
Source
of
the
figure:
EBI
website
La
biociencia
es
mulQ-‐dominio
3. El
contexto
health
agro
env
tox/pharma
Source
of
the
figure:
EBI
website
La
biociencia
es
mulQ-‐dominio
Petabytes
de
datos
4. El
contexto
health
agro
env
tox/pharma
Source
of
the
figure:
EBI
website
La
biociencia
es
mulQ-‐dominio
Petabytes
de
datos
Metadatos
experimentales
en
notas
de
laboratorio
5. Ioannidis
et
al.,
Repeatability
of
published
microarray
gene
expression
analyses.
Nature
Gene*cs
41(2),
149-‐55
(2009)
doi:10.1038/ng.295
6. Ioannidis
et
al.,
Repeatability
of
published
microarray
gene
expression
analyses.
Nature
Gene*cs
41(2),
149-‐55
(2009)
doi:10.1038/ng.295
10. Analogía
de
la
lata
de
conservas
basada
en
comentario
por
Norman
Morrison
y
converQda
de
ontologías
a
metadatos.
11. Descripción
de
experimentos…
metadatos
• Fragmentación
de
formatos
(e.g.
MAGE-‐Tab,
PRIDE-‐XML,
SRA-‐XML)
• Los
disQntos
formatos
capturan
disQnta
información…
…
pero
hay
muchas
cosas
comunes
• Las
terminologías
que
se
usan
para
describir
los
experimentos
varían
mucho…
12. Variadas
comunidades
de
expertos…
…variadas
normas
y
estándares
usar
la
misma
palabra
permiten
que
los
datos
reportar
la
misma
para
referirse
a
las
se
transmitan
entre
sistemas
Información
esencial
mismas
cosas
14. Variadas
comunidades
de
expertos…
…variadas
normas
y
estándares
usar
la
misma
palabra
permiten
que
los
datos
reportar
la
misma
para
referirse
a
las
se
transmitan
entre
sistemas
Información
esencial
mismas
cosas
Desafíos: falta de interacción y coordinación,
fragmentación y cubrimiento desparejo…
dificulta la interoperabilidad
15. Estándares
de
reporte
de
datos
en
expansión…
MAGE-Tab! AAO! miame!
GCDML! MIAPA!
CHEBI! GIATE!
SRAxml! OBI! MIRIAM!
VO!
SOFT! MIQAS!
FASTA! PATO! MIX!
CML! ENVO! REMARK!
DICOM! MIGEN!
GELML! MOD!
SBRML! MIAPE! MIQE!
TEDDY!
MITAB! MzML! XAO! CIMR! CONSORT!
BTO!
ISA-Tab! SEDML…! DO
PRO! IDO…! MIASE! MISFISHIE….!
17. Pero…
cómo
podemos
saber
cuáles
son
los
estándares
y
sus
interrelaciones
Uso
tecnologías
de
Qué
herramientas
y
secuenciación,
qué
bases
de
datos
estándares
son
relevantes
implementan
qué
para
mí?
estándares?
Cómo
puedo
Cuál
es
el
criterio
involucrarme
en
para
evaluar
su
proponer
estado
y
valor?
extensiones
o
modificaciones?
Cuáles
son
lo
Qué
formatos
Trabajo
con
plantas,
suficientemente
soportan
“listas
de
son
los
estándares
maduros
para
usar
o
información
relevantes
sólo
para
recomendar
su
uso?
mínima”
aplicaciones
espécificas?
biomédicas?
18.
19. inves(ga(on
study
assay
• AsisQr
en
la
anotación/descripción
y
administración
de
datos
experimentales
en
el
origen
• Considerar
datos
de
estudios
de
alto
rendimiento
usando
una
o
más
tecnologías
ómicas
u
otras
tecnologías
• PermiQr
a
los
usarios
adoptar
los
estándares
de
reporte
definidos
por
la
comunidad
(formatos,
listas
de
verificación
y
ontologías)
• Facilitar
comparQr
los
datos,
reusarlos,
comparar
y
reproducir
los
experimentos,
remiQr
datos
a
repositorios
públicos
internacionales
20.
El
ecosistema
21.
El
ecosistema
ISA software suite: supporting standards-compliant Towards interoperable bioscience data
experimental annotation and enabling curation at the Sansone et al, 2012
community level
Nature Genetics
Rocca-Serra et al, 2010
Bioinformatics
22. Formato
flexible
y
de
propósito
general
Formato
tabular
(vs
XML)
AgnósQco
del
dominio
Captura
metadatos
de
experimentos
ómicos
y
de
experimentos
tradicionales
(e.g.
clínica
química
e
histología)
23.
24.
25.
26. file chooser
publication searcher visualization
ontology search
QR code generator
automated ontology tagging
spreadsheet-like interface tagterms visualise suggest clear all help
powered by ncbo annotator
27. Permite
reportar
y
editar
la
descripción
del
experimento
usando
Google
Spreadsheets.
Se
pueden
usar
Google
Spreadsheets
en
cobinación
con
planQlas
ISA-‐Tab
(generadas
importando
un
archivo
Excel
en
ISAconfigurator)
y
OntoMaton
(para
búquedas
de
ontologías
y
eQquetado)
para
describir
la
invesQgación.
28. -‐ collaboraQve
annotaQon
-‐ distributed
groups
of
users
-‐ version
control
&
history
Ontology
Search
and
Tagging
in
Google
Spreadsheets
29. Permite
crear
planQllas
detallando
los
pasos
a
reportar
para
disQntos
Qpos
de
invesQgaciones,
que
conformen
con
los
estándares
definidos
por
la
comunidad
(listados
en
),
e.g.
configurar
los
campos
para
que
sean
(i)
conceptos
de
una
o
más
ontologías,
(ii)
texto
(con/sin
verificación
con
expresiones
regulares),
(iii)
números,
etc.
30. Con
los
archivos
ISA-‐Tab
podemos
llevar
a
cabo
el
análisis
de
los
datos,
converQr
a
RDF/OWL
u
otros
formatos
para
enviarlos/comparQrlos
a
repositorios
locales
o
remotos.
31. • Paquete
en
lenguaje
R,
disponible
en
BioConductor
2.11
h]p://bioconductor.org/packages/release/bioc/html/Risa.html
• Clase
ISAtab
• Lee
archivos
ISAtab
en
objetos
ISAtab
y
permite
guardar
los
archivos
ISAtab
• Construye
objetos
xcmsSet
(paquete
xcms)
a
parQr
de
ensayos
de
espectrometría
de
masas
• Permite
incrementar
los
archivos
ISAtab
después
del
análisis
•
código
fuente
&
issue
tracking
h]ps://github.com/ISA-‐tools/Risa
32. • El
paquete
faahKO
v.
2.12
conQene
archivos
ISAtab
que
describen
el
experimento
faahkoISA
=
readISAta(find.package("faahKO"))
assay.filename
<-‐
faahkoISA["assay.filenames"][[1]]
xset
=
processAssayXcmsSet(faahkoISA,
assay.filename)
…
updateAssayMetadata(faahkoISA,
assay.filename,"Derived
Spectral
Data
File","faahkoDSDF.txt"
)
• Un
ejemplo
usando
los
paquetes
de
BioConductor
Risa,
xcms
y
CAMERA
en
el
experimento
MTBLS2
se
pueden
encontrar
en:
Metabolights – an open access general-purpose repository for
metabolomics studies and associated meta-data
Haug et al, 2012
Nucleic Acids Research
33.
Sintaxis
ISA
transformaciones
subyacentes
entre
materiales
y
datos
Input
Material
or
Output
Material
or
Data
Node
Data
Node
Characteris@cs[…]
Factor
Value[…]
Characteris@cs[…]
Factor
Value[…]
Protocol
REF
Parameter
Value
[…]
33
34. Web
semánQca
• SemánQca
de
“mundo
abierto”
• Conjunto
de
lenguajes
de
representación
(RDF,
RDFS,
OWL,
…)
• RDF
(Resource
DescripQon
Framework)
–
recomendación
del
– Modelo
basado
en
grafos
para
el
intercambio
de
datos
en
la
Web
– Tripletas
<subject>
<predicate>
<object>
<lipoprotein>
<parQcipates_in>
<inflammatory
response>
<PRO:212342352>
<BFO_0000056>
<GO:0006954>
35. Web
semánQca
• RDFS
(RDF
Schema)
y
OWL
(Web
Ontology
Language):
lenguajes
para
definición
de
vocabularios,
describen
datos
en
RDF
– Recomendaciones
– RDFS
permite
expresar,
e.g.,
Qpo,
dominio,
sub-‐
propiedades
– OWL
=
RDFS
+
otros
constructores
(e.g.
operaciones
de
conjuntos)
– OWL
basado
en
lógica
descripQva,
disQntos
“perfiles”
de
acuerdo
a
la
complejidad
de
razonamiento
36. Datos
enlazados
(linked
data)
Linking
Open
Data
cloud
diagram,
by
Richard
Cyganiak
and
Anja
Jentzsch.
h]p://lod-‐cloud.net/
h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350
37. • Hacer
explícita
la
semánQca
de
ISAtab,
incluyendo
los
conceptos
de
materiales,
enQdades
de
datos
y
procesos
• Aprovechar
las
anotaciones
semánQcas
disponibles
en
archivos
ISAtab
• Extender
la
sintaxis
ISA
con
nuevos
elementos
(e.g.
grupos
de
tratamiento),
facilitando
la
comprensión
y
capacidades
de
consulta
sobre
el
diseño
de
experimentos
• Facilitar
la
integración
de
datos,
el
razonamiento,
descubrimiento
de
nuevo
conocimiento
38. Archivos
ISAtab
como
datos
enlazados
• Conectar
con
“la
nube”
de
datos
enlazados
• Colaboraciones
con
Toxbank
(
)
y
el
“W3C
Health
Care
&
Life
Sciences
Interest
Group”
(HCLSIG)
39. ISAtab
dataset
ISAtab
Graph
Parser
Analysis
ISA
Mapping
Parser
41. has
specified
input
type
material
enQty
Saghantelian_1
sample
collecQon
derives
from
has
specified
output
type
type
KO1
has
specified
input
processed
material
derives
from
extracQon
material
processing
type
has
specified
output
KO1_extract
has
specified
input
type
InformaQon
derives
from
mass
content
enQty
spectrometry
has
specified
output
type
./cdf/KO/ko15.CDF
42. Incrementando
el
nivel
de
estructuración…
…para
disQntas
audiencias
Notas
en
cuadernos
de
laboratorio
Planillas
de
cálulo
&
tablas
Hechos
como
sentencias
RDF
(información
para
humanos)
(metadatos
ISAtab)
(información
para
máquinas)
49. faahKO
dataset
• Available
in
BioConductor
• Subset
of
the
original
data
on
global
metabolite
profiling
Saghatlian
et
al.
Biochemistry.
2004
• LC/MS
peaks
from
the
spinal
cords
of
6
wild-‐type
and
6
FAAH
(fa]y
acid
amyde
hydrolase)
knockout
mice
50. -‐
Define
key
enQQes
(e.g.
factors,
protocols,
parameters)
-‐
Grouping
of
studies
-‐
Relate
studies
and
assays
faahKO
invesQgaQon
51. -‐ Subjects
studied:
source(s),
sampling
methodology,
characterisQcs
faahKO
study
-‐ treatments/manipulaQons
performed
to
prepare
the
specimens
NEWT
UniProt
Taxonomy
Database
Mouse
Genome
InformaQcs
52. -‐ Subjects
studied:
source(s),
sampling
methodology,
characterisQcs
faahKO
study
-‐ treatments/manipulaQons
performed
to
prepare
the
specimens
Mouse
Adult
Gross
Anatomy
53. -‐ measurement
type,
e.g.
metabolite
profiling
-‐ technology,
e.g.
mass
spectrometry
faahKO
assay