Palabras clave en el ADN y predicción computacional de elementos reguladores.

Otros c´digos Clusterizaciń ADN Retos Grupo
o o

Palabras clave en el ADN y predicciń
o
computacional de elementos reguladores

Jos´ L. Oliver
e

Grupo de Gen´mica Evolutiva y Bioinform´tica
o a
Dpto. de Gen´tica
e
Universidad de Granada
http://www.ugr.es/õliver/

Jos´ L. Oliver
e Palabras clave y predicciń computacional de elementos reguladores
o

o o Evidencias Funciń y ADN no-codificador
o

Evidencias de otros c´digos en el ADN
o

Tras la secuenciaciń del genoma humano, sabemos que:
o
S´lo hay 20.000-25.000 genes para prote´
o ınas
Equivalen al 2 % del genoma
Sin embargo, el 57-80 % del genoma se transcribe
Evidencias indirectas:
ADN no-codificador pero conservado evolutivamente
Selecciń purificadora en el 20-30 % del ADN no-codificador
o

Hay otras capas de informaciń en el genoma
o

C´digo regulador: promotores, sitios de uniń a factores de
o o
transcripciń o TFBSs, enhancers, represores, microRNAs, RNAi,
o
or´
ıgenes de replicaciń, secuencias centrom´ricas, elementos separadores,
o e
etc... y los que no conocemos.

Jos´ L. Oliver
o

o

Tres principios para predecir funciń
o

Sobre-abundancia de ciertas palabras (motifs).
Problema: se asume su independencia, ignorando las relaciones
espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
o
las frecuencias de las palabras, pero no su organizaciń espacial.
o
Conservaciń evolutiva: las regiones conservadas en distintas especies
o
deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales
no-codificadores en las regiones ENCODE no estń conservados
a
evolutivamente.

Jos´ L. Oliver
o

o

Tres principios para predecir funciń
o

Sobre-abundancia de ciertas palabras (motifs).
Problema: se asume su independencia, ignorando las relaciones
espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
o
las frecuencias de las palabras, pero no su organizaciń espacial.
o
Conservaciń evolutiva: las regiones conservadas en distintas especies
o
deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales
no-codificadores en las regiones ENCODE no estń conservados
a
evolutivamente.
Grupos de genes co-regulados: los genes con el mismo perfil de expresiń
o
(activaciń/silenciamiento) comparten elementos reguladores.
o
Problema: incertidumbre en cuanto al n´mero de grupos,
u
naturaleza combinatoria de la regulaciń.
o

Jos´ L. Oliver
o

o

Un nuevo principio para predecir funciń
o

Basado en la extrapolaciń a textos de una tćnica para medir desorden
o e
en sistemas cuńticos (Carpena et al., Physical Review E 79, 035102-4, 2009):
a
Las palabras relevantes/funcionales estń clusterizadas, mientras que
a
las palabras comunes se distribuyen al azar.
Se tienen en cuenta tanto la composiciń (frecuencias) como la
o
estructura (distribuciń espacial) del texto gen´tico.
o e
Genes, islas CpG, y sitios de uniń a factores de transcripciń estń
o o a
clusterizados ⇒ este principio podr´ funcionar tambiń en el
ıa e
genoma.
El m´todo para extraer palabras clave en el ADN se basa en lo que
e
hemos aprendido analizando textos literarios normales y textos ”sin
comas”(como el ADN!):
tatcattcactttcagccaccaattcactttca...

Jos´ L. Oliver
o

o o Espectros Medida Textos Sin comas

El espectro de una palabra en un texto

Para cada palabra, se determinan sus posiciones en el texto (su
espectro).
Por ejemplo, en la siguiente frase el espectro de la palabra a ser´
ıa
(1,6,10):

A great scientist must be a good teacher and a good
researcher

Jos´ L. Oliver
o


El espectro de dos palabras equifrecuentes
Espectros de las palabras Quixote y but en las 50.000 primeras palabras
de la versi´n inglesa del Quijote:
o

'Quixote'
(288
occurrences)

'but'
(248
occurrences)

0 10000 20000 30000 40000 50000
position (words)

Frequencia similar pero estructura muy diferente
Las palabras relevantes est´n clusterizadas
a

Jos´ L. Oliver
o


Cuantificando la clusterizaciń: σ y σnor
o

Ortuõ, Carpena, Bernaola et al.
n (Europhysics Letters 57, 759-764, 2002):

σ ≡ s/ d (1)
d2 − d 2
siendo d la distancia media y s = la desviaciń standard
o
de P(d).

Sin embargo, σ depende de la frecuencia de la palabra. Dicha
dependencia se elimina mediante normalizaciń (Physical Review E 79: 035102-4,
o
2009):

σ
σnor = √ (2)
1−p
siendo p = n/N la probabilidad de la palabra en el texto.

Jos´ L. Oliver
o


Efecto de la normalizaci´n de σ
o
Simulaci´n de textos aleatorios:
o

a) 1.00

p = 0.01 p = 0.05 p = 0.1
0.98
1.00
0.96
<σnor>

0.96

<σ>
0.94
0.92
0.92
0.88
0.90
0.84
0.88 0 200 400 600 800 1000
n (word count)
0.86
0 100 200 300 400 500 600 700 800 900 1000
n (word count)
√
1 − p.
Las l´
ıneas horizontales son los valores esperados

Jos´ L. Oliver
o


Significaciń estad´
o ıstica: la medida C

Otra mejora importante que hemos incorporado ha sido asociar a
σnor una significaciń estad´
o ıstica.
Para ello, dada una palabra con frecuencia n, definimos la medida C
como un z-score:
σnor − σnor (n)
C (σnor , n) ≡ (3)
sd(σnor )(n)

C mide la desviaciń de σnor con respecto al valor esperado en un
o
texto aleatorio ( σnor (n)) en unidades de la desviaciń standard
o
esperada (sd(σnor )(n)).

C = 0 → Distribuciń aleatoria
o
C > 0 → Clusterizaciń
o
C < 0 → Repulsiń
o

Jos´ L. Oliver
o


Palabras clave en textos literarios

La medida C permite extraer palabras clave de textos literarios
(novela, poes´ libros cient´
ıa, ıﬁcos...)
Por ejemplo, en el libro The Origin of Species...

word Counts σnor C
sterility 122 6.018 58.00
hybrids 152 5.14 53.04
varieties 486 3.13 47.64
instincts 100 4.87 40.93
species 1922 1.91 39.87
plants 471 2.64 36.23
crossed 116 3.97 33.65
bees 92 4.18 32.36
island 69 4.57 32.01
instinct 79 4.33 31.65
pollen 121 3.66 30.73
fertility 93 3.97 30.38
selection 559 2.27 30.37
organs 224 2.97 30.30
forms 565 2.22 29.37

Jos´ L. Oliver
o


Textos ’sin comas’

El m´todo funciona tambiń en textos ’sin comas’ (sin espacios ni
e e
seãles de puntuaciń).
n o
Era de esperar porque, aunque se eliminen los espacios, las distancias
entre palabras relevantes y comunes siguen siendo diferentes.
Puesto que se desconoce la longitud de palabra, se toman todos los
k-mers con longitud entre 2 y 35.
El resultado son linajes de palabras: cada palabra contiene palabras
m´s cortas y est´ contenida a su vez en otras palabras m´s largas.
a a a
Por ejemplo, para la palabra ventero en El Quijote encontramos
venter o entero (hijos) y lventero o venteroy (padres).
Para eliminar la redundancia, cada linaje se organiza en un gr´fico
a
ac´
ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto
umbral de C (percentiles 50, 75 ´ 95).
o

Jos´ L. Oliver
o


Relativity: The Special and General Theory, by A. Einstein
Palabras clave extra´
ıdas tras eliminar del texto los espacios y las seãles
n
de puntuaciń:
o
word Counts σnor C
energy 23 4.29 19.10
theuniverse 20 3.84 15.76
erical 26 3.25 13.74
project 35 2.73 11.85
alongthe 17 2.92 10.28
econtinuum 23 2.70 10.04
thegravitationalfield 27 2.60 10.01
sphere 16 2.8 9.79
electron 13 2.92 9.54
geometry 31 2.45 9.54
theprincipleofrelativity 33 2.41 9.48
specific 11 2.91 9.11
theembankment 40 2.25 9.09
square 28 2.41 8.92
thetheoryofrelativity 32 2.31 8.78
velocityv 17 2.60 8.63
referencebody 56 2.01 8.50
materialpoint 12 2.69 8.29
thelorentztransformation 33 2.22 8.26
fourdimensional 26 2.33 8.25

Jos´ L. Oliver
o


http://bioinfo2.ugr.es/TextKeywords/

Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):
Espa˜ol
n
Don Quijote, Miguel de Cervantes
La Celestina, Fernando de Rojas

Ingl´s
e
Relativity: the especial and general theory, Albert Einstein
The Origin of Species by means of Natural Selection, Charles Darwin
Don Quixote, Miguel de Cervantes
The Odyssey, Homero
The Jungle Book, Rudyard Kipling
Moby Dick, Herman Melville
The Three Musketeers, Alejandro Dumas

Alem´n
a
Faust: Der Trag¨die erster Teil, Johann Wolfgang von Goethe
o
Faust: Der Trag¨die zweiter Teil, Johann Wolfgang von Goethe
o

Italiano
La Divina Commedia di Dante, Dante Alighieri

Lat´
ın
De Bello Gallico, Julio Caesar

Jos´ L. Oliver
o

o o Unfolding DNAKeywords Funciń biol´gica Sobreabundancia
o o

Clusterizaciń en el ADN
o

La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada:
ıa o
Diferencia de tamaõ: 2-3 Mb en textos frente a los 150 Mb de un
n
cromosoma medio.
El ADN es un texto de autor m´ltiple: se reescribe continuamente
u
por puntos diferentes y con estilos (sesgos mutacionales) diferentes.
⇒ Mezcla de distribuciones ⇒ Clusterizaciń trivial
o

La clusterizaciń trivial la eliminamos mediante unfolding: la σ se
o
normaliza usando medias locales (a cierta escala s) en vez de la
media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984).
En el genoma humano, una escala entre 20 y 50 permite eliminar la
clusterizaciń trivial.
o

Jos´ L. Oliver
o

o o

Un vocabulario para el genoma humano

DNAkeywords contiene datos de clusterizaci´n para los k-mers (k = 2 − 12) de los 24 cromosomas
o
del genoma humano (hg18, NCBI Build 36.1):

Jos´ L. Oliver
o

o o

Palabras clave en el genoma humano

N´mero de palabras clave en la secuencia de referencia (hg18, NCBI
u
Build 36.1, k-mers para k = 2 − 12)

Escala Umbral de C N (24 cromosomas) No-redundantes
20 50 599.964 207.650
” 75 294.475 119.925
” 95 52.312 28.145
50 50 592.729 199.860
” 75 263.941 102.865
” 95 26.532 15.690

Jos´ L. Oliver
o

o o

Clusterizaci´n y funci´n biol´gica
o o o

k = 2 − 8, s = 50

80

o f w o r d s w ith in th e g e n o m e e le m e n t
70

60

50

40
TFBSs
Promoters
CpG islands
30

PhastCons
%

20
0 1 2 3 4 5
Clusterización (C)

Muchos elementos gen´micos son ricos en palabras clave
o

Jos´ L. Oliver
o

o o

En algunos elementos, no se ve tal relaci´n
o

k = 2 − 8, s = 50

80
o f w o r d s w ith in th e g e n o m e e le m e n t

70

60

50

40

30

miRNAs
20

F3' flanks
10
%

0
0 1 2 3 4 5
Clusterización (C)

Jos´ L. Oliver
o

o o

Sobreabundancia estad´
ıstica
Para cada elemento, se determina la frecuencia observada de cada
palabra, y se compara con la frecuencia en 100 segmentos (de la misma
longitud y elegidos al azar) del resto del genoma:

Jos´ L. Oliver
o

o o

Proporci´n de palabras sobreabundantes (z-score > 2.33)
o
Cromosomas 19-22, N = 2000, s = 50, percentil 95:
1 TFBSs conserved in the human/mouse/rat alignment → (21.60 %)
2 CpG islands predicted by CpGcluster → (65.35 %)
3 Promoter region of RefSeq Genes, (200 bp around the TSS) → (43.80 %)
4 Promoter region from DBTSS (200 bp around the TSS) → (39.70 %)
5 Curated regulatory regions, TFBSs, and regulatory polymorphisms → (19.00 %)
6 TSSs predicted by the program Eponine → (23.95 %)
7 ESPERR Regulatory Potential → (21.25 %)
8 Vista HMR-Conserved Non-coding Human Enhancers from LBNL → (0.85 %)
9 Conserved mammalian microRNA regulatory target sites for conserved microRNA families in the 3’ UTR regions of Refseq Genes,
as predicted by TargetScanS → (1.60 %)
10 microRNAs, C/D and H/ACA Box snoRNAs and scaRNAs from miRBase and snoRNABase → (0.90 %)

11 poly(A) Sites, both reported and predicted → (1.35 %)
12 Experimentally identiﬁed human genomic insulators → (38.95 %)

13 Exons from RefSeq → (39.50 %)
14 Introns from RefSeq → (11.75 %)

15 Repeats by RepeatMasker → (29.60 %)

16 PhastCons Conserved Elements → (21.85 %)

El 80 % de las palabras clave detectadas se puede relacionar con alguno de los
elementos gen´micos conocidos
o

Jos´ L. Oliver
o

o o

Para el futuro

B´squedas no-exactas (fuzzy), obteniendo la distribuciń compuesta
u o
de distancias antes de calcular la clusterizaciń.
o
Localizaciń y organizaciń de los clusters (homo- y heterot´
o o ıpicos)
de palabras en el cromosoma: combinatoria de la regulaciń.
o
Desarrollo de predictores espec´
ıficos para distintos elementos
funcionales.

Jos´ L. Oliver
o

o o

Grupo

F´
ısica Aplicada II, M´laga:
a
Pedro Bernaola
Pedro Carpena
Ana V. Coronado
Gen´tica, Granada:
e
Michael Hackenberg (posdoctoral)
Guillermo Barturen (predoctoral)
Teresa Galera (predoctoral)
Angel Mart´ Alganza (administrador del sistema)
ın

GRACIAS!

Jos´ L. Oliver
o

Palabras clave en el ADN y predicción computacional de elementos reguladores.

Recommandé

Recommandé

Contenu connexe

Similaire à Palabras clave en el ADN y predicción computacional de elementos reguladores.

Similaire à Palabras clave en el ADN y predicción computacional de elementos reguladores. (9)

Plus de Alberto Labarga

Plus de Alberto Labarga (20)

Dernier

Dernier (10)

Palabras clave en el ADN y predicción computacional de elementos reguladores.