Este documento presenta tres principios para predecir la función de elementos en el ADN: 1) sobreabundancia de motivos, 2) conservación evolutiva, y 3) genes co-regulados. Sin embargo, estos principios tienen problemas como ignorar las relaciones espaciales entre motivos. El autor propone un nuevo principio basado en que palabras funcionales están clusterizadas mientras que palabras comunes no, lo que considera tanto la composición como la estructura espacial.
Palabras clave en el ADN y predicción computacional de elementos reguladores.
1. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o
Palabras clave en el ADN y predicci´n
o
computacional de elementos reguladores
Jos´ L. Oliver
e
Grupo de Gen´mica Evolutiva y Bioinform´tica
o a
Dpto. de Gen´tica
e
Universidad de Granada
http://www.ugr.es/˜oliver/
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
2. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Evidencias de otros c´digos en el ADN
o
Tras la secuenciaci´n del genoma humano, sabemos que:
o
S´lo hay 20.000-25.000 genes para prote´
o ınas
Equivalen al 2 % del genoma
Sin embargo, el 57-80 % del genoma se transcribe
Evidencias indirectas:
ADN no-codificador pero conservado evolutivamente
Selecci´n purificadora en el 20-30 % del ADN no-codificador
o
Hay otras capas de informaci´n en el genoma
o
C´digo regulador: promotores, sitios de uni´n a factores de
o o
transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi,
o
or´
ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores,
o e
etc... y los que no conocemos.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
3. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Evidencias de otros c´digos en el ADN
o
Tras la secuenciaci´n del genoma humano, sabemos que:
o
S´lo hay 20.000-25.000 genes para prote´
o ınas
Equivalen al 2 % del genoma
Sin embargo, el 57-80 % del genoma se transcribe
Evidencias indirectas:
ADN no-codificador pero conservado evolutivamente
Selecci´n purificadora en el 20-30 % del ADN no-codificador
o
Hay otras capas de informaci´n en el genoma
o
C´digo regulador: promotores, sitios de uni´n a factores de
o o
transcripci´n o TFBSs, enhancers, represores, microRNAs, RNAi,
o
or´
ıgenes de replicaci´n, secuencias centrom´ricas, elementos separadores,
o e
etc... y los que no conocemos.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
4. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Tres principios para predecir funci´n
o
Sobre-abundancia de ciertas palabras (motifs).
Problema: se asume su independencia, ignorando las relaciones
espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
o
las frecuencias de las palabras, pero no su organizaci´n espacial.
o
Conservaci´n evolutiva: las regiones conservadas en distintas especies
o
deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales
no-codificadores en las regiones ENCODE no est´n conservados
a
evolutivamente.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
5. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Tres principios para predecir funci´n
o
Sobre-abundancia de ciertas palabras (motifs).
Problema: se asume su independencia, ignorando las relaciones
espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
o
las frecuencias de las palabras, pero no su organizaci´n espacial.
o
Conservaci´n evolutiva: las regiones conservadas en distintas especies
o
deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales
no-codificadores en las regiones ENCODE no est´n conservados
a
evolutivamente.
Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n
o
(activaci´n/silenciamiento) comparten elementos reguladores.
o
Problema: incertidumbre en cuanto al n´mero de grupos,
u
naturaleza combinatoria de la regulaci´n.
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
6. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Tres principios para predecir funci´n
o
Sobre-abundancia de ciertas palabras (motifs).
Problema: se asume su independencia, ignorando las relaciones
espaciales entre diferentes motivos. Es decir, s´lo se toman en cuenta
o
las frecuencias de las palabras, pero no su organizaci´n espacial.
o
Conservaci´n evolutiva: las regiones conservadas en distintas especies
o
deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales
no-codificadores en las regiones ENCODE no est´n conservados
a
evolutivamente.
Grupos de genes co-regulados: los genes con el mismo perfil de expresi´n
o
(activaci´n/silenciamiento) comparten elementos reguladores.
o
Problema: incertidumbre en cuanto al n´mero de grupos,
u
naturaleza combinatoria de la regulaci´n.
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
7. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Un nuevo principio para predecir funci´n
o
Basado en la extrapolaci´n a textos de una t´cnica para medir desorden
o e
en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009):
a
Las palabras relevantes/funcionales est´n clusterizadas, mientras que
a
las palabras comunes se distribuyen al azar.
Se tienen en cuenta tanto la composici´n (frecuencias) como la
o
estructura (distribuci´n espacial) del texto gen´tico.
o e
Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n
o o a
clusterizados ⇒ este principio podr´ funcionar tambi´n en el
ıa e
genoma.
El m´todo para extraer palabras clave en el ADN se basa en lo que
e
hemos aprendido analizando textos literarios normales y textos ”sin
comas”(como el ADN!):
tatcattcactttcagccaccaattcactttca...
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
8. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Evidencias Funci´n y ADN no-codificador
o
Un nuevo principio para predecir funci´n
o
Basado en la extrapolaci´n a textos de una t´cnica para medir desorden
o e
en sistemas cu´nticos (Carpena et al., Physical Review E 79, 035102-4, 2009):
a
Las palabras relevantes/funcionales est´n clusterizadas, mientras que
a
las palabras comunes se distribuyen al azar.
Se tienen en cuenta tanto la composici´n (frecuencias) como la
o
estructura (distribuci´n espacial) del texto gen´tico.
o e
Genes, islas CpG, y sitios de uni´n a factores de transcripci´n est´n
o o a
clusterizados ⇒ este principio podr´ funcionar tambi´n en el
ıa e
genoma.
El m´todo para extraer palabras clave en el ADN se basa en lo que
e
hemos aprendido analizando textos literarios normales y textos ”sin
comas”(como el ADN!):
tatcattcactttcagccaccaattcactttca...
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
9. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
El espectro de una palabra en un texto
Para cada palabra, se determinan sus posiciones en el texto (su
espectro).
Por ejemplo, en la siguiente frase el espectro de la palabra a ser´
ıa
(1,6,10):
A great scientist must be a good teacher and a good
researcher
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
10. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
El espectro de dos palabras equifrecuentes
Espectros de las palabras Quixote y but en las 50.000 primeras palabras
de la versi´n inglesa del Quijote:
o
'Quixote'
(288
occurrences)
'but'
(248
occurrences)
0 10000 20000 30000 40000 50000
position (words)
Frequencia similar pero estructura muy diferente
Las palabras relevantes est´n clusterizadas
a
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
11. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Cuantificando la clusterizaci´n: σ y σnor
o
Ortu˜o, Carpena, Bernaola et al.
n (Europhysics Letters 57, 759-764, 2002):
σ ≡ s/ d (1)
d2 − d 2
siendo d la distancia media y s = la desviaci´n standard
o
de P(d).
Sin embargo, σ depende de la frecuencia de la palabra. Dicha
dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4,
o
2009):
σ
σnor = √ (2)
1−p
siendo p = n/N la probabilidad de la palabra en el texto.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
12. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Cuantificando la clusterizaci´n: σ y σnor
o
Ortu˜o, Carpena, Bernaola et al.
n (Europhysics Letters 57, 759-764, 2002):
σ ≡ s/ d (1)
d2 − d 2
siendo d la distancia media y s = la desviaci´n standard
o
de P(d).
Sin embargo, σ depende de la frecuencia de la palabra. Dicha
dependencia se elimina mediante normalizaci´n (Physical Review E 79: 035102-4,
o
2009):
σ
σnor = √ (2)
1−p
siendo p = n/N la probabilidad de la palabra en el texto.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
13. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Efecto de la normalizaci´n de σ
o
Simulaci´n de textos aleatorios:
o
a) 1.00
p = 0.01 p = 0.05 p = 0.1
0.98
1.00
0.96
<σnor>
0.96
<σ>
0.94
0.92
0.92
0.88
0.90
0.84
0.88 0 200 400 600 800 1000
n (word count)
0.86
0 100 200 300 400 500 600 700 800 900 1000
n (word count)
√
1 − p.
Las l´
ıneas horizontales son los valores esperados
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
14. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Significaci´n estad´
o ıstica: la medida C
Otra mejora importante que hemos incorporado ha sido asociar a
σnor una significaci´n estad´
o ıstica.
Para ello, dada una palabra con frecuencia n, definimos la medida C
como un z-score:
σnor − σnor (n)
C (σnor , n) ≡ (3)
sd(σnor )(n)
C mide la desviaci´n de σnor con respecto al valor esperado en un
o
texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard
o
esperada (sd(σnor )(n)).
C = 0 → Distribuci´n aleatoria
o
C > 0 → Clusterizaci´n
o
C < 0 → Repulsi´n
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
15. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Significaci´n estad´
o ıstica: la medida C
Otra mejora importante que hemos incorporado ha sido asociar a
σnor una significaci´n estad´
o ıstica.
Para ello, dada una palabra con frecuencia n, definimos la medida C
como un z-score:
σnor − σnor (n)
C (σnor , n) ≡ (3)
sd(σnor )(n)
C mide la desviaci´n de σnor con respecto al valor esperado en un
o
texto aleatorio ( σnor (n)) en unidades de la desviaci´n standard
o
esperada (sd(σnor )(n)).
C = 0 → Distribuci´n aleatoria
o
C > 0 → Clusterizaci´n
o
C < 0 → Repulsi´n
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
16. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Palabras clave en textos literarios
La medida C permite extraer palabras clave de textos literarios
(novela, poes´ libros cient´
ıa, ıficos...)
Por ejemplo, en el libro The Origin of Species...
word Counts σnor C
sterility 122 6.018 58.00
hybrids 152 5.14 53.04
varieties 486 3.13 47.64
instincts 100 4.87 40.93
species 1922 1.91 39.87
plants 471 2.64 36.23
crossed 116 3.97 33.65
bees 92 4.18 32.36
island 69 4.57 32.01
instinct 79 4.33 31.65
pollen 121 3.66 30.73
fertility 93 3.97 30.38
selection 559 2.27 30.37
organs 224 2.97 30.30
forms 565 2.22 29.37
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
17. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Textos ’sin comas’
El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni
e e
se˜ales de puntuaci´n).
n o
Era de esperar porque, aunque se eliminen los espacios, las distancias
entre palabras relevantes y comunes siguen siendo diferentes.
Puesto que se desconoce la longitud de palabra, se toman todos los
k-mers con longitud entre 2 y 35.
El resultado son linajes de palabras: cada palabra contiene palabras
m´s cortas y est´ contenida a su vez en otras palabras m´s largas.
a a a
Por ejemplo, para la palabra ventero en El Quijote encontramos
venter o entero (hijos) y lventero o venteroy (padres).
Para eliminar la redundancia, cada linaje se organiza en un gr´fico
a
ac´
ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto
umbral de C (percentiles 50, 75 ´ 95).
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
18. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Textos ’sin comas’
El m´todo funciona tambi´n en textos ’sin comas’ (sin espacios ni
e e
se˜ales de puntuaci´n).
n o
Era de esperar porque, aunque se eliminen los espacios, las distancias
entre palabras relevantes y comunes siguen siendo diferentes.
Puesto que se desconoce la longitud de palabra, se toman todos los
k-mers con longitud entre 2 y 35.
El resultado son linajes de palabras: cada palabra contiene palabras
m´s cortas y est´ contenida a su vez en otras palabras m´s largas.
a a a
Por ejemplo, para la palabra ventero en El Quijote encontramos
venter o entero (hijos) y lventero o venteroy (padres).
Para eliminar la redundancia, cada linaje se organiza en un gr´fico
a
ac´
ıclico dirigido (DAG) y se eligen las palabras que sobrepasan cierto
umbral de C (percentiles 50, 75 ´ 95).
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
19. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
Relativity: The Special and General Theory, by A. Einstein
Palabras clave extra´
ıdas tras eliminar del texto los espacios y las se˜ales
n
de puntuaci´n:
o
word Counts σnor C
energy 23 4.29 19.10
theuniverse 20 3.84 15.76
erical 26 3.25 13.74
project 35 2.73 11.85
alongthe 17 2.92 10.28
econtinuum 23 2.70 10.04
thegravitationalfield 27 2.60 10.01
sphere 16 2.8 9.79
electron 13 2.92 9.54
geometry 31 2.45 9.54
theprincipleofrelativity 33 2.41 9.48
specific 11 2.91 9.11
theembankment 40 2.25 9.09
square 28 2.41 8.92
thetheoryofrelativity 32 2.31 8.78
velocityv 17 2.60 8.63
referencebody 56 2.01 8.50
materialpoint 12 2.69 8.29
thelorentztransformation 33 2.22 8.26
fourdimensional 26 2.33 8.25
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
20. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Espectros Medida Textos Sin comas
http://bioinfo2.ugr.es/TextKeywords/
Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):
Espa˜ol
n
Don Quijote, Miguel de Cervantes
La Celestina, Fernando de Rojas
Ingl´s
e
Relativity: the especial and general theory, Albert Einstein
The Origin of Species by means of Natural Selection, Charles Darwin
Don Quixote, Miguel de Cervantes
The Odyssey, Homero
The Jungle Book, Rudyard Kipling
Moby Dick, Herman Melville
The Three Musketeers, Alejandro Dumas
Alem´n
a
Faust: Der Trag¨die erster Teil, Johann Wolfgang von Goethe
o
Faust: Der Trag¨die zweiter Teil, Johann Wolfgang von Goethe
o
Italiano
La Divina Commedia di Dante, Dante Alighieri
Lat´
ın
De Bello Gallico, Julio Caesar
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
21. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Clusterizaci´n en el ADN
o
La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada:
ıa o
Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un
n
cromosoma medio.
El ADN es un texto de autor m´ltiple: se reescribe continuamente
u
por puntos diferentes y con estilos (sesgos mutacionales) diferentes.
⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial
o
La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se
o
normaliza usando medias locales (a cierta escala s) en vez de la
media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984).
En el genoma humano, una escala entre 20 y 50 permite eliminar la
clusterizaci´n trivial.
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
22. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Clusterizaci´n en el ADN
o
La analog´ entre textos ’sin comas’ y ADN es s´lo aproximada:
ıa o
Diferencia de tama˜o: 2-3 Mb en textos frente a los 150 Mb de un
n
cromosoma medio.
El ADN es un texto de autor m´ltiple: se reescribe continuamente
u
por puntos diferentes y con estilos (sesgos mutacionales) diferentes.
⇒ Mezcla de distribuciones ⇒ Clusterizaci´n trivial
o
La clusterizaci´n trivial la eliminamos mediante unfolding: la σ se
o
normaliza usando medias locales (a cierta escala s) en vez de la
media global (Bohigas et al., Physical Review Letters 52, 1-4, 1984).
En el genoma humano, una escala entre 20 y 50 permite eliminar la
clusterizaci´n trivial.
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
23. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Un vocabulario para el genoma humano
DNAkeywords contiene datos de clusterizaci´n para los k-mers (k = 2 − 12) de los 24 cromosomas
o
del genoma humano (hg18, NCBI Build 36.1):
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
24. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Palabras clave en el genoma humano
N´mero de palabras clave en la secuencia de referencia (hg18, NCBI
u
Build 36.1, k-mers para k = 2 − 12)
Escala Umbral de C N (24 cromosomas) No-redundantes
20 50 599.964 207.650
” 75 294.475 119.925
” 95 52.312 28.145
50 50 592.729 199.860
” 75 263.941 102.865
” 95 26.532 15.690
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
25. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Clusterizaci´n y funci´n biol´gica
o o o
k = 2 − 8, s = 50
80
o f w o r d s w ith in th e g e n o m e e le m e n t
70
60
50
40
TFBSs
Promoters
CpG islands
30
PhastCons
%
20
0 1 2 3 4 5
Clusterización (C)
Muchos elementos gen´micos son ricos en palabras clave
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
26. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
En algunos elementos, no se ve tal relaci´n
o
k = 2 − 8, s = 50
80
o f w o r d s w ith in th e g e n o m e e le m e n t
70
60
50
40
30
miRNAs
20
F3' flanks
10
%
0
0 1 2 3 4 5
Clusterización (C)
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
27. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Sobreabundancia estad´
ıstica
Para cada elemento, se determina la frecuencia observada de cada
palabra, y se compara con la frecuencia en 100 segmentos (de la misma
longitud y elegidos al azar) del resto del genoma:
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
28. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o Unfolding DNAKeywords Funci´n biol´gica Sobreabundancia
o o
Proporci´n de palabras sobreabundantes (z-score > 2.33)
o
Cromosomas 19-22, N = 2000, s = 50, percentil 95:
1 TFBSs conserved in the human/mouse/rat alignment → (21.60 %)
2 CpG islands predicted by CpGcluster → (65.35 %)
3 Promoter region of RefSeq Genes, (200 bp around the TSS) → (43.80 %)
4 Promoter region from DBTSS (200 bp around the TSS) → (39.70 %)
5 Curated regulatory regions, TFBSs, and regulatory polymorphisms → (19.00 %)
6 TSSs predicted by the program Eponine → (23.95 %)
7 ESPERR Regulatory Potential → (21.25 %)
8 Vista HMR-Conserved Non-coding Human Enhancers from LBNL → (0.85 %)
9 Conserved mammalian microRNA regulatory target sites for conserved microRNA families in the 3’ UTR regions of Refseq Genes,
as predicted by TargetScanS → (1.60 %)
10 microRNAs, C/D and H/ACA Box snoRNAs and scaRNAs from miRBase and snoRNABase → (0.90 %)
11 poly(A) Sites, both reported and predicted → (1.35 %)
12 Experimentally identified human genomic insulators → (38.95 %)
13 Exons from RefSeq → (39.50 %)
14 Introns from RefSeq → (11.75 %)
15 Repeats by RepeatMasker → (29.60 %)
16 PhastCons Conserved Elements → (21.85 %)
El 80 % de las palabras clave detectadas se puede relacionar con alguno de los
elementos gen´micos conocidos
o
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
29. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o
Para el futuro
B´squedas no-exactas (fuzzy), obteniendo la distribuci´n compuesta
u o
de distancias antes de calcular la clusterizaci´n.
o
Localizaci´n y organizaci´n de los clusters (homo- y heterot´
o o ıpicos)
de palabras en el cromosoma: combinatoria de la regulaci´n.
o
Desarrollo de predictores espec´
ıficos para distintos elementos
funcionales.
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o
30. Otros c´digos Clusterizaci´n ADN Retos Grupo
o o
Grupo
F´
ısica Aplicada II, M´laga:
a
Pedro Bernaola
Pedro Carpena
Ana V. Coronado
Gen´tica, Granada:
e
Michael Hackenberg (posdoctoral)
Guillermo Barturen (predoctoral)
Teresa Galera (predoctoral)
Angel Mart´ Alganza (administrador del sistema)
ın
GRACIAS!
Jos´ L. Oliver
e Palabras clave y predicci´n computacional de elementos reguladores
o