Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Análisis de la incidencia del esfuerzo de alta intensidad en la generación de lncRNA. Área Inteligencia Artificial
1. Anàlisi de la incidència de l'esforç
d'alta intensitat en la generació de
lncRNA
Ariadna Rius Soler
UOC. TFM. Curs 2013-2014
Consultor: Samir Kanaan Izquierdo
Àrea Intel·ligència Artificial
3. La genètica és la branca de la biologia que estudia
l’herència entre generacions:
Informació genètica d’un organisme: genotip.
Característiques físiques, d’aparença o personalitat:
fenotips.
La informació que es transmet es troba als gens
Formats per segments d’ADN i ARN (cadenes de molècules).
Introducció
4. ADN:
Emmagatzema informació a llarg termini i en regula l’ús.
Conté instruccions per construir proteïnes i ARN
I pel funcionament i desenvolupament dels organismes vius i alguns
virus.
ARN:
Permet a l’ADN transferir informació en la generació de proteïnes.
Regula l’expressió genètica.
Té activitat catalítica (augmenta velocitat de reacció química).
Introducció
5. Expressió genètica: procés en què la
informació d’un gen s’utilitza en la síntesi
d’una proteïna o ARN:
El nivell d’expressió és diferent per cada
cèl·lula.
El seu estudi permet comparar cèl·lules
(malaltes i sanes, amb condicions d’estrès,
estadis, medicació, etc.).
Introducció
6. ARN no codificant (ncRNA):
És l’ARN que no es codifica en proteïnes.
Es pensava que no tenia cap funció però s’ha descobert la seva
implicació en varis processos cel·lulars.
La majoria és desconegut o no se’n coneix la funció.
Si supera una mida determinada es considera llarg i passa a
anomenar-se lncRNA:
Objecte d’estudi del present TFM.
Introducció
7. Estudis recents han demostrat la implicació dels lncRNA en
l’envelliment i el desenvolupament de malalties.
Però la seva funció segueix essent majoritàriament desconeguda:
Els estudis fets són locals, manuals i sense grans quantitats de dades.
Aquest TFM pretén aplicar tècniques d’Intel·ligència Artificial per
superar aquestes limitacions:
Aprofitant experiències i mètodes que han permès conèixer altres
parts de l’ADN i ARN.
Introducció
8. Aplicar tècniques de Machine Learning no supervisat per:
Analitzar la incidència de determinats fenotips en la generació de
proteïnes i lncRNA.
Cercar correlació entre els nivells d’expressió de proteïnes i lncRNA.
Relacionar les proteïnes correlacionades amb el pathway de la glucosa.
Usant les mesures d’un projecte real i analitzant un {mbit
desconegut:
La incidència de l’activitat d’alta intensitat en la generació de lncRNA i
proteïnes.
Objectius del TFM
9. Fases generals del TFM:
Planificació: Pla de treball temporalitzat amb taula de fites, de
lliurables i diagrama de Gantt.
Preparació:
Estat de l’art i elecció d’eines, dades i algoritmes a utilitzar.
Familiarització amb el domini.
Tractament previ de les dades.
Execució: Execució dels algoritmes amb resultats.
Tancament: Anàlisi de resultats i conclusions.
Preparació de la presentació.
Planificació
10. Eines: R, Rstudio IDE, Shiny.
BBDD:
Nivells d’expressió: Projecte SUMMIT (fitxers .CEL i metadades
dels fenotips) i affyMetrix (metadades dels probesets).
lncRNA: Lncrna db, LncRNADisease database, NONCODE,
LNCipedia.
Pathways: KEGGgraph.
Algoritmes: PCA, PAM, correlació de Pearson, ICA i test
hipergeomètric.
Preparació
11. Tractament de les dades:
Nivells d’expressió:
28 Fitxers .CEL amb 53.617 probesets cadascun: Importar, normalitzar i
extraure els nivells d’expressió.
Metadades dels probesets d’AffyMetrix: Filtre textual per obtenir els
registres corresponents a proteïnes i lncRNA.
Filtre dels nivells d’expressió deixant els de 8.656 lncRNA i 1.200
proteïnes.
Obtenint dades dels 28 fitxers .CEL amb 9.856 probesets cadascun.
Metadades dels fenotips: Càrrega de la llista de fenotips per fitxer i filtres
corresponents dels nivells d’expressió:
Gènere (dones i homes), moment de la cursa (PRE i POST), grup d’activitat
(actiu o elit) i distància (menys de 40km, entre 40 i 60km i més de 60 km).
Preparació
12. Tractament de les dades:
Seqüències lncRNA:
Unificar les diferents BBDD i camps (nom-seqüència en
majúscules) .
Eliminar repetits, registres sense seqüència i els corresponents
a ratolins.
Pathway:
Importar fitxer de definició XML i passar-lo a graf de R.
Obtenir el llistat de proteïnes del pathway usant el fitxer
d’AffyMetrix i filtrant pel camp pathway.
Preparació
13. Agrupació:
PCA per eliminar soroll i reduir la dimensionalitat de les dades.
PAM (2 i 3 clústers) sobre scores del PCA i pels diferents fenotips.
Correlació de Pearson entre agrupaments per fenotips i barreja.
Anàlisi de diferències.
Gràfiques.
Correlació de Pearson:
Separació en proteïnes i lncRNA i càlcul de correlacions.
Selecció de correlacions majors a 0,9.
Execució
14. Anàlisi de Components Independents:
Filtre de proteïnes del pathway i lncRNA.
PCA per eliminar soroll i reduir la dimensionalitat.
Separació nivells d’expressió de proteïnes de lncRNA i c{lcul de
correlacions.
Selecció de correlacions majors a 0,999.
Filtre de nivells d’expressió de proteïnes del pathway
correlacionades.
Aplicar-los ICA per construir els metafenotips.
Test hipergeomètric i càlcul del p-value.
Execució
15. Anàlisi PCA:
Fenotip amb major variabilitat: distància >60km
Fenotip més homogeni: moment de la cursa PRE.
Agrupacions:
Indicis d’incidència en la generació de proteïnes i lncRNA dels
fenotips:
Distància inferior a 40 km i superior a 60km.
Moment de la cursa pre i post.
Resultats
18. Correlacions proteïnes i lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 3.091.321 1.138
0,99 603.579 911
0,999 2.201 256
0.9995 120 66
0.9996 40 30
0.9997 17 16
0.9998 6 6
0.99988 1 1
0.99989 0 0
19. Anàlisi ICA:
Proteïnes del pathway correlacionades amb lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 135.907 45
0,99 30.139 38
0,999 162 19
0.9995 23 8
0.9998 3 1
0.99988 0 0
20. Anàlisi ICA:
Amb el test hipergeomètric no s'han trobat
diferències estadísticament significatives de la
incidència de les diferents proteïnes als
metafenotips construïts.
p-value>0,05:
Resultats
22. Problemes trobats
Problema Solució
Domini desconegut Inclusió d’una subfase d’aprenentatge
Sense nocions de R Millora progressiva del codi
Dades del projecte SUMMIT
incompletes
Ús 28 fitxers
Error paquet de R affy Ús paquet oligo
Limitacions memòria Canvi a PC 64 bits i 8GB RAM
Augment límit memòria Rstudio a 11GB
Identificació pròpia dels lncRNA i
proteïnes
Filtres textuals
Temps d’execució elevats i
desconeguts
Optimització codi, controls per hora i elements informatius
(missatges per pantalla de l’evolució)
23. Més mostres dels nivells d’expressió.
Més criteris d’agrupació (i combinacions).
Analitzar altres pathways.
Aplicació web en real (Shiny Server de RStudio).
Afegir funcionalitats a l’aplicació web fent-la més
interactiva.
Possibles ampliacions