SlideShare a Scribd company logo
1 of 24
Download to read offline
Anàlisi de la incidència de l'esforç
d'alta intensitat en la generació de
lncRNA
Ariadna Rius Soler
UOC. TFM. Curs 2013-2014
Consultor: Samir Kanaan Izquierdo
Àrea Intel·ligència Artificial
 Introducció
 Objectius del TFM
 Planificació
 Preparació
 Execució
 Resultats
 Problemes trobats
 Possibles ampliacions
Índex
 La genètica és la branca de la biologia que estudia
l’herència entre generacions:
 Informació genètica d’un organisme: genotip.
 Característiques físiques, d’aparença o personalitat:
fenotips.
 La informació que es transmet es troba als gens
 Formats per segments d’ADN i ARN (cadenes de molècules).
Introducció
 ADN:
 Emmagatzema informació a llarg termini i en regula l’ús.
 Conté instruccions per construir proteïnes i ARN
 I pel funcionament i desenvolupament dels organismes vius i alguns
virus.
 ARN:
 Permet a l’ADN transferir informació en la generació de proteïnes.
 Regula l’expressió genètica.
 Té activitat catalítica (augmenta velocitat de reacció química).
Introducció
 Expressió genètica: procés en què la
informació d’un gen s’utilitza en la síntesi
d’una proteïna o ARN:
 El nivell d’expressió és diferent per cada
cèl·lula.
 El seu estudi permet comparar cèl·lules
(malaltes i sanes, amb condicions d’estrès,
estadis, medicació, etc.).
Introducció
 ARN no codificant (ncRNA):
 És l’ARN que no es codifica en proteïnes.
 Es pensava que no tenia cap funció però s’ha descobert la seva
implicació en varis processos cel·lulars.
 La majoria és desconegut o no se’n coneix la funció.
 Si supera una mida determinada es considera llarg i passa a
anomenar-se lncRNA:
 Objecte d’estudi del present TFM.
Introducció
 Estudis recents han demostrat la implicació dels lncRNA en
l’envelliment i el desenvolupament de malalties.
 Però la seva funció segueix essent majoritàriament desconeguda:
 Els estudis fets són locals, manuals i sense grans quantitats de dades.
 Aquest TFM pretén aplicar tècniques d’Intel·ligència Artificial per
superar aquestes limitacions:
 Aprofitant experiències i mètodes que han permès conèixer altres
parts de l’ADN i ARN.
Introducció
 Aplicar tècniques de Machine Learning no supervisat per:
 Analitzar la incidència de determinats fenotips en la generació de
proteïnes i lncRNA.
 Cercar correlació entre els nivells d’expressió de proteïnes i lncRNA.
 Relacionar les proteïnes correlacionades amb el pathway de la glucosa.
 Usant les mesures d’un projecte real i analitzant un {mbit
desconegut:
 La incidència de l’activitat d’alta intensitat en la generació de lncRNA i
proteïnes.
Objectius del TFM
Fases generals del TFM:
 Planificació: Pla de treball temporalitzat amb taula de fites, de
lliurables i diagrama de Gantt.
 Preparació:
 Estat de l’art i elecció d’eines, dades i algoritmes a utilitzar.
 Familiarització amb el domini.
 Tractament previ de les dades.
 Execució: Execució dels algoritmes amb resultats.
 Tancament: Anàlisi de resultats i conclusions.
 Preparació de la presentació.
Planificació
 Eines: R, Rstudio IDE, Shiny.
 BBDD:
 Nivells d’expressió: Projecte SUMMIT (fitxers .CEL i metadades
dels fenotips) i affyMetrix (metadades dels probesets).
 lncRNA: Lncrna db, LncRNADisease database, NONCODE,
LNCipedia.
 Pathways: KEGGgraph.
 Algoritmes: PCA, PAM, correlació de Pearson, ICA i test
hipergeomètric.
Preparació
 Tractament de les dades:
 Nivells d’expressió:
 28 Fitxers .CEL amb 53.617 probesets cadascun: Importar, normalitzar i
extraure els nivells d’expressió.
 Metadades dels probesets d’AffyMetrix: Filtre textual per obtenir els
registres corresponents a proteïnes i lncRNA.
 Filtre dels nivells d’expressió deixant els de 8.656 lncRNA i 1.200
proteïnes.
 Obtenint dades dels 28 fitxers .CEL amb 9.856 probesets cadascun.
 Metadades dels fenotips: Càrrega de la llista de fenotips per fitxer i filtres
corresponents dels nivells d’expressió:
 Gènere (dones i homes), moment de la cursa (PRE i POST), grup d’activitat
(actiu o elit) i distància (menys de 40km, entre 40 i 60km i més de 60 km).
Preparació
 Tractament de les dades:
 Seqüències lncRNA:
 Unificar les diferents BBDD i camps (nom-seqüència en
majúscules) .
 Eliminar repetits, registres sense seqüència i els corresponents
a ratolins.
 Pathway:
 Importar fitxer de definició XML i passar-lo a graf de R.
 Obtenir el llistat de proteïnes del pathway usant el fitxer
d’AffyMetrix i filtrant pel camp pathway.
Preparació
 Agrupació:
 PCA per eliminar soroll i reduir la dimensionalitat de les dades.
 PAM (2 i 3 clústers) sobre scores del PCA i pels diferents fenotips.
 Correlació de Pearson entre agrupaments per fenotips i barreja.
 Anàlisi de diferències.
 Gràfiques.
 Correlació de Pearson:
 Separació en proteïnes i lncRNA i càlcul de correlacions.
 Selecció de correlacions majors a 0,9.
Execució
 Anàlisi de Components Independents:
 Filtre de proteïnes del pathway i lncRNA.
 PCA per eliminar soroll i reduir la dimensionalitat.
 Separació nivells d’expressió de proteïnes de lncRNA i c{lcul de
correlacions.
 Selecció de correlacions majors a 0,999.
 Filtre de nivells d’expressió de proteïnes del pathway
correlacionades.
 Aplicar-los ICA per construir els metafenotips.
 Test hipergeomètric i càlcul del p-value.
Execució
 Anàlisi PCA:
 Fenotip amb major variabilitat: distància >60km
 Fenotip més homogeni: moment de la cursa PRE.
 Agrupacions:
 Indicis d’incidència en la generació de proteïnes i lncRNA dels
fenotips:
 Distància inferior a 40 km i superior a 60km.
 Moment de la cursa pre i post.
Resultats
Resultats
Agrupaments per distància
Resultats
Agrupaments per moment de la cursa
 Correlacions proteïnes i lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 3.091.321 1.138
0,99 603.579 911
0,999 2.201 256
0.9995 120 66
0.9996 40 30
0.9997 17 16
0.9998 6 6
0.99988 1 1
0.99989 0 0
 Anàlisi ICA:
 Proteïnes del pathway correlacionades amb lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 135.907 45
0,99 30.139 38
0,999 162 19
0.9995 23 8
0.9998 3 1
0.99988 0 0
 Anàlisi ICA:
 Amb el test hipergeomètric no s'han trobat
diferències estadísticament significatives de la
incidència de les diferents proteïnes als
metafenotips construïts.
 p-value>0,05:
Resultats
Resultats
Problemes trobats
Problema Solució
Domini desconegut Inclusió d’una subfase d’aprenentatge
Sense nocions de R Millora progressiva del codi
Dades del projecte SUMMIT
incompletes
Ús 28 fitxers
Error paquet de R affy Ús paquet oligo
Limitacions memòria Canvi a PC 64 bits i 8GB RAM
Augment límit memòria Rstudio a 11GB
Identificació pròpia dels lncRNA i
proteïnes
Filtres textuals
Temps d’execució elevats i
desconeguts
Optimització codi, controls per hora i elements informatius
(missatges per pantalla de l’evolució)
 Més mostres dels nivells d’expressió.
 Més criteris d’agrupació (i combinacions).
 Analitzar altres pathways.
 Aplicació web en real (Shiny Server de RStudio).
 Afegir funcionalitats a l’aplicació web fent-la més
interactiva.
Possibles ampliacions
Gràcies
Ariadna Rius Soler
ariussol@uoc.edu
UOC. TFM. Curs 2013-2014
Consultor: Samir Kanaan Izquierdo

More Related Content

Featured

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Featured (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Análisis de la incidencia del esfuerzo de alta intensidad en la generación de lncRNA. Área Inteligencia Artificial

  • 1. Anàlisi de la incidència de l'esforç d'alta intensitat en la generació de lncRNA Ariadna Rius Soler UOC. TFM. Curs 2013-2014 Consultor: Samir Kanaan Izquierdo Àrea Intel·ligència Artificial
  • 2.  Introducció  Objectius del TFM  Planificació  Preparació  Execució  Resultats  Problemes trobats  Possibles ampliacions Índex
  • 3.  La genètica és la branca de la biologia que estudia l’herència entre generacions:  Informació genètica d’un organisme: genotip.  Característiques físiques, d’aparença o personalitat: fenotips.  La informació que es transmet es troba als gens  Formats per segments d’ADN i ARN (cadenes de molècules). Introducció
  • 4.  ADN:  Emmagatzema informació a llarg termini i en regula l’ús.  Conté instruccions per construir proteïnes i ARN  I pel funcionament i desenvolupament dels organismes vius i alguns virus.  ARN:  Permet a l’ADN transferir informació en la generació de proteïnes.  Regula l’expressió genètica.  Té activitat catalítica (augmenta velocitat de reacció química). Introducció
  • 5.  Expressió genètica: procés en què la informació d’un gen s’utilitza en la síntesi d’una proteïna o ARN:  El nivell d’expressió és diferent per cada cèl·lula.  El seu estudi permet comparar cèl·lules (malaltes i sanes, amb condicions d’estrès, estadis, medicació, etc.). Introducció
  • 6.  ARN no codificant (ncRNA):  És l’ARN que no es codifica en proteïnes.  Es pensava que no tenia cap funció però s’ha descobert la seva implicació en varis processos cel·lulars.  La majoria és desconegut o no se’n coneix la funció.  Si supera una mida determinada es considera llarg i passa a anomenar-se lncRNA:  Objecte d’estudi del present TFM. Introducció
  • 7.  Estudis recents han demostrat la implicació dels lncRNA en l’envelliment i el desenvolupament de malalties.  Però la seva funció segueix essent majoritàriament desconeguda:  Els estudis fets són locals, manuals i sense grans quantitats de dades.  Aquest TFM pretén aplicar tècniques d’Intel·ligència Artificial per superar aquestes limitacions:  Aprofitant experiències i mètodes que han permès conèixer altres parts de l’ADN i ARN. Introducció
  • 8.  Aplicar tècniques de Machine Learning no supervisat per:  Analitzar la incidència de determinats fenotips en la generació de proteïnes i lncRNA.  Cercar correlació entre els nivells d’expressió de proteïnes i lncRNA.  Relacionar les proteïnes correlacionades amb el pathway de la glucosa.  Usant les mesures d’un projecte real i analitzant un {mbit desconegut:  La incidència de l’activitat d’alta intensitat en la generació de lncRNA i proteïnes. Objectius del TFM
  • 9. Fases generals del TFM:  Planificació: Pla de treball temporalitzat amb taula de fites, de lliurables i diagrama de Gantt.  Preparació:  Estat de l’art i elecció d’eines, dades i algoritmes a utilitzar.  Familiarització amb el domini.  Tractament previ de les dades.  Execució: Execució dels algoritmes amb resultats.  Tancament: Anàlisi de resultats i conclusions.  Preparació de la presentació. Planificació
  • 10.  Eines: R, Rstudio IDE, Shiny.  BBDD:  Nivells d’expressió: Projecte SUMMIT (fitxers .CEL i metadades dels fenotips) i affyMetrix (metadades dels probesets).  lncRNA: Lncrna db, LncRNADisease database, NONCODE, LNCipedia.  Pathways: KEGGgraph.  Algoritmes: PCA, PAM, correlació de Pearson, ICA i test hipergeomètric. Preparació
  • 11.  Tractament de les dades:  Nivells d’expressió:  28 Fitxers .CEL amb 53.617 probesets cadascun: Importar, normalitzar i extraure els nivells d’expressió.  Metadades dels probesets d’AffyMetrix: Filtre textual per obtenir els registres corresponents a proteïnes i lncRNA.  Filtre dels nivells d’expressió deixant els de 8.656 lncRNA i 1.200 proteïnes.  Obtenint dades dels 28 fitxers .CEL amb 9.856 probesets cadascun.  Metadades dels fenotips: Càrrega de la llista de fenotips per fitxer i filtres corresponents dels nivells d’expressió:  Gènere (dones i homes), moment de la cursa (PRE i POST), grup d’activitat (actiu o elit) i distància (menys de 40km, entre 40 i 60km i més de 60 km). Preparació
  • 12.  Tractament de les dades:  Seqüències lncRNA:  Unificar les diferents BBDD i camps (nom-seqüència en majúscules) .  Eliminar repetits, registres sense seqüència i els corresponents a ratolins.  Pathway:  Importar fitxer de definició XML i passar-lo a graf de R.  Obtenir el llistat de proteïnes del pathway usant el fitxer d’AffyMetrix i filtrant pel camp pathway. Preparació
  • 13.  Agrupació:  PCA per eliminar soroll i reduir la dimensionalitat de les dades.  PAM (2 i 3 clústers) sobre scores del PCA i pels diferents fenotips.  Correlació de Pearson entre agrupaments per fenotips i barreja.  Anàlisi de diferències.  Gràfiques.  Correlació de Pearson:  Separació en proteïnes i lncRNA i càlcul de correlacions.  Selecció de correlacions majors a 0,9. Execució
  • 14.  Anàlisi de Components Independents:  Filtre de proteïnes del pathway i lncRNA.  PCA per eliminar soroll i reduir la dimensionalitat.  Separació nivells d’expressió de proteïnes de lncRNA i c{lcul de correlacions.  Selecció de correlacions majors a 0,999.  Filtre de nivells d’expressió de proteïnes del pathway correlacionades.  Aplicar-los ICA per construir els metafenotips.  Test hipergeomètric i càlcul del p-value. Execució
  • 15.  Anàlisi PCA:  Fenotip amb major variabilitat: distància >60km  Fenotip més homogeni: moment de la cursa PRE.  Agrupacions:  Indicis d’incidència en la generació de proteïnes i lncRNA dels fenotips:  Distància inferior a 40 km i superior a 60km.  Moment de la cursa pre i post. Resultats
  • 18.  Correlacions proteïnes i lncRNA: Resultats Correlació superior a Nombre resultats Nombre proteïnes 0,9 3.091.321 1.138 0,99 603.579 911 0,999 2.201 256 0.9995 120 66 0.9996 40 30 0.9997 17 16 0.9998 6 6 0.99988 1 1 0.99989 0 0
  • 19.  Anàlisi ICA:  Proteïnes del pathway correlacionades amb lncRNA: Resultats Correlació superior a Nombre resultats Nombre proteïnes 0,9 135.907 45 0,99 30.139 38 0,999 162 19 0.9995 23 8 0.9998 3 1 0.99988 0 0
  • 20.  Anàlisi ICA:  Amb el test hipergeomètric no s'han trobat diferències estadísticament significatives de la incidència de les diferents proteïnes als metafenotips construïts.  p-value>0,05: Resultats
  • 22. Problemes trobats Problema Solució Domini desconegut Inclusió d’una subfase d’aprenentatge Sense nocions de R Millora progressiva del codi Dades del projecte SUMMIT incompletes Ús 28 fitxers Error paquet de R affy Ús paquet oligo Limitacions memòria Canvi a PC 64 bits i 8GB RAM Augment límit memòria Rstudio a 11GB Identificació pròpia dels lncRNA i proteïnes Filtres textuals Temps d’execució elevats i desconeguts Optimització codi, controls per hora i elements informatius (missatges per pantalla de l’evolució)
  • 23.  Més mostres dels nivells d’expressió.  Més criteris d’agrupació (i combinacions).  Analitzar altres pathways.  Aplicació web en real (Shiny Server de RStudio).  Afegir funcionalitats a l’aplicació web fent-la més interactiva. Possibles ampliacions
  • 24. Gràcies Ariadna Rius Soler ariussol@uoc.edu UOC. TFM. Curs 2013-2014 Consultor: Samir Kanaan Izquierdo