2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)
La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici. Essa contribuisce alla descrizione dei fenomeni biologici coinvolgendo, oltre alla biologia e all'informatica, altre discipline tra cui matematica applicata, statistica, chimica, biochimica ed intelligenza artificiale. In questa sessione, presentiamo l’approccio bioinformatico, e la sua corrente implementazione in AZURE, per la predizione dei geni target di un insieme di microRNA non regolati in caso di patologie severe (e.g., cancro al fegato). I MicroRNA costituiscono una classe di piccolo RNA non codificanti che possono regolare negativamente l’espressione dei relativi geni target inducendo la degradazione di mRNA (RNA messaggero) o inibendone la traduzione. In letteratura esistono approcci che predicono l’interazione tra un solo MicroRNA e i suoi geni target. [mirbase.org, microrna.org, genemania.org]. L’approccio presentato, poggiandosi sui sistemi esistenti, tenta di migliorare la predizione considerando non un solo MicroRNA, ma un insieme. Il progetto in corso, dal nome DIANA, ha vinto il Microsoft Azure Research Award.
Similaire à 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)
RICERCA e INNOVAZIONE in EMILIA-ROMAGNADAElocal_IT
Similaire à 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma) (20)
2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)
1. Antinisca Di Marco
Dipartimento di Scienze Cliniche
Applicate e Biotecnologie
Università degli Studi dell’Aquila
antinisca.dimarco@univaq.it
2. OUTLINE
• Cos’e’ la bioinformatica
• Descrizione della ricerca
• Soluzione proposta: il progetto DIANA
• Attuale Implementazione in Azure
• Lavori futuri
• Conclusioni
3. BIOINFORMATICA
• La Bioinformatica è un campo di ricerca multidisciplinare che ha
l'obiettivo di comprendere i fenomeni e i meccanismi della
biologia.
• Discipline coinvolte: biologia, biochimica, informatica e statistica.
• Progetta e sviluppa
• Sistemi per raccogliere e recuperare i dati biologici.
• Tecniche e metodi matematici e statistici per l'analisi dei dati di
esperimenti in biologia.
• tecniche computazionali per la gestione e l'analisi di dati
biologici.
4. DESCRIZIONE DELLA RICERCA
• I microRNA (miRNA) sono una classe di piccoli RNA non
codificanti che hanno generato un grande impatto nel campo
della biologia molecolare.
• Essi possono regolare negativamente l'espressione dei loro geni
bersaglio in maniera post-trascrizionale, inducendo degradazione
dell'mRNA o inibendo la traduzione di esso.
• Dato il loro coinvolgimento in diverse patologie, tra cui tumori, le
funzioni dei miRNA sono state indagate con l'aiuto di approcci di
bioinformatica che consentono di prevedere l'interazione con i
potenziali geni bersaglio [mirbase.org, microrna.org,
genemania.org].
5. DESCRIZIONE DELLA RICERCA
• Tali strumenti sono in grado di analizzare una particolare
sequenza situato sull'estremità 5 ‘ di un miRNA, denominata
regione seme, al fine di prevedere i geni più probabili che
potenzialmente interagiscono con esso.
• Anche se la complementarità rimane la caratteristica principale,
questi strumenti tengono conto di altre caratteristiche importanti
come l'accessibilità del sito, la conservazione sequenza, più siti
di legame.
• Gli approcci ad oggi esistenti permettono di prevedere i geni
target a partire da un unico MicroRNA.
7. DESCRIZIONE DELLA RICERCA
Dati per il MusMusculus
Numero di nodi microRNA : 3221
Numero di nodi Target : 20915
Numero di relazioni PicTar : 64940
Numero di relazioni TargetScan: 104345
Numero di relazioni miRTarBase : 56697
8. DESCRIZIONE DELLA RICERCA
• Problemi con gli attuali sistemi:
• Gli approcci esistenti associano a ciascun MicroRNA anche
migliaia di geni, quindi c’è necessità di discriminare quali geni
sono maggiormente influenzati al fine di guidare il biologo verso
l’individuazione dei MicroRNA più influenti.
• Nelle patologie si è osservata l’alterazione di più MicroRNA
contemporaneamente.
9. SOLUZIONE PROPOSTA: IL PROGETTO DIANA
• Il progetto DIANA, appoggiandosi su approcci esistenti che predicono le relazioni
MicroRNA – Gene, si pone l’obiettivo di ottenere una lista di geni che con una
certa probabilità sono influenzati ad un gruppo di miRNA significativamente
alterati in presenza di patologia oncologiche.
• Inoltre, usando la conoscenza relativa al coinvolgimento dei geni nei processi
metabolici (chiamati pathways), con una concatenazione di relazioni,
MicroRNA->geni->pathways, si vuole determinare quali processi metabolici sono
influenzati dai MicroRNA alterati.
• In questo modo si vuole identificare cluster funzionali di geni che potrebbero
essere correlati al set fornito di microRNA.
• Possibilità di effettuare delle interrogazioni che a partire da uno o più geni target
(o pathways) sia possibile avere l’insieme dei MicroRNA associati. Questo
permettere di avere a priori la lista di MicroRNA da cercare nel sistema biologico.
11. SOLUZIONE PROPOSTA: IL PROGETTO DIANA
I risultati attesi di DIANA sono:
i) un nuovo DB a grafo, basato sulla tecnologia Neo4j che raccoglie tutti i risultati
del progetto, ossia le informazioni relative al miRNA, i loro geni bersaglio, i
pathways e tutte le relazioni funzionali e le annotazioni;
ii) nuove tecniche di previsione funzionale per determinare geni bersaglio putativi
influenzati da un insieme di MicroRNA (al momento si eseguono semplici
operazioni tra insiemi);
iii) una interfaccia grafica user-friendly facile da usare da parte dei biotecnologi e
biologi che li aiuta a interrogare il database al fine di trovare le relazioni più
probabili tra microrna, geni e pathways
iv) individuare nuove e inosservata relazioni miRNA-target (attraverso
interrogazioni multi-hop) che possono guidare verso nuove direzioni di ricerca
in ambito biologico;
13. ATTUALE IMPLEMENTAZIONE IN AZURE
• Realizzazione di script Python che realizzano il DB builder.
• La popolazione del database a grafo è organizzata in due fasi:
• vengono creati i nodi per microRNA e per i geni bersaglio
• vendono definite le relazioni tra i nodi derivanti dati delle
previsioni set di dati. Tutti le relazioni sono archi diretti da un
nodo microRNA a un nodo gene.
• Sorgenti dei dati considerati:
• MirBASE per la definizione dei MicroRNA
• UniPROT per le informazioni sui geni
• Per le relazioni: PicTar, TargetScan, miRTarBase, RNA22
14. ATTUALE IMPLEMENTAZIONE IN AZURE
• I nodi microRNA contengono il nome, i sinonimi disponibili in
letteratura, l’ID in miRBase (accession number), il nome della
specie (ad esempio Mus musculus) e un link che punta alla
pagina sul sito miRBase che lo descrive completamente.
• Un nodo gene contiene tutti i dati utili per individuare il gene
nelle principali banche dati: il nome del gene in UniProt,
l’identificatore univoco in uso in NCBI, il codice Ensembl, la
specie e il link alla pagina che descrive il gene sul sito NCBI.
15. ATTUALE IMPLEMENTAZIONE IN AZURE
• Le relazioni MicroRNA-Geni contengono gli score calcolati da
algoritmi diversi: PicTar, RNA22, TargetScan e miRTarBase.
• I punteggi sono memorizzati nel database come numeri in virgola
mobile per adattarsi alla varietà di gamma e precisione fornita
dagli algoritmi distinti.
• Durante l'importazione dei dati, vengono determinati il minimo e
il massimo dei punteggi, per ciascuna relazione.
• Qualora nel caricamento delle relazioni non si riesca ad abbinare
un nodo gene, vengono interrogati i servizi di NCBI, UniProt,
ensembl.org per reperire ulteriori informazioni.
16. ATTUALE IMPLEMENTAZIONE IN AZURE
• Problemi con i dati:
• Score di diversa natura
• I database delle relazioni specificano microRNA e geni usando
una notazione non sempre comune. Alcuni usano i nomi altri
degli ID.
• E’ necessaria una procedura per rilevare quando lo stesso
microRNA o gene viene descritto usando una forma diversa.
• API da servizi esterni sono usati per trovare una corrispondenza
in base al nome del gene, il suo GeneID o il codice Ensembl.
17. ATTUALE IMPLEMENTAZIONE IN AZURE
Dati caricati sul DB per il MusMusculus
Numero di nodi microRNA : 3221
Numero di nodi Target : 20915
Numero di relazioni PicTar : 64940
Numero di relazioni TargetScan: 104345
Numero di relazioni miRTarBase : 56697
Numero di relazioni RNA22: 38555671 (al momento)
20. LAVORI FUTURI
• Completare la realizzazione del sistema con i due applicativi Web
per l’amministratore del sistema e gli utenti finali, facendo uso di
specifici ambienti di sviluppo presenti su Azure.
• Usare l’applicativo “Application Insights” per:
• l’analisi dei file logs creati durante il caricamento del DB;
• studiare il comportamento e gli interessi degli utenti;
• l’analisi delle prestazioni e dell’affidabilità del sistema.
21. LAVORI FUTURI
• Il sistema DIANA deve garantire alta affidabilità (la probabilità di
fallimento del servizio deve essere non superiore a 10-6) e
availability (la probabilità che il servizio non è raggiungibile non
deve superare 10-5).
• Inoltre, si vuole monitorare le prestazioni (e.g., l'utilizzo delle
risorse e il tempo di risposta) del sistema al fine di studiare come
migliorare la qualità del sistema.
• Studiare come visualizzare al meglio i risultati delle
interrogazioni al DB. I dati da visualizzare possono essere tanti e
una visualizzazione non adeguata potrebbe prevenire l’utilizzo
effettivo del sistema da parte degli utilizzatori finali.
22. TEAM
Antinisca Di Marco, Ricercatrice in Informatica, L’Aquila
Francesco Gallo, Assegnista in Informatica, L’Aquila
Michele Tucci, Tecnico Informatico, L’Aquila
Edoardo Alesse, Prof. Ordinario in Scienze Tecniche di Medicina di
Laboratorio, L’Aquila
Alessandra Tessitore, Ricercatrice in Scienze Tecniche di Medicina di
Laboratorio, L’Aquila
Filippo Del Vecchio, Post-Doc Scienze Tecniche di Medicina di
Laboratorio,University of Southampton, UK