Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Hajer mhimdi-ppt11 pfe-mr2 siw

7 vues

Publié le

Étude comparative entre le SQL et NoSQL avec deux moteurs de recherche spécifiques du domaine biomédicale ---> le corpus LiSSA (NoSQL) VS Le DOC'Cismef (SQL)
-----
# lien du site web LiSSa : https://www.lissa.fr/dc/#env=lissa
# lien du site web Doc'Cismef ( SQL): https://doccismef.chu-rouen.fr/dc/

Publié dans : Technologie
  • Soyez le premier à commenter

Hajer mhimdi-ppt11 pfe-mr2 siw

  1. 1. Étude comparative entre le SQL et le NoSQL avec deux moteurs de recherche spécifiques du domaine biomédical UNIVERSITE DE JENDOUBA Institut Supérieur d’Informatique de Kef Mastere de Recherche Réalisé par: Hajer MHIMDI Encadré par : Dr. Saoussen SAKJI Année universitaire 2017/2018
  2. 2. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  3. 3. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  4. 4. 4 Les bases de données se sont bien améliorés dans le modèle relationnel. Ils ont connu une tendance et des résultats spectaculaires par rapport à l’existant 01 Avec l’augmentation exponentielle des données, plusieurs utilisateurs des SGBDR veulent migrer vers les nouvelles technologies NoSQL 02 Introduction Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique
  5. 5. LeNoSQLLeModèlerelationnelL’étudecomparativeConclusion&perspectivesIntroduction&problématique  L’objectif de la recherche : Une étude comparative et objective entre le modèle SQL et le NoSQL dans le domaine biomédical pour mesurer cette évolution ■ Quel impact a la « dé-relatinisation » des entités sur la RI lorsqu’on manipule un modèle complexe avec plusieurs entités reliées entre elles et que l’on doit parcourir avec des sous-ensembles importants à unifier ou à exclure. Problématique & Objectif 5
  6. 6. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  7. 7. Le modèle relationnel : Concepts de base ■ Développé dans les années 70 par Ted Codd chez IBM ■ Héberge les données dans des tables dont les colonnes sont de type strictement définie ■ Les tables peuvent être liées entre elles par des relations ■ L’interrogation des données repose sur un langage standardisées, le SQL ■ Les transactions respectent le plus souvent les principes ACID 7 LeNoSQLL’étudecomparativeConclusion&perspectivesLeModèlerelationnelIntroduction&problématique
  8. 8. Principe ACID Atomicité • Lors d’une transaction toutes les modifications doivent être couronnées de succès, sinon aucune de ces modifications n’est validée. Cohérence • Une transaction n’est validée que si toutes les règles en vigueur sont respectées (types de données, contraintes, etc.) Isolation • Une transaction ne peut affecter d’autres transactions Durabilité • Après validation, les données sont enregistrées de manière durable, indépendamment d’erreurs, de crashs ou d’autres dysfonctionnements 8 Conclusion&perspectivesL’étudecomparativeLeNoSQLIntroduction&problématiqueLeModèlerelationnel
  9. 9. Les avantages ■ Indépendance du mode de stockage ■ Cohérence des données ■ Pas de redondances ■ Repose sur l’algèbre relationnelle, dérivée de la théorie des ensembles ■ Modèle de loin plus largement utilisé, notamment par toute une série de logiciels SGBD (Oracle, DB2, PostgreSQL, SQLite,… etc) 9 Introduction&problématiqueLeNoSQLL’étudecomparativeConclusion&perspectivesLeModèlerelationnel
  10. 10. Les inconvénients 10 Introduction&problématiqueLeNoSQLL’étudecomparativeConclusion&perspectives ■ Accroissement des coûts et de la complexité ■ Pas de traitement des objets complexes ■ Incapacité de gérer de très grands volumes de données ■ Impossibilité de gérer des débits extrêmes ■ Performance limitée dans un contexte distribué ■ Limite avec le langage de manipulation ■ Pour certains éditeurs, le prix de licence est élevé LeModèlerelationnel
  11. 11. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  12. 12. 12 Conclusion&perspectivesL’étudecomparativeLeModèlerelationnelIntroduction&problématiqueLeNoSQL Le modèle non relationnel : L’arrivée du NoSQL ■ Explosion de données au cours de dix dernière années ■ Croissance importante depuis 2015 et il est estimé exponentielle jusqu’à 2020 ■ Les solutions BDR open source ont montré leur limite en particulier dans le domaine du web
  13. 13. 13 ■ Développé dès la fin des années 90 ■ Distribution sur des groupes de serveurs ■ Formes de stockage de données différentes ■ Répondre aux questions de maintien des performances des services WEB ■ Gérant de gros systèmes de données relativement plus complexes ■ Pas de support de jointures ■ Pas de support, du moins à l’origine, du langage SQL ■ Tendent à ne pas implémenter ACID L’arrivée de NoSQL Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique
  14. 14. 14 LeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparativeLeNoSQL Le théorème CAP ■ Eric Brewer, 2000 : ■ Cohérence (C) : Tous les nœuds du système accèdent exactement aux mêmes données au même moment ■ Disponibilité (A) : Garantie que toutes les requêtes reçoivent une réponse quant à leur succès ou échec ■ Tolérance aux partitionnement (P) : Le système reste fonctionnel en cas des ruptures de communication (Coherence) (C) (Partition tolerance) (P) (Availability) (A)
  15. 15. Conclusion&perspectivesL’étudecomparative 15 Introduction&problématiqueLeModèlerelationnelLeNoSQL Les types des bases de données NoSQL ■ 4 grandes familles ■ Clé-valeur ■ Dictionnaire permettant d’accéder à la valeur d’un objet par l’intermédiaire d’une clé, qui doit être unique  Exemples SGBD DynamoDB, Redis, etc.
  16. 16. Conclusion&perspectivesL’étudecomparative 16 LeModèlerelationnelIntroduction&problématiqueLeNoSQL Les types des bases de données NoSQL ■ 4 grandes familles ■ Clé-valeur ■ Orienté colonne ■ Similaire aux modèle tabulaire, mais avec un stockage par colonnes et une gestion dynamique des colonnes  Exemples SBGD Cassandra, Hbase, bigTable, etc.
  17. 17. Conclusion&perspectivesL’étudecomparative 17 Introduction&problématiqueLeModèlerelationnelLeNoSQL Les types des bases de données NoSQL ■ 4 grandes familles ■ Clé-valeur ■ Orienté colonne ■ Orienté document ■ Collections de documents de type JSON ou XML selon un paradigme clé-valeur  Exemples SGBD MongoDB, CouchDB, SimpleDB, etc.
  18. 18. L’étudecomparativeConclusion&perspectives 18 LeModèlerelationnelIntroduction&problématiqueLeNoSQL Les types des bases de données NoSQL ■ 4 grandes familles ■ Clé-valeur ■ Orienté colonne ■ Orienté document ■ Orienté graphe ■ Basé sur la théorie des graphes, notions de nœuds, de relations et de propriétés qui leur sont attachées  Exemples SGBD Neo4j, OrientDB, etc.
  19. 19. 19 Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique Les solutions étudiés ■ Des travaux qui ont traité le sujet Fig1. Rapidité du CGDM par rapport au MySQL Fig2. Comparaison entre Cassandra et PostgreSQL Fig3. Comparaison entre Cassandra et MongoDB ces articles ils ont fait une étude comparative entre le modèle relationnel et le NoSQL et on prouvé que le NoSQL est plus performant
  20. 20. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  21. 21. 21 LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative ■ Le CISMeF, Catalogue et Index des Sites Médicaux de langue Française ■ Un portail qui recense les principales ressources institutionnelles de santé francophones disponibles sur internet ■ Ses objectifs: ■ Assister les professionnels de santé et le grand public dans leur quêtes d’information sur le web ■ Améliorer la recherche d’information ■ Indexer les sites et les ressources d’information avec le thésaurus MeSH (Medical Subject Headings) Qu’est ce que CISMeF
  22. 22. 22 Conclusion&perspectivesIntroduction&problématiqueL’étudecomparativeLeNoSQLLeModèlerelationnel ■ Medical Subject Headings ■ Construit en 1954 par la NLM (U.S National Library of Medicine) ■ Indexer et interroger les bases de données notamment MEDLINE/PubMed ■ MSeH 2017  115845 termes  28472 descripteurs  80 qualificatifs  Plus de 9000 mots clés de thesaurus MeSH Qu’est ce que MeSH
  23. 23. Besoin d’information Formulation de la requête Requête correspondance Documents indexés indexation documents Documents trouvés Retours de l’utilisateur Processus général de la recherche d’information 23 Conclusion&perspectivesL’étudecomparativeIntroduction&problématiqueLeModèlerelationnelLeNoSQL La recherche d’information
  24. 24. 24 Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique La recherche d’information ■ DOC’CISMeF appliqué sur SQL ■ Ressource: https://doccismef.chu-rouen.fr (120601 ressources scientifiques)
  25. 25. 25 ■ LiSSa appliqué sur NoSQL ■ Ressource: https://www.lissa.fr (1223066 ressources scientifiques) Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique La recherche d’information
  26. 26. 26 ■ Types de recherche DOC’CISMeF/LiSSa : ■ La recherche simple  Seul terme / expression  Principaux champs (au, ap, mc, mt, tr, tc, ti, la, ur, nu, upd,…) ■ La recherche avancée  Le produit logique ET (AND en anglais)  L’intersection des documents retournés de requête  La somme logique OU (OR en anglais)  L’union des documents retournés de requête  La différence logique SAUF (NOT en anglais) La recherche d’information Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique
  27. 27. 27 Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique Étude de cas ■ Les requêtes ont été construites par des spécialistes (2 documentalistes/pharmacienne) ■ Le gain et la perte de chaque requête selon la formule suivante: ■ Le rapport du temps d’exécution de SQL par rapport au NoSQL selon la formule suivante : Gain/Perte (%) = ((Temps d'exécution SQL - Temps d'exécution NoSQL)/Temps d'exécution SQL)*100 Facteur = Temps d'exécution SQL / Temps d'exécution NoSQL
  28. 28. Le gain/perte (%) -500,00 -400,00 -300,00 -200,00 -100,00 0,00 100,00 98,12 62,50 -24,63 -333,64 -433,39 -350,92 -200,34 -145,64 -9,45 -377,69 -142,36 -432,73 3,77 Gain / Perte (%) Le facteur de recherche 0,00 10,00 20,00 30,00 40,00 50,00 60,00 Facteur maximum (1) minimum (0) 28 LeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparativeLeNoSQL Étude 1
  29. 29. -9 000,00 -8 000,00 -7 000,00 -6 000,00 -5 000,00 -4 000,00 -3 000,00 -2 000,00 -1 000,00 0,00 (R1) (R2) (R3) (R4) (R5) (R6) (R7) (R8) (R8) -5,25 -111,89 -111,22 -296,95 -373,77 -218,59 -123,36 -8 911,73 -746,65 Gain / Perte (%) 0,00 0,20 0,40 0,60 0,80 1,00 1,20 (R1) (R2) (R3) (R4) (R5) (R6) (R7) (R8) (R9) Facteur maximum (1) minimum (0) 29 LeModèlerelationnelIntroduction&problématiqueLeNoSQLConclusion&perspectivesL’étudecomparative Étude 6 Le gain/perte (%) Le facteur de recherche
  30. 30. -450,00 -400,00 -350,00 -300,00 -250,00 -200,00 -150,00 -100,00 -50,00 0,00 -10,55 -100,00 -83,97 -104,72 -242,34 -231,56 -183,50 -404,55 -106,38 -28,04 -89,61 -270,11 Gain / Perte (%) 0,00 0,20 0,40 0,60 0,80 1,00 1,20 Facteur maximum (1) minimum (0) 30 LeModèlerelationnelIntroduction&problématiqueLeNoSQLConclusion&perspectivesL’étudecomparative Étude 8 Le gain/perte (%) Le facteur de recherche
  31. 31. -20,00 -10,00 0,00 10,00 20,00 30,00 40,00 -8,57 38,08 1,66 -20,00 1,10 -14,91 -1,93 26,16 22,13 -5,62 Gain / Perte (%) 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80 Facteur maximum (1) minimum (0) 31 LeModèlerelationnelIntroduction&problématiqueLeNoSQLConclusion&perspectivesL’étudecomparative Étude 14 Le facteur de rechercheLe gain/perte (%)
  32. 32. 32 Étude de cas Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique ■ Les deux critères de la recherche d’information : La Précision : Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés Le Rappel : Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents.
  33. 33. Effectué la requête 2 corps de lewy.mc 33 LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative Étude 1 (R2) corps de lewy.mc LiSSa est plus rapide que Doc’CISMeF, et bien que le corpus LiSSa est plus grand on a un nombre de réponses moins important et moins pertinent. Car, Lissa a envoyé un seul document parmi 20 qui est vraiment pertinent (Précision(R2) = 1/20= 0.05), par rapport à Doc’CISMeF qui a envoyé les deux documents pertinents et sont dans le thème (Précision(R2) = 2/2 =1).
  34. 34. Effectué la requête 6 (Disciplines et professions.mc ET diverticule du côlon.mc ) SAUF pneumologie.mt Effectué la requête 5 (diverticule du côlon.mc ET phénomènes.tc) SAUF 2011.an 34 LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative Étude 6 (R5) (diverticule du côlon.mc ET phénomènes.tc) SAUF 2011.an
  35. 35. Effectué la requête 6 (Disciplines et professions.mc ET diverticule du côlon.mc ) SAUF pneumologie.mt 35 LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative Étude 6 (R6) (Disciplines et professions.mc ET diverticule du côlon.mc ) SAUF pneumologie.mt Les temps d’exécution de Doc’CISMeF sont plus rapides que LiSSa, tous les documents retournés de Doc’CISMeF sont pertinents (Précision(R5) = 1/1=1 et Précision(R6) = 2/2=1), cependant LiSSa a retourné dans chacune des deux requêtes que les 9 premiers documents qui sont dans le thème (Précision(R5) = 9/39=0.23 et Précision(R6) = 9/37=0.24).
  36. 36. Effectué la requête 1 (roche.au OU asthénie.mc ) ET agents cardiovasculaires/usage thérapeutique.mc 36 LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative Étude 8 (R1) (roche.au OU asthénie.mc ) ET agents cardiovasculaires/usage thérapeutique.mc Doc’CISMeF est plus rapide que LiSSa. il a retourné un seul document qui est vraiment pertinent (Précision(R1) = 1/1=1) par rapport à LiSSa qui a retourné un seul document pertinent parmi 14 (Précision(R1) =1/14=0.07).
  37. 37. Effectué la requête 1 (produits dermatologiques.mc ET diclofenac.mc) OU (diclofenac.mc ET maladies de la peau/traitement médicamenteux.mc) 37 Conclusion&perspectivesIntroduction&problématiqueLeModèlerelationnelL’étudecomparativeLeNoSQL Étude 14 (R1) (produits dermatologiques.mc ET diclofenac.mc) OU (diclofenac.mc ET maladies de la peau/traitement médicamenteux.mc)
  38. 38. Effectué la requête 14 (acétaminophène.mc et association médicamenteuse.mc et douleur/thérapie.mc) sauf (hypnotiques et sédatifs.mc ou tranquillisants.mc ou analgésiques morphiniques.mc ou acide acétylsalicylique.mc) 38 Conclusion&perspectivesIntroduction&problématiqueLeModèlerelationnelL’étudecomparativeLeNoSQL Étude 14 (R10) (acétaminophène.mc et association médicamenteuse.mc et douleur/thérapie.mc) sauf (hypnotiques et sédatifs.mc ou tranquillisants.mc ou analgésiques morphiniques.mc ou acide acétylsalicylique.mc) on a choisi les deux requêtes 1 et 10 selon leurs complexités et pour ce cas Doc’CISMeF est plus pertinent (Précision(R1) = 2/3=0.66 et Précision(R10) =6/8=0.75) que LiSSa (Précision(R1) =1/2=0.5 et Précision(R10) = 4/8=0.5).
  39. 39. 39 • NoSQL meilleur • NoSQL plus flexible Plusieurs travaux Modèle relationnel Ce n’est pas toujours vrai Dépend du domaine SQL est plus pertinent et plus accéléré que le NoSQL. Ainsi que le NoSQL avec LiSSa a généré plus de bruit que de pertinence. Le domaine biomédical Discussion Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique
  40. 40. 1 2 3 4 5 Plan Introduction & Problématique Le Modèle relationnel Le Modèle non relationnel L’étude comparative de la RI SQL vs. NoSQL Conclusion & Perspectives
  41. 41. 41 L’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectives Conclusion & perspectives ■ Le NoSQL ne ramène pas des résultats plus concluants que le SQL dans notre domaine ■ Le SQL est plus pertinent que le NoSQL ■ Le NoSQL génère plus de bruit que de pertinence ■ Le choix d’un SGBD dépend du domaine et de l’environnement ■ Le type de recherche et le degré de la complexité sont des indices importants pour la performance
  42. 42. 42 Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique Conclusion & perspectives ■ Jeu de requêtes plus important et plus complexe ■ Détecter le profil de l’utilisateur pour étudier la complexité des requêtes ■ Étaler la comparaison dans toutes les études et toutes les requêtes, même qui ont une différence des résultats assez importante ■ Étudier des requêtes avec d’autres abréviations à savoir : Mot réservé, Nom commercial de médicaments, URL et Date de création ou de mise à jour ….
  43. 43. • https://www.veeam.com/blog/wp-content/uploads/2017/07/img01-4.png • http://administration-systeme.blogspot.com/2013/10/bases-de-donnees- big-data-et-nosql.html • https://doccismef.chu-rouen.fr • https://www.lissa.fr • Wang S, Mares MA, Guo YK. CGDM: collaborative genomic data model for molecular profiling data using NoSQL. 2016 Dec 1; 32(23):3654-3660. PubMed PMID: 27522085 • Aniceto R, Xavier R, Guimarães V, et al. Evaluating the Cassandra NoSQL Database Approach for Genomic Data Persistency. International Journal of Genomics. 2015;2015:502795. doi:10.1155/2015/502795. 43 Bibliographie
  44. 44. Merci Pour Votre attention

×