Hajer mhimdi-ppt11 pfe-mr2 siw

Étude comparative entre le SQL et le NoSQL
avec deux moteurs de recherche
spécifiques du domaine biomédical
UNIVERSITE DE JENDOUBA
Institut Supérieur d’Informatique de Kef
Mastere de Recherche
Réalisé par: Hajer MHIMDI Encadré par : Dr. Saoussen SAKJI
Année universitaire 2017/2018

1
2
3
4
5
Plan
Introduction & Problématique
Le Modèle relationnel
Le Modèle non relationnel
L’étude comparative de la RI
SQL vs. NoSQL
Conclusion & Perspectives

4
Les bases de données
se sont bien améliorés
dans le modèle
relationnel. Ils ont
connu une tendance et
des résultats
spectaculaires par
rapport à l’existant
01
Avec l’augmentation
exponentielle des
données, plusieurs
utilisateurs des
SGBDR veulent
migrer vers les
nouvelles
technologies NoSQL
02
Introduction
Conclusion&perspectivesL’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématique

LeNoSQLLeModèlerelationnelL’étudecomparativeConclusion&perspectivesIntroduction&problématique
 L’objectif de la recherche : Une étude comparative et
objective entre le modèle SQL et le NoSQL dans le domaine
biomédical pour mesurer cette évolution
■ Quel impact a la « dé-relatinisation » des entités sur la RI
lorsqu’on manipule un modèle complexe avec plusieurs
entités reliées entre elles et que l’on doit parcourir avec des
sous-ensembles importants à unifier ou à exclure.
Problématique & Objectif
5

Le modèle relationnel : Concepts de base
■ Développé dans les années 70 par Ted Codd chez IBM
■ Héberge les données dans des tables dont les colonnes sont de type
strictement définie
■ Les tables peuvent être liées entre elles par des relations
■ L’interrogation des données repose sur un langage standardisées, le
SQL
■ Les transactions respectent le plus souvent les principes ACID
7
LeNoSQLL’étudecomparativeConclusion&perspectivesLeModèlerelationnelIntroduction&problématique

Principe ACID
Atomicité
• Lors d’une transaction toutes les modifications doivent être
couronnées de succès, sinon aucune de ces modifications n’est
validée.
Cohérence
• Une transaction n’est validée que si toutes les règles en vigueur sont
respectées (types de données, contraintes, etc.)
Isolation
• Une transaction ne peut affecter d’autres transactions
Durabilité
• Après validation, les données sont enregistrées de manière durable,
indépendamment d’erreurs, de crashs ou d’autres
dysfonctionnements
8
Conclusion&perspectivesL’étudecomparativeLeNoSQLIntroduction&problématiqueLeModèlerelationnel

Les avantages
■ Indépendance du mode de stockage
■ Cohérence des données
■ Pas de redondances
■ Repose sur l’algèbre relationnelle, dérivée de la théorie des
ensembles
■ Modèle de loin plus largement utilisé, notamment par toute
une série de logiciels SGBD (Oracle, DB2, PostgreSQL,
SQLite,… etc)
9
Introduction&problématiqueLeNoSQLL’étudecomparativeConclusion&perspectivesLeModèlerelationnel

Les inconvénients
10
Introduction&problématiqueLeNoSQLL’étudecomparativeConclusion&perspectives
■ Accroissement des coûts et de la complexité
■ Pas de traitement des objets complexes
■ Incapacité de gérer de très grands volumes de données
■ Impossibilité de gérer des débits extrêmes
■ Performance limitée dans un contexte distribué
■ Limite avec le langage de manipulation
■ Pour certains éditeurs, le prix de licence est élevé
LeModèlerelationnel

12
Conclusion&perspectivesL’étudecomparativeLeModèlerelationnelIntroduction&problématiqueLeNoSQL
Le modèle non relationnel :
L’arrivée du NoSQL
■ Explosion de données au
cours de dix dernière
années
■ Croissance importante
depuis 2015 et il est estimé
exponentielle jusqu’à 2020
■ Les solutions BDR open
source ont montré leur
limite en particulier dans le
domaine du web

13
■ Développé dès la fin des années 90
■ Distribution sur des groupes de serveurs
■ Formes de stockage de données différentes
■ Répondre aux questions de maintien des performances des
services WEB
■ Gérant de gros systèmes de données relativement plus complexes
■ Pas de support de jointures
■ Pas de support, du moins à l’origine, du langage SQL
■ Tendent à ne pas implémenter ACID
L’arrivée de NoSQL

14
LeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparativeLeNoSQL
Le théorème CAP
■ Eric Brewer, 2000 :
■ Cohérence (C) : Tous les nœuds du
système accèdent exactement aux
mêmes données au même moment
■ Disponibilité (A) : Garantie que toutes
les requêtes reçoivent une réponse
quant à leur succès ou échec
■ Tolérance aux partitionnement (P) :
Le système reste fonctionnel en cas des
ruptures de communication
(Coherence)
(C)
(Partition
tolerance)
(P)
(Availability)
(A)

Conclusion&perspectivesL’étudecomparative
15
Introduction&problématiqueLeModèlerelationnelLeNoSQL
Les types des bases de données NoSQL
■ 4 grandes familles
■ Clé-valeur
■ Dictionnaire permettant d’accéder à la
valeur d’un objet par l’intermédiaire
d’une clé, qui doit être unique
 Exemples SGBD
DynamoDB, Redis, etc.

16
LeModèlerelationnelIntroduction&problématiqueLeNoSQL
■ Clé-valeur
■ Orienté colonne
■ Similaire aux modèle tabulaire, mais
avec un stockage par colonnes et une
gestion dynamique des colonnes
 Exemples SBGD
Cassandra, Hbase, bigTable, etc.

17
Introduction&problématiqueLeModèlerelationnelLeNoSQL
■ Clé-valeur
■ Orienté document
■ Collections de documents de type
JSON ou XML selon un paradigme
clé-valeur
 Exemples SGBD
MongoDB, CouchDB, SimpleDB, etc.

L’étudecomparativeConclusion&perspectives
18
LeModèlerelationnelIntroduction&problématiqueLeNoSQL
■ Clé-valeur
■ Orienté document
■ Orienté graphe
■ Basé sur la théorie des graphes, notions
de nœuds, de relations et de propriétés
qui leur sont attachées
 Exemples SGBD
Neo4j, OrientDB, etc.

19
Les solutions étudiés
■ Des travaux qui ont traité le sujet
Fig1. Rapidité du CGDM par rapport au MySQL Fig2. Comparaison entre Cassandra et PostgreSQL
Fig3. Comparaison entre Cassandra et MongoDB
ces articles ils ont fait une étude comparative entre le
modèle relationnel et le NoSQL et on prouvé que le
NoSQL est plus performant

21
LeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparative
■ Le CISMeF, Catalogue et Index des Sites Médicaux de langue Française
■ Un portail qui recense les principales ressources institutionnelles de santé
francophones disponibles sur internet
■ Ses objectifs:
■ Assister les professionnels de santé et le grand public dans leur quêtes
d’information sur le web
■ Améliorer la recherche d’information
■ Indexer les sites et les ressources d’information avec le thésaurus MeSH
(Medical Subject Headings)
Qu’est ce que CISMeF

22
Conclusion&perspectivesIntroduction&problématiqueL’étudecomparativeLeNoSQLLeModèlerelationnel
■ Medical Subject Headings
■ Construit en 1954 par la NLM (U.S National Library of Medicine)
■ Indexer et interroger les bases de données notamment MEDLINE/PubMed
■ MSeH 2017
 115845 termes
 28472 descripteurs
 80 qualificatifs
 Plus de 9000 mots clés de thesaurus MeSH
Qu’est ce que MeSH

Besoin d’information
Formulation de la
requête
Requête
correspondance
Documents indexés
indexation
documents
Documents trouvés
Retours de
l’utilisateur
Processus général de la recherche d’information 23
Conclusion&perspectivesL’étudecomparativeIntroduction&problématiqueLeModèlerelationnelLeNoSQL
La recherche d’information

24
■ DOC’CISMeF appliqué sur SQL
■ Ressource: https://doccismef.chu-rouen.fr (120601 ressources scientifiques)

25
■ LiSSa appliqué sur NoSQL
■ Ressource: https://www.lissa.fr (1223066 ressources scientifiques)

26
■ Types de recherche DOC’CISMeF/LiSSa :
■ La recherche simple
 Seul terme / expression
 Principaux champs (au, ap, mc, mt, tr, tc, ti, la, ur, nu, upd,…)
■ La recherche avancée
 Le produit logique ET (AND en anglais)
 L’intersection des documents retournés de requête
 La somme logique OU (OR en anglais)
 L’union des documents retournés de requête
 La différence logique SAUF (NOT en anglais)

27
Étude de cas
■ Les requêtes ont été construites par des spécialistes (2
documentalistes/pharmacienne)
■ Le gain et la perte de chaque requête selon la formule suivante:
■ Le rapport du temps d’exécution de SQL par rapport au NoSQL selon la
formule suivante :
Gain/Perte (%) = ((Temps d'exécution SQL - Temps
d'exécution NoSQL)/Temps d'exécution SQL)*100
Facteur = Temps d'exécution SQL / Temps
d'exécution NoSQL

Le gain/perte (%)
-500,00
-400,00
-300,00
-200,00
-100,00
0,00
100,00
98,12
62,50
-24,63
-333,64
-433,39
-350,92
-200,34
-145,64
-9,45
-377,69
-142,36
-432,73
3,77
Gain / Perte (%)
Le facteur de recherche
0,00
10,00
20,00
30,00
40,00
50,00
60,00
Facteur maximum (1) minimum (0)
28
LeModèlerelationnelIntroduction&problématiqueConclusion&perspectivesL’étudecomparativeLeNoSQL
Étude 1

-9 000,00
-8 000,00
-7 000,00
-6 000,00
-5 000,00
-4 000,00
-3 000,00
-2 000,00
-1 000,00
0,00
(R1) (R2) (R3) (R4) (R5) (R6) (R7) (R8) (R8)
-5,25
-111,89
-111,22
-296,95
-373,77
-218,59
-123,36
-8 911,73
-746,65
Gain / Perte (%)
0,00
0,20
0,40
0,60
0,80
1,00
1,20
(R1) (R2) (R3) (R4) (R5) (R6) (R7) (R8) (R9)
29
LeModèlerelationnelIntroduction&problématiqueLeNoSQLConclusion&perspectivesL’étudecomparative
Étude 6
Le gain/perte (%) Le facteur de recherche

-450,00
-400,00
-350,00
-300,00
-250,00
-200,00
-150,00
-100,00
-50,00
0,00
-10,55
-100,00
-83,97
-104,72
-242,34
-231,56
-183,50
-404,55
-106,38
-28,04
-89,61
-270,11
Gain / Perte (%)
0,00
0,20
0,40
0,60
0,80
1,00
1,20
30
Étude 8
Le gain/perte (%) Le facteur de recherche

-20,00
-10,00
0,00
10,00
20,00
30,00
40,00
-8,57
38,08
1,66
-20,00
1,10
-14,91
-1,93
26,16
22,13
-5,62
Gain / Perte (%)
0,00
0,20
0,40
0,60
0,80
1,00
1,20
1,40
1,60
1,80
31
Étude 14
Le facteur de rechercheLe gain/perte (%)

32
Étude de cas
■ Les deux critères de la recherche d’information :
La Précision : Rapport du nombre de documents
pertinents trouvés au nombre total de
documents sélectionnés
Le Rappel : Rapport du nombre de
documents pertinents trouvés au nombre total de
documents pertinents.

Effectué la requête 2
corps de lewy.mc
33
Étude 1 (R2) corps de lewy.mc
LiSSa est plus rapide que Doc’CISMeF, et bien que le corpus LiSSa est
plus grand on a un nombre de réponses moins important et moins
pertinent. Car, Lissa a envoyé un seul document parmi 20 qui est vraiment
pertinent (Précision(R2) = 1/20= 0.05), par rapport à Doc’CISMeF qui a
envoyé les deux documents pertinents et sont dans le thème (Précision(R2) =
2/2 =1).

(Disciplines et professions.mc
ET diverticule du côlon.mc )
SAUF pneumologie.mt
(diverticule du côlon.mc ET
phénomènes.tc) SAUF
2011.an
34
Étude 6 (R5) (diverticule du côlon.mc
ET phénomènes.tc) SAUF
2011.an

(Disciplines et professions.mc
ET diverticule du côlon.mc )
SAUF pneumologie.mt
35
Étude 6 (R6) (Disciplines et
professions.mc ET diverticule
du côlon.mc ) SAUF
pneumologie.mt
Les temps d’exécution de Doc’CISMeF sont plus rapides que LiSSa, tous les
documents retournés de Doc’CISMeF sont pertinents (Précision(R5) = 1/1=1 et
Précision(R6) = 2/2=1), cependant LiSSa a retourné dans chacune des deux
requêtes que les 9 premiers documents qui sont dans le thème (Précision(R5) =
9/39=0.23 et Précision(R6) = 9/37=0.24).

(roche.au OU asthénie.mc ) ET
agents cardiovasculaires/usage
thérapeutique.mc
36
Étude 8 (R1) (roche.au OU
asthénie.mc ) ET agents
cardiovasculaires/usage
thérapeutique.mc
Doc’CISMeF est plus rapide que LiSSa.
il a retourné un seul document qui est vraiment pertinent
(Précision(R1) = 1/1=1) par rapport à LiSSa qui a retourné un
seul document pertinent parmi 14 (Précision(R1)
=1/14=0.07).

(produits dermatologiques.mc ET
diclofenac.mc) OU (diclofenac.mc ET
maladies de la peau/traitement
médicamenteux.mc)
37
Conclusion&perspectivesIntroduction&problématiqueLeModèlerelationnelL’étudecomparativeLeNoSQL
Étude 14
(R1) (produits dermatologiques.mc
ET diclofenac.mc) OU
(diclofenac.mc ET maladies de la
peau/traitement
médicamenteux.mc)

(acétaminophène.mc et association
médicamenteuse.mc et
douleur/thérapie.mc) sauf (hypnotiques
et sédatifs.mc ou tranquillisants.mc ou
analgésiques morphiniques.mc ou acide
acétylsalicylique.mc)
38
Conclusion&perspectivesIntroduction&problématiqueLeModèlerelationnelL’étudecomparativeLeNoSQL
Étude 14 (R10) (acétaminophène.mc et
association médicamenteuse.mc et
douleur/thérapie.mc) sauf
(hypnotiques et sédatifs.mc ou
tranquillisants.mc ou analgésiques
morphiniques.mc ou acide
acétylsalicylique.mc)
on a choisi les deux requêtes 1 et 10 selon leurs complexités
et pour ce cas Doc’CISMeF est plus pertinent
(Précision(R1) = 2/3=0.66 et Précision(R10) =6/8=0.75)
que LiSSa (Précision(R1) =1/2=0.5 et Précision(R10) =
4/8=0.5).

39
• NoSQL meilleur
• NoSQL plus flexible
Plusieurs travaux
Modèle relationnel
Ce n’est pas toujours vrai Dépend du domaine
SQL est plus pertinent et plus accéléré que le NoSQL.
Ainsi que le NoSQL avec LiSSa a généré plus de bruit
que de pertinence.
Le domaine biomédical
Discussion

41
L’étudecomparativeLeNoSQLLeModèlerelationnelIntroduction&problématiqueConclusion&perspectives
Conclusion & perspectives
■ Le NoSQL ne ramène pas des résultats plus
concluants que le SQL dans notre domaine
■ Le SQL est plus pertinent que le NoSQL
■ Le NoSQL génère plus de bruit que de pertinence
■ Le choix d’un SGBD dépend du domaine et de
l’environnement
■ Le type de recherche et le degré de la complexité
sont des indices importants pour la performance

42
Conclusion & perspectives
■ Jeu de requêtes plus important et plus complexe
■ Détecter le profil de l’utilisateur pour étudier la complexité des
requêtes
■ Étaler la comparaison dans toutes les études et toutes les requêtes,
même qui ont une différence des résultats assez importante
■ Étudier des requêtes avec d’autres abréviations à savoir : Mot
réservé, Nom commercial de médicaments, URL et Date de
création ou de mise à jour ….

• https://www.veeam.com/blog/wp-content/uploads/2017/07/img01-4.png
• http://administration-systeme.blogspot.com/2013/10/bases-de-donnees-
big-data-et-nosql.html
• https://doccismef.chu-rouen.fr
• https://www.lissa.fr
• Wang S, Mares MA, Guo YK. CGDM: collaborative genomic data
model for molecular profiling data using NoSQL. 2016 Dec 1;
32(23):3654-3660. PubMed PMID: 27522085
• Aniceto R, Xavier R, Guimarães V, et al. Evaluating the Cassandra
NoSQL Database Approach for Genomic Data Persistency. International
Journal of Genomics. 2015;2015:502795. doi:10.1155/2015/502795.
43
Bibliographie

Hajer mhimdi-ppt11 pfe-mr2 siw

Recommandé

Recommandé

Contenu connexe

Similaire à Hajer mhimdi-ppt11 pfe-mr2 siw

Similaire à Hajer mhimdi-ppt11 pfe-mr2 siw (20)

Dernier

Dernier (7)

Hajer mhimdi-ppt11 pfe-mr2 siw