Actuellement, tout organisme est à la recherche d’informations pertinentes sur soit même et son environnement. La détention de cette information constitue un atout majeur et un gain en temps et en argent.
Cependant, le volume d’information stockée électroniquement ne cesse de s’accroître. De plus, l’information disséminée dans un document n’est pas structurée et donc difficilement accessible voire identifiable.
Par conséquent, se pose le problème de retrouver de manière pertinente un ensemble d’informations contenu au sein d’une base documentaire, appelée corpus. Cette problématique générale appelée Recherche d'Information (RI) dans les documents, aussi connue sous le nom Recherche Documentaire (RD) par le contenu, constitue le contexte de nos travaux.
Notre étude est principalement dédiée à la représentation de l’information contenue dans un document au sein d'un système de recherche d'information, c'est à dire à l'indexation des documents. Nos travaux se limitent au traitement de documents textuelles, toute utilisation du terme « document » fera uniquement référence à son contenu textuel.
Nous travaillerons dans un environnement Big data où nos documents seront stockés afin de dépasser les limites de stockages habituelles et profiter les avantages offert par cet environnement.
Dans le but de facilité la recherche aux utilisateurs, nous concevrons un système automatique de recommandation permettant, à partir des recherches précédentes, d’indiquer des thèses qui sont les plus proches des préoccupations de l’utilisateur.
Nous avons intégré un module data mining utilisant la technique d'extraction des règles d'association afin de recommander les documents fréquemment associées dans une même recherche.
Nous adopterons à cet effet l'extraction des itemsets fréquents et nous avons utilisé l’algorithme appriori.
Pour donner un aspect pratique à nos travaux, nous exploiterons le dépôt légal des thèses au niveau du CERIST (versions numérique) dont le contenu textuel jusqu'à présent n’est pas encore indexé, comme corpus pour nos travaux.
- Pour réaliser ce travail on procédera comme suit :
- Le premier chapitre, contiendra une étude théorique et comparative des fonctionnalités des différents moteurs de recherche existants.
- Le deuxième chapitre sera consacré l’état de l’art sur les concepts de base des systèmes de recommandation, et ses techniques et approches de filtrages d’information.
- Le troisième chapitre, donne une idée sur le Big data et les plateformes Big data
- Le quatrième chapitre fera le point sur la conception du projet.
- Le cinquième chapitre pour la l’implémentation de notre projet
- Et enfin un dernier chapitre pour une évaluation d’n système de recherche d’information et un système de recommandation.
L’objet de ce projet est de mettre en œuvre dans un environnement Big data, un système pour stocker, indexer et rechercher les documents de la production scientifique nationale.
Mise en place d’un moteur de recherche et de recommandation de documents textuels de la production scientifique nationale.
1. Réalisé par :
AYAD Abla
RAHAL Chahrazed
Proposé par Mr:
Amrane Abdesalam
Mise en place d’un moteur de recherche et de
recommandation de documents textuels de la production
scientifique nationale.
Année Universitaire 2016/2017
Centre de recherche dans l’information
scientifique et technique
3. 3
Problématique
1/ La production scientifique (le contenu textuel des
thèses n’est pas encore indexer)
2/ La documentation étrangère (non stocker)
4. 4
La demande croissante en matière d’accès à
l’information?
Objectifs
Problématique
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Big Data
Moteur de
recherche
Recommandation
4
Objectifs
Problématique
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
La demande croissante en matière d’accès
à l’information?
L’augmentation du volume des données ?
Recommandation
Moteur de
recherche
Indexation
5. 5
Moteur de recherche
L'accès simple et rapide à une multitude d’informations
Mettre en œuvre un environnement pour stocker, indexer et
rechercher les documents scientifiques
Problématique
Indexation
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Objectifs
5
Problématique
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Objectifs
Moteur de recherche
L'accès simple et rapide à
une multitude
d’informations
Indexation
Mettre en œuvre un
environnement pour
stocker, indexer et
rechercher les
documents scientifiques
6. 6
Etat de l’art
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Introduction
& Problématique
Etat de l’art
7. 7
Dimensions de Big Data « Les Trois Vs
Les systèmes de
recommandation
Les plateformes
Big Data
Les moteurs
de recherche
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Etat de l’art
8. 8
Les plateformes
Big Data
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Les systèmes de
recommandation
Les moteurs
de recherche
Introduction
& Problématique
Etat de l’art
Quelque plateformes Big Data
9. 9
Les plateformes
Big Data
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Les systèmes de
recommandation
Les moteurs
de recherche
Introduction
& Problématique
Etat de l’art
Classification des plateformes Big Data
Les plateformes
open source
Cloudera
Hortonworks
HP
Hadoop
talend
Cassandra
Les plateformes
propriétaire
IBM
Amazon
SAP
MICROSOFT
ORACLE
TERADATA
10. 10
Recherche d’information Documents
Indexation
des documents
Indexation
de la requête
processus en U de la recherche d’information
Appariement
requête
Résultats
Les systèmes de
recommandation
Les plateformes
Big Data
Les moteurs
de recherche
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Etat de l’art
11. 11
La recherche d’information (RI) a besoin d’un
outils efficaces pour retrouver les documents
recherchés par l’utilisateur. Parmi ces outils,
les moteurs de recherche
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Les systèmes de
recommandation
Les plateformes
Big Data
Les moteurs
de recherche
Introduction
& Problématique
Etat de l’art
permettre aux utilisateurs de retrouver les
documents dont le contenu répond à leur besoin
en information, le plus rapidement possible
12. 12
ssification des moteurs de recherche
Moteurs de recherche
Moteurs de
recherche open
source
Moteurs de recherche
propriétaire
Non-distribués
Distribués
Sphinx Xapian
Apache
Lucence Apache Soler
Elasticsearch
Bing
Google
Yahoo
Conception &
Réalisation
Conclusion
Les systèmes de
recommandation
Les plateformes
Big Data
Les moteurs
de recherche
Etat de l’art
Introduction
& Problématique
13. 13
13
Les moteurs
de recherche
Les systèmes de
recommandation
Les systèmes de recommandation sont définis comme étant “des
outils logiciels
et des techniques qui suggèrent aux usagers des éléments utile
Conception &
Réalisation
Conclusion
Les plateformes
Big Data
Les approches de recommandation
Filtrage à base de contenu.
Filtrage collaboratif
Filtrage hybride.
Introduction
& Problématique
Etat de l’art
20. Conception
Réalisation
Etat de l’art
Conception &
Réalisation
Conclusion
Introduction
& Problématique
Environnement de travail
Système d’exploitation
Outils
Framework
de stockage
API d’indexation Serveur web
Les outils de développements
Introduction
& Problématique
Conception
& Réalisation
29. Etat de l’art
Conception &
Réalisation
Introduction
& Problématique
Introduction
& Problématique Conclusion
Mise en place d’un moteur de recherche et indexation
elasticsearch
Une solution d’indexation de documents textuel,
Un interface qui donne à l’utilisateur la possibilité
d’ajouter, indexer, supprimer et faire une simple
recherche pour extraire des documents textuels,