SlideShare une entreprise Scribd logo
1  sur  53
Télécharger pour lire hors ligne
Indexation et Recherche
d’Information vidéo
Introduction à la RI
Modèles de RI
Plan
1.Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
Qu’est ce que la RI ?
• La recherche d’information (RI) est une branche
de l’informatique qui s’intéresse à l’acquisition,
l’organisation, le stockage, la recherche et la
sélection d’information [salton, 1968]
• Terminologie
–Recherche d’information, Informatique documentaire
–Information Retrieval / Textual Information Retrieval /
Document Retrieval / multimedia Information
Retrieval
Domaine très visible …
… Et utile !
• Ouvert à tout le monde
• Domaines d’application
–Web, réseaux sociaux
–Bibliothèques numériques
–Entreprises
–Nos propres ordinateurs
La RI est un domaine vaste
• Recherche adhoc
• Classification /catégorisation (clustering)
• Question-réponses (Query answering)
• Filtrage d’information
(filtering/recommendation)
• Métat-moteurs (data-fusion,Meta-search)
• Résumé automatique (Summarization)
• Multi-langues (cross language)
• Fouille de textes (Text mining)
• Multimédias
Objectif de la RI
• Sélectionner dans une collection
–Les informations
–…pertinentes répondant à des
–…besoins d’utilisateurs
8
Eléments clés en RI
• Quels éléments sont centraux pour la
Recherche d’Information ?
–Documents
–Contenu des documents
–Besoin d’information d’un utilisateur
–Satisfaction
Les documents
• Formes
–Texte
–images, sons, vidéo, graphiques, etc.
• Propriétés
–Structure
• non structuré OU semi structuré (XML) (HTML)
–Hétérogénéité
• langage (multilingues)
• media (multimédia)
• granularité
10
Information sur les documents
• 2 classes d’information
–Méta-Information (information à propos du
document)
• Attributs : titre, auteur, date de création, etc.
• Structure (organisation du contenu) : structure logique,
liens, etc.
–Contenu
• Contenu brut : le document initial
• Contenu sémantique : information « riche » extraite du
contenu brut
Besoin d’information
• Le besoin
d’information est une
expression mentale
d’un utilisateur
• La requête est une
représentation
possible du besoin
Pertinence
• Quelle pertinence ?
• Relation (correspondance,…) entre un
document et ….….
une requête ou….….
un besoin d’information ?
Selon ….. l’utilisateur…ou …. le système ?
Pertinence utilisateur vs.
Pertinence système
Pertinence utilisateur
- subjective
Pertinence système
- algorithmique
?
La pertinence est difficile à
appréhender
• Pertinence est multidimensionnelle
–dépend de plusieurs paramètres : l’utilisateur,
besoin d’information, situations des utilisateurs
• Pertinence est graduelle (multivaluée)
–un document A peut être plus pertinent que B (ou A
préféré à B)
• Pertinence est dynamique
–peut changer dans le temps, selon l’état de
connaissance de l’utilisateur au moment de la
recherche
Pertinence ≈ similarité
• Elle est souvent traduite
–Vocabulaire similaire  pertinent à la requête
• Similarité peut être mesurée
–Comparaison (matching) de chaînes de caractères
(ou de motifs)
–Même vocabulaire
–Même «sens»
Approche générale de la RI
• Vision simple de la RI textuelle :
«Trouver les documents ayant les mêmes
mots que la requête»
–La requête comme les documents sont des listes de
mots clés
–Comparer les mots de chaque document à ceux de
la requête
–Sélectionner les documents qui contiennent le plus
de mots de la requête.
Description
Représentation
Représentation
Correspondance
Index
(inverse)
Besoin
Processus de RI
Requête
Visualisation
Problématiques de la RI
• Représentation de l’information
–Comment construire une représentation à partir de
documents ?
–Qu’est ce qu’une «bonne» représentation ?
–Quelle organisation physique pour les index ?
• Représentation des besoins
–Comment exprimer le besoin (langage de
requêtes) ?
–Comment représenter le besoin ?
•
RI : un domaine de recherche
actif !
• Proposer des solutions :
–modèles, techniques, outils pour répondre à ces
problèmes
• Avec 2 soucis majeurs
–Quels supports théoriques ?
• Souvent basés sur des théories mathématiques :
Probabilités, statistiques, ensembles, algèbre, logique floue,
analyse de données, …
–Quel processus pour la validation ?
 Théorie, pratique et expérimentation
Plan
1. Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
Du besoin d’information à la
requête
• Le besoin peut être
–Récurrent (filtrage, recommandation) ou ponctuel
(adhoc)
• Expression des besoins (Langage de requêtes)
–Texte libre, Liste de mots clés
–Avec / sans opérateurs (AND, OR, NOT)
–Images, sons (…)
–Appris, par navigation dans la collection (Relevance
feedback)
• Requête : Le résultat …
–de l’expression des besoins ?
–
Du besoin d’information à la
requête
• Paradoxe de la RI
–Une requête «idéale» doit comporter toutes les
informations que l’utilisateur recherche, la similarité
serait alors maximale
–Or, l’utilisateur recherche une information qu’il ne
connaît pas à priori, il ne peut donc pas l’exprimer
(décrire) de manière précise (idéale)
Représentation de l’information
• Représentation de l’information = indexation
–Processus permettant de construire un ensemble
d’éléments «clés » permettant de caractériser le
contenu d’un document
• Éléments clés
–Information textuelle
• mots simples : pomme
• groupe de mots : pomme de terre
–Image
• Couleurs, formes, textures
Indexation
• Peut être
–Manuelle (expert en indexation)
–Automatique (ordinateur)
–Semi-automatique (combinaison des deux)
• Basée sur
–Un langage contrôlé
(lexique/thesaurus/ontologie/réseau sémantique)
–Un langage libre (éléments pris directement des
documents)
•
Indexation
• Démarche de l’indexation automatique
–étape 1 : extraction des termes
–étape 2 : normalisation des mots (regrouper les
variantes d’un mot )
–étape 3 : pondération (discrimination entre les
termes clés/importants/significatifs et les autres)
Indexation automatique Etape1 :
Extraction des termes
• Extraire les termes (tockenization)
–Terme = mot (simple/composé), mots clés, concepts
–Mot : suite de caractères séparés par (blanc ou signe
de ponctuation, caractères spéciaux,…), Nombres
• Dépend de la langue
–Langue française
• Pomme de terre? un, deux ou trois termes?
–Langue Allemande les mots composés ne sont pas
segmentés
• Lebensversicherungsgesellschaftsangestellter
• « employé d’une compagnie d'assurance-vie »
Etape1 : Extraction des mots (suite)
• Pas d’espaces en chinois et en japonais
–Ne garantit pas l’extraction d’un terme de manière
unique
• Pire, le japonais utilise plusieurs alphabets
Etape 1 : Extraction des mots
(suite)
• Suppression des mots «vides» (stoplist/
Common Words removal)
–Mots trop fréquents mais pas utiles
–Exemples :
• Anglais : the, or, a, you, I, us, …
• Français : le, la, de , des, je, tu, …
–Des exceptions :
• US : «USA »
• A de (vitamine A)
Etape 2 : Normalisation
• «Lemmatisation» (radicalisation, racinisation)
(stemming)
–Processus morphologique permettant de regrouper
les variantes d’un mot
• Ex : économie, économiquement, économiste  économie
• pour l’anglais : retrieve, retrieving, retrieval, retrieved,
retrieves  retriev
Etape 2 : Normalisation (suite)
• Utilisation de règles de transformations
–règle de type : condition  action
• Ex : si mot se termine par ‘s’ alors supprimer la terminaison
• L’algorithme le plus connu est l’algorithme de Porter
–Analyse grammaticale
• Utilisation de lexique (dictionnaire)
• Tree-tagger (gratuit sur le net)
Etape 3 : Pondération des mots
• Comment caractériser l’importance des termes
dans un document ?
–Associer un (ou plusieurs) poids à un terme
–Idée sous jacente :
• Les termes importants doivent avoir un poids fort
 Approche la plus répandue : TF.IDF
• Ne concerne pas tous les modèles
• cf « Modèle vectoriel »
Plan
1. Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
33
Modèle booléen
–Modèle de connaissances : T = {ti}, i  [1, .. N]
• Termes ti qui indexent les documents
–Le modèle de documents (contenu) est une
expression booléenne dans la logique des
propositions avec les ti considérés comme des
propositions :
• Un document D1 est représenté par une formule D1
D1= t1  t3  t250  t254
• Une requête Q est représentée par une formule logique Q
Q = (t1  t3)  (t25  t1045  t134 )
34
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D  Q
– Utilisation de déduction par
» Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), …
» modus ponens (MP) : si a et a  b alors b
• Exemple : D = t1  t3 et Q = t1  t4
– Déduction :
1. t1  t3  t1 (équivalent à D  t1)
2. MP(1) : t1
3. t1  t1  t4 (équivalent à t1  Q )
4. MP(3) : Q
 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.
35
Modèle booléen
–Correspondance stricte
– Q = t1  t3  t4
– D1 = t1  t4 ,
D1  Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.
36
Modèle booléen
–Pas de distinction entre les documents pertinents
– Q = t1  t4
– D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7
D2  Q et D3  Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?
37
Modèle booléen
–Expression de requêtes complexe
– Q = ((t1  t4) t6) ( t8  (t10  t40)) … ???
– Sens du  logique (inclusif) différent du « ou » courant (exclusif)
Modèle booléen : avantages et
inconvénients
• Avantage :
–Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
–Adapté pour les spécialistes et les vocabulaires contr
aints
• Inconvénients :
–Il est difficile d'exprimer des requêtes longues sous f
39
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i  [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
• Un document Di est représenté par un vecteur
Di décrit dans l’espace vectoriel RN
défini par T :
–Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un
terme pour un document
• Une requête Q est représentée par un vecteur
Q décrit dans l’espace vectoriel RN
défini par T :
–Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
I
40
Modèle vectoriel
• Plus les vecteurs représentant les documents
sont « proches », plus les documents sont
similaires :
Di
Terme 1
Terme 3
Terme 2
Dj
41
Modèle vectoriel
• Pondération des termes pour les documents :
–Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
–Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »
Termes retenus et comptés
42
Modèle vectoriel
• Pondération :
–Fréquence d’un terme (term frequency)
• ti,j : la fréquence du terme tj dans le document Di est égale
au nombre d’occurrences de tj dans Di.
• Exemple : si violon apparaît 5 fois dans le document D3,
avec violon=t23, alors t3,23 = 5
43
Modèle vectoriel
• Pondération :
–On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le
corpus entier
Terme fréquent dans un seul
document du corpus
44
Modèle vectoriel
• Pondération :
–Fréquence documentaire d’un terme
• dfj : la fréquence dans le corpus du terme tj est le nombre
de documents du corpus où tj apparaît
–On utilise l’inverse de la fréquence documentaire,
idfj :
• Définition simple : idfj = 1 / dfj
• Définition la plus utilisée : idfj = log(ND / dfj), avec ND le
nombre de documents du corpus.
45
Modèle vectoriel
• Pondération :
–Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
–Utilisation du t pour une requête
46
Modèle vectoriel
• Fonction de correspondance :
–Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Di
Requête Q
Terme 1
Terme 3
Terme 2
Plus l’angle est petit et
plus le document
correspond à la requête
47
Modèle vectoriel
• Fonction de correspondance :
–Une solution est de calculer le cosinus de l’angle
entre le vecteur requête et le vecteur document.
• Produit scalaire
• Cosinus de l'angle
• Distance euclidienne
Modèle vectoriel : avantages et
inconvénients
• Avantages :
–Le langage de requête est plus simple (liste de mot
clés)
–Les performances sont meilleures grâce à la pondéra
tion des
termes
–Le renvoi de documents à pertinence partielle est po
ssible
–La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
–Le modèle considère que tous les termes sont indép
Modèle probabiliste (survol)
• Suppose que la recherche se déroule lors d’une
« session de recherche » (plusieurs itérations)
• Consiste à « estimer » la pertinence d'un
document en fonction de pertinences connues
pour d'autres documents.
• Ce calcul se fait en estimant la pertinence de
chaque index pour un document et en utilisant
le Théorème de Bayes et une règle de décision
49
50
Modèle probabiliste
• Pour un requête Q
Documents non pertinents
“Non relevant documents”
nonrel
CORPUS
Documents pertinents
“Relevant documents
rel
Avec
Corpus = rel  nonrel
rel  nonrel = 
Probabilité pour que le
document i fasse partie de
l’ensemble des documents
pertinents à la requête Q
Prob (pertinenceQ / document Di)
notée simplement Prob(rel/ Di)
Modèle probabiliste
• Fonction de correspondance :
– On ne sait pas calculer P(rel |
d), mais on peut calculer P(d | rel)
– Utilisation du théorème de Bayes
51
Probabilité pour que le document i soit
pertinent pour la requête q
Probabilité d'obtenir un doc
ument
pertinent en piochant au has
ard
Probabilité que le document soit
choisi au hasard
Probabilité d’obtenir dj
en connaissant les pertinents
52
Modèle probabiliste
• Fonction de correspondance
• Décision : document retourné si
– Prob(Rel / Di ) / Prob(nonRel / Di ) > 1
– Avec hypothèse d’indépendance des termes
Modèle probabiliste : avantages et
inconvénients
• Avantages :
– Apprentissage du besoin d’information
– La fonction d'appariement permet de trier les documents
• Inconvénients :
– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)
– Pas de langage de requête !
– Problème des probabilités initiales
 Résultats comparables à ceux du modèle vectoriel

Contenu connexe

Tendances

Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Ramzi Noumairi
 
Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Ayoub Mkharbach
 
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)Yasmine Tounsi
 
Soutenance PFE ingénieur génie logiciel
Soutenance PFE ingénieur génie logicielSoutenance PFE ingénieur génie logiciel
Soutenance PFE ingénieur génie logicielSiwar GUEMRI
 
Réseaux et protocoles - Cours + exercices
Réseaux et protocoles - Cours + exercices Réseaux et protocoles - Cours + exercices
Réseaux et protocoles - Cours + exercices sarah Benmerzouk
 
Pfe conception et développement d'une application web GMAO JEE
Pfe conception et développement d'une application web GMAO JEEPfe conception et développement d'une application web GMAO JEE
Pfe conception et développement d'une application web GMAO JEEOussama Djerba
 
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...Madjid Meddah
 
Projet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileProjet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileRim ENNOUR
 
Rapport du projet fin d'etudes
Rapport du projet fin d'etudesRapport du projet fin d'etudes
Rapport du projet fin d'etudesTahani RIAHI
 
Cours systèmes temps réel partie 2 Prof. Khalifa MANSOURI
Cours  systèmes temps réel partie 2 Prof. Khalifa MANSOURICours  systèmes temps réel partie 2 Prof. Khalifa MANSOURI
Cours systèmes temps réel partie 2 Prof. Khalifa MANSOURIMansouri Khalifa
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueYosra ADDALI
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Ines Ouaz
 
Presentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesPresentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesTahani RIAHI
 
UML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriUML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriMansouri Khalifa
 
Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop amat samiâ boualil
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 

Tendances (20)

Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...
 
QCM Sécurité Informatique
QCM Sécurité InformatiqueQCM Sécurité Informatique
QCM Sécurité Informatique
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...
 
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)
Rapport Projet ERP - Plateforme Odoo 12 (PFE Licence)
 
Soutenance PFE ingénieur génie logiciel
Soutenance PFE ingénieur génie logicielSoutenance PFE ingénieur génie logiciel
Soutenance PFE ingénieur génie logiciel
 
Réseaux et protocoles - Cours + exercices
Réseaux et protocoles - Cours + exercices Réseaux et protocoles - Cours + exercices
Réseaux et protocoles - Cours + exercices
 
Pfe conception et développement d'une application web GMAO JEE
Pfe conception et développement d'une application web GMAO JEEPfe conception et développement d'une application web GMAO JEE
Pfe conception et développement d'une application web GMAO JEE
 
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...
CONCEPTION ET REALISATION D ’ UNE APPLICATION WEB POUR GESTION DE P ROJETS DE...
 
Projet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileProjet Fin D'étude Application Mobile
Projet Fin D'étude Application Mobile
 
Rapport du projet fin d'etudes
Rapport du projet fin d'etudesRapport du projet fin d'etudes
Rapport du projet fin d'etudes
 
Cours systèmes temps réel partie 2 Prof. Khalifa MANSOURI
Cours  systèmes temps réel partie 2 Prof. Khalifa MANSOURICours  systèmes temps réel partie 2 Prof. Khalifa MANSOURI
Cours systèmes temps réel partie 2 Prof. Khalifa MANSOURI
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Présentation cloud computing
Présentation cloud computingPrésentation cloud computing
Présentation cloud computing
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
 
Presentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesPresentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'Etudes
 
UML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriUML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouri
 
Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop
 
Offre technique
Offre techniqueOffre technique
Offre technique
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 

Similaire à Indexation et ri

Fondements ri ars
Fondements ri arsFondements ri ars
Fondements ri arsMulhem
 
4-Recherche d'information.pdf
4-Recherche d'information.pdf4-Recherche d'information.pdf
4-Recherche d'information.pdfRihabBENLAMINE
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeSCD Paris-Sorbonne
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnéesPhilippe Lebas
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèseY. Nicolas
 
Formation recherche d'article de périodiques
Formation recherche d'article de périodiquesFormation recherche d'article de périodiques
Formation recherche d'article de périodiquesadeleflannery
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modelingAlexis Perrier
 
Methodo_documentaire.pdf
Methodo_documentaire.pdfMethodo_documentaire.pdf
Methodo_documentaire.pdfacrygion
 
Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Gilles Hubert
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-MLbabelmoi
 
Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1Ibrahima Sylla
 
Recherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDRecherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDFafinouche
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDAnonue12
 
Jabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.frJabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.frABES
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolasent12701
 

Similaire à Indexation et ri (20)

Fondements ri ars
Fondements ri arsFondements ri ars
Fondements ri ars
 
Lsi
Lsi Lsi
Lsi
 
4-Recherche d'information.pdf
4-Recherche d'information.pdf4-Recherche d'information.pdf
4-Recherche d'information.pdf
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnées
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Formation recherche d'article de périodiques
Formation recherche d'article de périodiquesFormation recherche d'article de périodiques
Formation recherche d'article de périodiques
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modeling
 
Methodo_documentaire.pdf
Methodo_documentaire.pdfMethodo_documentaire.pdf
Methodo_documentaire.pdf
 
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
 
Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiers
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
 
Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1
 
Recherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDRecherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSED
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
Jabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.frJabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.fr
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 

Indexation et ri

  • 1. Indexation et Recherche d’Information vidéo Introduction à la RI Modèles de RI
  • 2. Plan 1.Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 3. Qu’est ce que la RI ? • La recherche d’information (RI) est une branche de l’informatique qui s’intéresse à l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information [salton, 1968] • Terminologie –Recherche d’information, Informatique documentaire –Information Retrieval / Textual Information Retrieval / Document Retrieval / multimedia Information Retrieval
  • 5. … Et utile ! • Ouvert à tout le monde • Domaines d’application –Web, réseaux sociaux –Bibliothèques numériques –Entreprises –Nos propres ordinateurs
  • 6. La RI est un domaine vaste • Recherche adhoc • Classification /catégorisation (clustering) • Question-réponses (Query answering) • Filtrage d’information (filtering/recommendation) • Métat-moteurs (data-fusion,Meta-search) • Résumé automatique (Summarization) • Multi-langues (cross language) • Fouille de textes (Text mining) • Multimédias
  • 7. Objectif de la RI • Sélectionner dans une collection –Les informations –…pertinentes répondant à des –…besoins d’utilisateurs
  • 8. 8 Eléments clés en RI • Quels éléments sont centraux pour la Recherche d’Information ? –Documents –Contenu des documents –Besoin d’information d’un utilisateur –Satisfaction
  • 9. Les documents • Formes –Texte –images, sons, vidéo, graphiques, etc. • Propriétés –Structure • non structuré OU semi structuré (XML) (HTML) –Hétérogénéité • langage (multilingues) • media (multimédia) • granularité
  • 10. 10 Information sur les documents • 2 classes d’information –Méta-Information (information à propos du document) • Attributs : titre, auteur, date de création, etc. • Structure (organisation du contenu) : structure logique, liens, etc. –Contenu • Contenu brut : le document initial • Contenu sémantique : information « riche » extraite du contenu brut
  • 11. Besoin d’information • Le besoin d’information est une expression mentale d’un utilisateur • La requête est une représentation possible du besoin
  • 12. Pertinence • Quelle pertinence ? • Relation (correspondance,…) entre un document et ….…. une requête ou….…. un besoin d’information ? Selon ….. l’utilisateur…ou …. le système ?
  • 13. Pertinence utilisateur vs. Pertinence système Pertinence utilisateur - subjective Pertinence système - algorithmique ?
  • 14. La pertinence est difficile à appréhender • Pertinence est multidimensionnelle –dépend de plusieurs paramètres : l’utilisateur, besoin d’information, situations des utilisateurs • Pertinence est graduelle (multivaluée) –un document A peut être plus pertinent que B (ou A préféré à B) • Pertinence est dynamique –peut changer dans le temps, selon l’état de connaissance de l’utilisateur au moment de la recherche
  • 15. Pertinence ≈ similarité • Elle est souvent traduite –Vocabulaire similaire  pertinent à la requête • Similarité peut être mesurée –Comparaison (matching) de chaînes de caractères (ou de motifs) –Même vocabulaire –Même «sens»
  • 16. Approche générale de la RI • Vision simple de la RI textuelle : «Trouver les documents ayant les mêmes mots que la requête» –La requête comme les documents sont des listes de mots clés –Comparer les mots de chaque document à ceux de la requête –Sélectionner les documents qui contiennent le plus de mots de la requête.
  • 18. Problématiques de la RI • Représentation de l’information –Comment construire une représentation à partir de documents ? –Qu’est ce qu’une «bonne» représentation ? –Quelle organisation physique pour les index ? • Représentation des besoins –Comment exprimer le besoin (langage de requêtes) ? –Comment représenter le besoin ? •
  • 19. RI : un domaine de recherche actif ! • Proposer des solutions : –modèles, techniques, outils pour répondre à ces problèmes • Avec 2 soucis majeurs –Quels supports théoriques ? • Souvent basés sur des théories mathématiques : Probabilités, statistiques, ensembles, algèbre, logique floue, analyse de données, … –Quel processus pour la validation ?  Théorie, pratique et expérimentation
  • 20. Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 21. Du besoin d’information à la requête • Le besoin peut être –Récurrent (filtrage, recommandation) ou ponctuel (adhoc) • Expression des besoins (Langage de requêtes) –Texte libre, Liste de mots clés –Avec / sans opérateurs (AND, OR, NOT) –Images, sons (…) –Appris, par navigation dans la collection (Relevance feedback) • Requête : Le résultat … –de l’expression des besoins ? –
  • 22. Du besoin d’information à la requête • Paradoxe de la RI –Une requête «idéale» doit comporter toutes les informations que l’utilisateur recherche, la similarité serait alors maximale –Or, l’utilisateur recherche une information qu’il ne connaît pas à priori, il ne peut donc pas l’exprimer (décrire) de manière précise (idéale)
  • 23. Représentation de l’information • Représentation de l’information = indexation –Processus permettant de construire un ensemble d’éléments «clés » permettant de caractériser le contenu d’un document • Éléments clés –Information textuelle • mots simples : pomme • groupe de mots : pomme de terre –Image • Couleurs, formes, textures
  • 24. Indexation • Peut être –Manuelle (expert en indexation) –Automatique (ordinateur) –Semi-automatique (combinaison des deux) • Basée sur –Un langage contrôlé (lexique/thesaurus/ontologie/réseau sémantique) –Un langage libre (éléments pris directement des documents) •
  • 25. Indexation • Démarche de l’indexation automatique –étape 1 : extraction des termes –étape 2 : normalisation des mots (regrouper les variantes d’un mot ) –étape 3 : pondération (discrimination entre les termes clés/importants/significatifs et les autres)
  • 26. Indexation automatique Etape1 : Extraction des termes • Extraire les termes (tockenization) –Terme = mot (simple/composé), mots clés, concepts –Mot : suite de caractères séparés par (blanc ou signe de ponctuation, caractères spéciaux,…), Nombres • Dépend de la langue –Langue française • Pomme de terre? un, deux ou trois termes? –Langue Allemande les mots composés ne sont pas segmentés • Lebensversicherungsgesellschaftsangestellter • « employé d’une compagnie d'assurance-vie »
  • 27. Etape1 : Extraction des mots (suite) • Pas d’espaces en chinois et en japonais –Ne garantit pas l’extraction d’un terme de manière unique • Pire, le japonais utilise plusieurs alphabets
  • 28. Etape 1 : Extraction des mots (suite) • Suppression des mots «vides» (stoplist/ Common Words removal) –Mots trop fréquents mais pas utiles –Exemples : • Anglais : the, or, a, you, I, us, … • Français : le, la, de , des, je, tu, … –Des exceptions : • US : «USA » • A de (vitamine A)
  • 29. Etape 2 : Normalisation • «Lemmatisation» (radicalisation, racinisation) (stemming) –Processus morphologique permettant de regrouper les variantes d’un mot • Ex : économie, économiquement, économiste  économie • pour l’anglais : retrieve, retrieving, retrieval, retrieved, retrieves  retriev
  • 30. Etape 2 : Normalisation (suite) • Utilisation de règles de transformations –règle de type : condition  action • Ex : si mot se termine par ‘s’ alors supprimer la terminaison • L’algorithme le plus connu est l’algorithme de Porter –Analyse grammaticale • Utilisation de lexique (dictionnaire) • Tree-tagger (gratuit sur le net)
  • 31. Etape 3 : Pondération des mots • Comment caractériser l’importance des termes dans un document ? –Associer un (ou plusieurs) poids à un terme –Idée sous jacente : • Les termes importants doivent avoir un poids fort  Approche la plus répandue : TF.IDF • Ne concerne pas tous les modèles • cf « Modèle vectoriel »
  • 32. Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 33. 33 Modèle booléen –Modèle de connaissances : T = {ti}, i  [1, .. N] • Termes ti qui indexent les documents –Le modèle de documents (contenu) est une expression booléenne dans la logique des propositions avec les ti considérés comme des propositions : • Un document D1 est représenté par une formule D1 D1= t1  t3  t250  t254 • Une requête Q est représentée par une formule logique Q Q = (t1  t3)  (t25  t1045  t134 )
  • 34. 34 Modèle booléen – La fonction de correspondance est basée sur l’implication logique en logique des propositions : • Un document D répond à une requête Q si et seulement si D  Q – Utilisation de déduction par » Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), … » modus ponens (MP) : si a et a  b alors b • Exemple : D = t1  t3 et Q = t1  t4 – Déduction : 1. t1  t3  t1 (équivalent à D  t1) 2. MP(1) : t1 3. t1  t1  t4 (équivalent à t1  Q ) 4. MP(3) : Q  Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.
  • 35. 35 Modèle booléen –Correspondance stricte – Q = t1  t3  t4 – D1 = t1  t4 , D1  Q – Le document D1 (représenté par D1) n’est pas pertinent pour la requête Q (représentée par Q) d’après le modèle, alors qu’il contient une description « proche » de la requête.
  • 36. 36 Modèle booléen –Pas de distinction entre les documents pertinents – Q = t1  t4 – D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7 D2  Q et D3  Q – Le document D2 (représenté par D2) est-il plus ou moins pertinent que D3 (représenté par D3) pour la requête D (représentée par Q) ?
  • 37. 37 Modèle booléen –Expression de requêtes complexe – Q = ((t1  t4) t6) ( t8  (t10  t40)) … ??? – Sens du  logique (inclusif) différent du « ou » courant (exclusif)
  • 38. Modèle booléen : avantages et inconvénients • Avantage : –Le modèle est transparent et simple à comprendre p our l'utilisateur : • Pas de paramètres « cachés » • Raison de sélection d'un document claire : il répond à une f ormule logique –Adapté pour les spécialistes et les vocabulaires contr aints • Inconvénients : –Il est difficile d'exprimer des requêtes longues sous f
  • 39. 39 Modèle vectoriel • Modèle de connaissances : T = {ti}, i  [1, .. N] • Tous les documents sont décrits suivant ce vocabulaire • Un document Di est représenté par un vecteur Di décrit dans l’espace vectoriel RN défini par T : –Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un terme pour un document • Une requête Q est représentée par un vecteur Q décrit dans l’espace vectoriel RN défini par T : –Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N) I
  • 40. 40 Modèle vectoriel • Plus les vecteurs représentant les documents sont « proches », plus les documents sont similaires : Di Terme 1 Terme 3 Terme 2 Dj
  • 41. 41 Modèle vectoriel • Pondération des termes pour les documents : –Un document – « Un violon est issu de bois précieux comme l’érable, palissandre, l’ébène... » –Pour indexer, la première idée est de compter les mots les plus fréquents excepté les termes non significatifs comme « de », « avec », « comme »… – « Un violon est composé de bois précieux comme l’érable, le palissandre, l’ébène... » Termes retenus et comptés
  • 42. 42 Modèle vectoriel • Pondération : –Fréquence d’un terme (term frequency) • ti,j : la fréquence du terme tj dans le document Di est égale au nombre d’occurrences de tj dans Di. • Exemple : si violon apparaît 5 fois dans le document D3, avec violon=t23, alors t3,23 = 5
  • 43. 43 Modèle vectoriel • Pondération : –On tient compte du corpus (base de documents) entier, un terme qui apparaît beaucoup ne discrimine pas nécessairement les documents : Terme fréquent dans le corpus entier Terme fréquent dans un seul document du corpus
  • 44. 44 Modèle vectoriel • Pondération : –Fréquence documentaire d’un terme • dfj : la fréquence dans le corpus du terme tj est le nombre de documents du corpus où tj apparaît –On utilise l’inverse de la fréquence documentaire, idfj : • Définition simple : idfj = 1 / dfj • Définition la plus utilisée : idfj = log(ND / dfj), avec ND le nombre de documents du corpus.
  • 45. 45 Modèle vectoriel • Pondération : –Combinaison du t et de l’idf pour un vecteur document: • Exemple le plus courant – wi,j = ti,j . idfj –Utilisation du t pour une requête
  • 46. 46 Modèle vectoriel • Fonction de correspondance : –Fonction de l’angle entre le vecteur requête Q et le vecteur document Di Di Requête Q Terme 1 Terme 3 Terme 2 Plus l’angle est petit et plus le document correspond à la requête
  • 47. 47 Modèle vectoriel • Fonction de correspondance : –Une solution est de calculer le cosinus de l’angle entre le vecteur requête et le vecteur document. • Produit scalaire • Cosinus de l'angle • Distance euclidienne
  • 48. Modèle vectoriel : avantages et inconvénients • Avantages : –Le langage de requête est plus simple (liste de mot clés) –Les performances sont meilleures grâce à la pondéra tion des termes –Le renvoi de documents à pertinence partielle est po ssible –La fonction d'appariement permet de trier les docu ments • Inconvénients : –Le modèle considère que tous les termes sont indép
  • 49. Modèle probabiliste (survol) • Suppose que la recherche se déroule lors d’une « session de recherche » (plusieurs itérations) • Consiste à « estimer » la pertinence d'un document en fonction de pertinences connues pour d'autres documents. • Ce calcul se fait en estimant la pertinence de chaque index pour un document et en utilisant le Théorème de Bayes et une règle de décision 49
  • 50. 50 Modèle probabiliste • Pour un requête Q Documents non pertinents “Non relevant documents” nonrel CORPUS Documents pertinents “Relevant documents rel Avec Corpus = rel  nonrel rel  nonrel =  Probabilité pour que le document i fasse partie de l’ensemble des documents pertinents à la requête Q Prob (pertinenceQ / document Di) notée simplement Prob(rel/ Di)
  • 51. Modèle probabiliste • Fonction de correspondance : – On ne sait pas calculer P(rel | d), mais on peut calculer P(d | rel) – Utilisation du théorème de Bayes 51 Probabilité pour que le document i soit pertinent pour la requête q Probabilité d'obtenir un doc ument pertinent en piochant au has ard Probabilité que le document soit choisi au hasard Probabilité d’obtenir dj en connaissant les pertinents
  • 52. 52 Modèle probabiliste • Fonction de correspondance • Décision : document retourné si – Prob(Rel / Di ) / Prob(nonRel / Di ) > 1 – Avec hypothèse d’indépendance des termes
  • 53. Modèle probabiliste : avantages et inconvénients • Avantages : – Apprentissage du besoin d’information – La fonction d'appariement permet de trier les documents • Inconvénients : – Le modèle considère que tous les termes sont indépendants (inconvénient théorique) – Pas de langage de requête ! – Problème des probabilités initiales  Résultats comparables à ceux du modèle vectoriel