Comment l'intelligence artificielle améliore la recherche documentaire

Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet

2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● Text Mining et IA - créer des métadonnées
● Linked (Open) Data – lier les documents
● Exemples

4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs | +150 clients
● Mission : fournir des solutions innovantes qui créent
de la valeur à partir des données et augmentent la
performance opérationnelle de nos clients

5
@AntidotNet
Parmi nos clients
● Production de contenus
● Industries
● E-Commerce
● Santé

6
@AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010

7
Où en est
la recherche
documentaire ?

8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
Notre réponse :
Rien de bien passionnant…

9
@AntidotNet
3 types de moteurs de recherche

10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les résultats trouvés selon les critères
demandés : type de document, taille,
fourchette de prix…
● Et enfin, le plus important : il ordonne les
document dans l’ordre « le plus pertinent »

11
@AntidotNet
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot

12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Document
Frequency)
● Elle a été inventée en 1970
par Gerry Salton, appelé le
père de la recherche d’information

13
@AntidotNet
Pertinence des moteurs spécialisés

14
@AntidotNet

15
@AntidotNet

16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page Rank
● Étape 3 - 2005 : explosion du nombre de
paramètres de pondération
● Étape 4 - 2010 : le Machine Learning pour
trouver la meilleure pertinence pour chacun

17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche documentaires,
via les algorithmes appelés Best Match ou
Vector Space Model
● L’état de l’art scientifique de ces moteurs de
recherche a 45 ans !

18
Comment améliorer
l’efficacité de la
recherche ?

19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispose, pour chaque
document, de métadonnées riches

20
@AntidotNet
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● caractériser finement chaque document
● lier les documents entre eux
● Des outils précieux :
● Text Mining / Machine Learning
● Linked Data

21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
extraire des connaissances dans des
textes produits par des humains pour des
humains.
● Disciplines scientifiques :
● linguistique calculatoire, traitement automatique des
langues,
● apprentissage automatique, intelligence artificielle,
● statistique

22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Discipline scientifique :
● Intelligence Artificielle
● approche probabiliste ≠ approches par règles

23
@AntidotNet
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus de silos différents
● Pour cela, on dispose de l’approche et des
standards du web de données : Linked Data

24
@AntidotNet
L’approche globale d’Antidot
Access
Search
Semantic & Complex
Enrich
Text Mining
Machine Learning
Doc Graph &
Linked Data

25
Classification
automatique
de documents

26
@AntidotNet
Classification automatique de texte
Droit de la famille
Droit fiscal
Droit pénal

27
@AntidotNet
Principe de fonctionnement
Corpus
d’entrainement
Base
d’apprentissage
Traitement statistique

28
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage

29
@AntidotNet

30
@AntidotNet

31
@AntidotNet
Etape 2 : Lancer le Machine Learning

32
@AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML

33
@AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base
d’apprentissage
Base
d’apprentissage

34
@AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité

36
Exemple :
www.rechercheisidore.fr

37
@AntidotNet
● 2010
● 750 sources
● 1,8 M publications scientifiques en SHS
● dont 100.000 classées par les documentalistes
● 2016
● 3700 sources
● 4,2 M publications classées automatiquement

38
@AntidotNet
Classification automatique

39
@AntidotNet

41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents sans classement à la source
● 10.000 nouveaux docs chaque mois
● Plan de classement : 600 domaines du droit
● Classer : une tâche surhumaine
● 10 à 15 minutes par document ?
● Un travail évalué à plus de 200 années hommes !

42
@AntidotNet

43
@AntidotNet
Atelier d’entraînement

44
@AntidotNet

45
@AntidotNet

46
@AntidotNet
Boucle d’amélioration continue

48
@AntidotNet
Mesurer la qualité des résultats

49
@AntidotNet
Mesurer la qualité des résultats

50
@AntidotNet
Précision inégalée

51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement :
≈ 20 docs x 600 domaines ≈ 12.000 docs
● 1,7M de documents classés en 10 h, à raison
de 23 ms par document

52
Extraction d’entités
nommées

53
@AntidotNet
Extraction d’entités nommées

54
@AntidotNet

55
@AntidotNet

57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de leur richesse sémantique !

58
@AntidotNet
Changer de paradigme
● Ne plus considérer les applications mais
SEULEMENT LES DONNÉES

59
@AntidotNet
Relier les données
● Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin

60
@AntidotNet
Faire émerger l’implicite

61
Exemple :

62
@AntidotNet
On recherche par mots clés

63
@AntidotNet
On filtre via les facettes

64
@AntidotNet
On sélectionne un document

65
@AntidotNet
On rebondit via les métadonnées

66
@AntidotNet
Modèle de données public

67
@AntidotNet
Accès normalisé RDF / SPARQL

69
@AntidotNet
Enrichir et contextualiser pour trouver vite

Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet

Comment l'intelligence artificielle améliore la recherche documentaire

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Comment l'intelligence artificielle améliore la recherche documentaire

Similaire à Comment l'intelligence artificielle améliore la recherche documentaire (20)

Plus de Antidot

Plus de Antidot (20)

Comment l'intelligence artificielle améliore la recherche documentaire

Notes de l'éditeur