Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col –...
2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● ...
3
Antidot en 2 slides
4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999...
5
@AntidotNet
Parmi nos clients
● Production de contenus
● Industries
● E-Commerce
● Santé
6
@AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010
7
Où en est
la recherche
documentaire ?
8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
No...
9
@AntidotNet
3 types de moteurs de recherche
10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les ...
11
@AntidotNet
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot
12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Do...
13
@AntidotNet
Pertinence des moteurs spécialisés
14
@AntidotNet
Pertinence des moteurs spécialisés
15
@AntidotNet
Pertinence des moteurs spécialisés
16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page R...
17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche doc...
18
Comment améliorer
l’efficacité de la
recherche ?
19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispo...
20
@AntidotNet
Disposer d’un contexte riche
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● ...
21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
ext...
22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comporteme...
23
@AntidotNet
Disposer d’un contexte riche
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus...
24
@AntidotNet
L’approche globale d’Antidot
Access
Search
Semantic & Complex
Enrich
Text Mining
Machine Learning
Doc Graph...
25
Classification
automatique
de documents
26
@AntidotNet
Classification automatique de texte
Droit de la famille
Droit fiscal
Droit pénal
27
@AntidotNet
Principe de fonctionnement
Corpus
d’entrainement
Base
d’apprentissage
Traitement statistique
28
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
29
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
30
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
31
@AntidotNet
Etape 2 : Lancer le Machine Learning
32
@AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML
33
@AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base
d’apprentissage
Base
d’apprentissage
34
@AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité
35
@AntidotNet
En résumé
36
Exemple :
www.rechercheisidore.fr
37
@AntidotNet
www.rechercheisidore.fr
● 2010
● 750 sources
● 1,8 M publications scientifiques en SHS
● dont 100.000 class...
38
@AntidotNet
Classification automatique
39
@AntidotNet
Classification automatique
40
Exemple :
www.caij.qc.ca
41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents s...
42
@AntidotNet
Classification automatique
43
@AntidotNet
Atelier d’entraînement
44
@AntidotNet
Atelier d’entraînement
45
@AntidotNet
Atelier d’entraînement
46
@AntidotNet
Boucle d’amélioration continue
47
@AntidotNet
48
@AntidotNet
Mesurer la qualité des résultats
49
@AntidotNet
Mesurer la qualité des résultats
50
@AntidotNet
Précision inégalée
51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement...
52
Extraction d’entités
nommées
53
@AntidotNet
Extraction d’entités nommées
54
@AntidotNet
Extraction d’entités
55
@AntidotNet
Extraction d’entités
56
Linked (Open) Data
57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurée...
58
@AntidotNet
Changer de paradigme
● Ne plus considérer les applications mais
SEULEMENT LES DONNÉES
59
@AntidotNet
Relier les données
● Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin
60
@AntidotNet
Faire émerger l’implicite
61
Exemple :
www.rechercheisidore.fr
62
@AntidotNet
On recherche par mots clés
63
@AntidotNet
On filtre via les facettes
64
@AntidotNet
On sélectionne un document
65
@AntidotNet
On rebondit via les métadonnées
66
@AntidotNet
Modèle de données public
67
@AntidotNet
Accès normalisé RDF / SPARQL
68
Conclusion
69
@AntidotNet
Enrichir et contextualiser pour trouver vite
Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@...
Prochain SlideShare
Chargement dans…5
×

Comment l'intelligence artificielle améliore la recherche documentaire

1 123 vues

Publié le

Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.

Publié dans : Logiciels
  • Soyez le premier à commenter

Comment l'intelligence artificielle améliore la recherche documentaire

  1. 1. Comment l’intelligence artificielle améliore la recherche documentaire Meetup Lyon Data Science – 9 juin 2016 Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet
  2. 2. 2 @AntidotNet Agenda ● Antidot (en 2 slides) ● Où en est la recherche documentaire ? ● Comment enrichir les documents ? ● Text Mining et IA - créer des métadonnées ● Linked (Open) Data – lier les documents ● Exemples
  3. 3. 3 Antidot en 2 slides
  4. 4. 4 @AntidotNet Antidot @AntidotNet ● Editeur de logiciels ● moteurs de recherche | enrichissement des données ● depuis 1999 | Paris, Lyon, Aix-en-Provence ● 47 collaborateurs | +150 clients ● Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients
  5. 5. 5 @AntidotNet Parmi nos clients ● Production de contenus ● Industries ● E-Commerce ● Santé
  6. 6. 6 @AntidotNet Pierre Col @PierreCol 1978 1963 1983 1986 1996 2007 2010
  7. 7. 7 Où en est la recherche documentaire ?
  8. 8. 8 @AntidotNet Question : Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ? Notre réponse : Rien de bien passionnant…
  9. 9. 9 @AntidotNet 3 types de moteurs de recherche
  10. 10. 10 @AntidotNet Comment un moteur trouve-t-il ? ● Il recherche dans les documents les mots-clés renseignés ● Il filtre les résultats trouvés selon les critères demandés : type de document, taille, fourchette de prix… ● Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »
  11. 11. 11 @AntidotNet Qu’est-ce que la pertinence ? Mot Mot Mot Mot Mot Mot Mot Mot 1 Mot
  12. 12. 12 @AntidotNet Qu’est-ce que la pertinence ? ● Cette méthode de pondération s’appelle TF- IDF (Term Frequency - Inverse Document Frequency) ● Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information
  13. 13. 13 @AntidotNet Pertinence des moteurs spécialisés
  14. 14. 14 @AntidotNet Pertinence des moteurs spécialisés
  15. 15. 15 @AntidotNet Pertinence des moteurs spécialisés
  16. 16. 16 @AntidotNet Pertinence des moteurs Web ● Étape 1 - 90s : algorithmes TF-IDF ● Étape 2 - 2000 : Google invente le Page Rank ● Étape 3 - 2005 : explosion du nombre de paramètres de pondération ● Étape 4 - 2010 : le Machine Learning pour trouver la meilleure pertinence pour chacun
  17. 17. 17 @AntidotNet Pertinence des moteurs d’entreprise ● TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires, via les algorithmes appelés Best Match ou Vector Space Model ● L’état de l’art scientifique de ces moteurs de recherche a 45 ans !
  18. 18. 18 Comment améliorer l’efficacité de la recherche ?
  19. 19. 19 @AntidotNet Disposer d’un contexte riche ● Les résultats sont d’autant plus pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches
  20. 20. 20 @AntidotNet Disposer d’un contexte riche ● Si nécessaire, avant indexation des documents, créer des métadonnées pour ● caractériser finement chaque document ● lier les documents entre eux ● Des outils précieux : ● Text Mining / Machine Learning ● Linked Data
  21. 21. 21 @AntidotNet Qu’est-ce que le Text Mining ? ● Fouille de textes : ensemble de traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains. ● Disciplines scientifiques : ● linguistique calculatoire, traitement automatique des langues, ● apprentissage automatique, intelligence artificielle, ● statistique
  22. 22. 22 @AntidotNet Qu’est-ce que le Machine Learning ? ● Définition : faculté donnée à un ordinateur d’apprendre un comportement à partir d’exemples ● Discipline scientifique : ● Intelligence Artificielle ● approche probabiliste ≠ approches par règles
  23. 23. 23 @AntidotNet Disposer d’un contexte riche ● En exploitant les métadonnées, on peut créer des liens entre documents issus de silos différents ● Pour cela, on dispose de l’approche et des standards du web de données : Linked Data
  24. 24. 24 @AntidotNet L’approche globale d’Antidot Access Search Semantic & Complex Enrich Text Mining Machine Learning Doc Graph & Linked Data
  25. 25. 25 Classification automatique de documents
  26. 26. 26 @AntidotNet Classification automatique de texte Droit de la famille Droit fiscal Droit pénal
  27. 27. 27 @AntidotNet Principe de fonctionnement Corpus d’entrainement Base d’apprentissage Traitement statistique
  28. 28. 28 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
  29. 29. 29 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
  30. 30. 30 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
  31. 31. 31 @AntidotNet Etape 2 : Lancer le Machine Learning
  32. 32. 32 @AntidotNet Etape 3 : Mesurer le niveau de qualité du ML
  33. 33. 33 @AntidotNet Etape 4 : Itérer pour amélioration de la qualité Base d’apprentissage Base d’apprentissage
  34. 34. 34 @AntidotNet Etape 4 : Mesurer l’amélioration de la qualité
  35. 35. 35 @AntidotNet En résumé
  36. 36. 36 Exemple : www.rechercheisidore.fr
  37. 37. 37 @AntidotNet www.rechercheisidore.fr ● 2010 ● 750 sources ● 1,8 M publications scientifiques en SHS ● dont 100.000 classées par les documentalistes ● 2016 ● 3700 sources ● 4,2 M publications classées automatiquement
  38. 38. 38 @AntidotNet Classification automatique
  39. 39. 39 @AntidotNet Classification automatique
  40. 40. 40 Exemple : www.caij.qc.ca
  41. 41. 41 @AntidotNet www.caij.qc.ca ● L’information pour les avocats du Québec ● Une information « en vrac » ● 1,7 M documents sans classement à la source ● 10.000 nouveaux docs chaque mois ● Plan de classement : 600 domaines du droit ● Classer : une tâche surhumaine ● 10 à 15 minutes par document ? ● Un travail évalué à plus de 200 années hommes !
  42. 42. 42 @AntidotNet Classification automatique
  43. 43. 43 @AntidotNet Atelier d’entraînement
  44. 44. 44 @AntidotNet Atelier d’entraînement
  45. 45. 45 @AntidotNet Atelier d’entraînement
  46. 46. 46 @AntidotNet Boucle d’amélioration continue
  47. 47. 47 @AntidotNet
  48. 48. 48 @AntidotNet Mesurer la qualité des résultats
  49. 49. 49 @AntidotNet Mesurer la qualité des résultats
  50. 50. 50 @AntidotNet Précision inégalée
  51. 51. 51 @AntidotNet Un projet mené en 3 mois ● 3 personnes ont travaillé itérativement pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs ● 1,7M de documents classés en 10 h, à raison de 23 ms par document
  52. 52. 52 Extraction d’entités nommées
  53. 53. 53 @AntidotNet Extraction d’entités nommées
  54. 54. 54 @AntidotNet Extraction d’entités
  55. 55. 55 @AntidotNet Extraction d’entités
  56. 56. 56 Linked (Open) Data
  57. 57. 57 @AntidotNet Exploiter la variété des documents ● Tirer profit de l’énorme gisement de valeur des données non structurées : ● documents bureautiques, courriels ● GED – gestion électronique de documents ● CRM – gestion de la relation clients ● ERP – outils de gestion d’entreprise ● … et de leur richesse sémantique !
  58. 58. 58 @AntidotNet Changer de paradigme ● Ne plus considérer les applications mais SEULEMENT LES DONNÉES
  59. 59. 59 @AntidotNet Relier les données ● Mettre les données de l’entreprise en commun, les mailler au niveau le plus fin
  60. 60. 60 @AntidotNet Faire émerger l’implicite
  61. 61. 61 Exemple : www.rechercheisidore.fr
  62. 62. 62 @AntidotNet On recherche par mots clés
  63. 63. 63 @AntidotNet On filtre via les facettes
  64. 64. 64 @AntidotNet On sélectionne un document
  65. 65. 65 @AntidotNet On rebondit via les métadonnées
  66. 66. 66 @AntidotNet Modèle de données public
  67. 67. 67 @AntidotNet Accès normalisé RDF / SPARQL
  68. 68. 68 Conclusion
  69. 69. 69 @AntidotNet Enrichir et contextualiser pour trouver vite
  70. 70. Des questions ? Merci de votre attention Meetup Lyon Data Science – 9 juin 2016 Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

×