Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col –...
2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● ...
3
Antidot en 2 slides
4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999...
5
@AntidotNet
Parmi nos clients
● Production de contenus
● Industries
● E-Commerce
● Santé
6
@AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010
7
Où en est
la recherche
documentaire ?
8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
No...
9
@AntidotNet
3 types de moteurs de recherche
10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les ...
11
@AntidotNet
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot
12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Do...
13
@AntidotNet
Pertinence des moteurs spécialisés
14
@AntidotNet
Pertinence des moteurs spécialisés
15
@AntidotNet
Pertinence des moteurs spécialisés
16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page R...
17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche doc...
18
Comment améliorer
l’efficacité de la
recherche ?
19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispo...
20
@AntidotNet
Disposer d’un contexte riche
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● ...
21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
ext...
22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comporteme...
23
@AntidotNet
Disposer d’un contexte riche
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus...
24
@AntidotNet
L’approche globale d’Antidot
Access
Search
Semantic & Complex
Enrich
Text Mining
Machine Learning
Doc Graph...
25
Classification
automatique
de documents
26
@AntidotNet
Classification automatique de texte
Droit de la famille
Droit fiscal
Droit pénal
27
@AntidotNet
Principe de fonctionnement
Corpus
d’entrainement
Base
d’apprentissage
Traitement statistique
28
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
29
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
30
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
31
@AntidotNet
Etape 2 : Lancer le Machine Learning
32
@AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML
33
@AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base
d’apprentissage
Base
d’apprentissage
34
@AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité
35
@AntidotNet
En résumé
36
Exemple :
www.rechercheisidore.fr
37
@AntidotNet
www.rechercheisidore.fr
● 2010
● 750 sources
● 1,8 M publications scientifiques en SHS
● dont 100.000 class...
38
@AntidotNet
Classification automatique
39
@AntidotNet
Classification automatique
40
Exemple :
www.caij.qc.ca
41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents s...
42
@AntidotNet
Classification automatique
43
@AntidotNet
Atelier d’entraînement
44
@AntidotNet
Atelier d’entraînement
45
@AntidotNet
Atelier d’entraînement
46
@AntidotNet
Boucle d’amélioration continue
47
@AntidotNet
48
@AntidotNet
Mesurer la qualité des résultats
49
@AntidotNet
Mesurer la qualité des résultats
50
@AntidotNet
Précision inégalée
51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement...
52
Extraction d’entités
nommées
53
@AntidotNet
Extraction d’entités nommées
54
@AntidotNet
Extraction d’entités
55
@AntidotNet
Extraction d’entités
56
Linked (Open) Data
57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurée...
58
@AntidotNet
Changer de paradigme
● Ne plus considérer les applications mais
SEULEMENT LES DONNÉES
59
@AntidotNet
Relier les données
● Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin
60
@AntidotNet
Faire émerger l’implicite
61
Exemple :
www.rechercheisidore.fr
62
@AntidotNet
On recherche par mots clés
63
@AntidotNet
On filtre via les facettes
64
@AntidotNet
On sélectionne un document
65
@AntidotNet
On rebondit via les métadonnées
66
@AntidotNet
Modèle de données public
67
@AntidotNet
Accès normalisé RDF / SPARQL
68
Conclusion
69
@AntidotNet
Enrichir et contextualiser pour trouver vite
Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@...
Prochain SlideShare
Chargement dans…5
×

Comment l'intelligence artificielle améliore la recherche documentaire

489 vues

Publié le

Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.

Publié dans : Logiciels
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
489
Sur SlideShare
0
Issues des intégrations
0
Intégrations
43
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Avant de me présenter, une petite question : qui ici était né en 1978 ?
    Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
    En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères  Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais bien au-delà, et pour toute l’humanité.
  • Distinguons 3 catégories de moteurs de recherche : les grands moteurs du web, les moteurs spécialisés et les moteurs d’entreprise
  • tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est jugé pertinent pour ce mot et donc plus le document A doit être mis en tête de liste
  • Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour suggérer des recherches ou des réponses : top des recherches, produits les plus vus…
  • Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse : disponibilité, top ventes, marge etc
  • Les moteurs spécialisés apportent un maximum de filtres pour raccourcir le parcours client
  • La classification automatique de textes consiste à poser des étiquettes, ou tags, sur les textes. Chaque étiquette caractérise un « sujet » dont parle le texte.
  • Un corpus représentatif permet d’entraîner le logiciel de classification : il constitue une base de « signatures » caractéristique de chaque tag, qu’il va ensuite utiliser pour classer tous les autres textes. Le traitement du corpus d’entraînement prend quelques minutes, le classement de chaque document ne prenant ensuite que quelques millisecondes.
  • La première étape est manuelle : elle consiste à poser « à la main » les étiquettes sur les documents. Pour cela, un€ documentaliste choisit des documents, par exemple grâce à un moteur de recherche.
  • Les tags sont automatique proposés, selon le plan de classement retenu.
  • On itère pour poser toutes les étiquettes pertinentes sur chaque document.
  • On lance ensuite le processus d’apprentissage sur ce corpus représentatif : il faut en général entre 20 et 30 documents par étiquette.
  • Un rapport permet d’évaluer le niveau de qualité (indicateur F1)
  • On itère ensuite en enlevant / ajoutant des documents pour les tags qui manquent de précision.
  • On voit ici la précision s’améliorer asymptotiquement au fil des itérations sur le corpus d’entraînement.
  • En résumé : - à gauche, un apprentissage supervisé qui fait intervenir des experts humains
    - à droite, une classification automatique ultra-rapide
  • Exemple avec le portail ISIDORE du CNRS
  • ISIDORE - http://www.rechercheisidore.fr - a vocation à agréger toutes les publications scientifiques en sciences humaines et sociales - SHS. Au lancement du projet, il comprenait 1,8 millions de documents, et en fournit aujourd’hui plus du double.
  • Chaque document a été classé selon la nomenclature officielles des sciences humaines et sociales qui couvre plus de trente disciplines.
  • Cette classification permet au moteur de recherche de proposer des facettes de filtrage des résultats très utiles.
  • Autre exemple, au Québec, dans le domaine juridique
  • L’objectif du CAIJ - http://caij.qc.ca - est de rendre facilement accessible une information foisonnante, et non classée à la source : en effet les avocats sont spécialisés par domaine du droit (famille, travail, pénal..) et n’ont pas de temps à perdre : ils veulent trouver très vite les infos utiles pour leur dossier.
    Un classement par des humains était inenvisageable.
  • Là encore, la classification permet un filtrage très précis des résultats d’une recherche.
  • Dans un premier temps, des spécialistes du droit (étudiants en 3ème année) ont posé des étiquette spour constituer le corpus d’entraînement
  • Les étiquettes sont suggérées selon le plan de classement du CAIJ
  • Comme on l’a vu, la démarche
  • Chaque entraînement du classifieur automatique fournit un rapport analysé étiquette par étiquette.
  • Il est important d’avoir une vision globale de la précision
  • Le projet a été un vrai succès, et en à peine 3 mois.
  • Autre brique d’enrichissement, l’extraction d’entités nommées
  • L’idée est de partir d’un texte à plat, et d’en extraire les noms de personnes, de lieux, d’organisation etc. On peut entraîner un extracteur d’entités sur des vocabulaires spécifiques : par exemple dans la santé avec des noms de molécules, de maladies, de médicaments…
  • Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  • Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  • Le Linked Data, issu du web des données, permet d’enrichir le contexte de chaque document en le liant à d’autres
  • Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
  • Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données… et aujourd’hui la plupart des entreprises sous-exploitent cet actif, disséminé dans des silos cloisonnées
  • En reliant des données et documents, on crée de la « smart information » dans laquelle l’utilisateur pourra naviguer, indépendamment du point d’entrée qui pourra bien sûr être le moteur de recherche.
  • Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc… En trouvant un de ces documents, on pourra profiter de toutes les informations qui lui sont connexes.
  • Revenons à ISIDORE
  • La classification automatique permet de filtrer : ici o, part de plus de 113.000 résultats à une requête
  • Pour n’en avoir plus qu’un peu plus 2000 en choisissant les documents vieux de moins d’un an.
  • Une fois sélectionné un document, sont contexte se trouve exposé à droite : la classification, et les sujets / concepts qu’il couvre
  • En cliquant sur « Rebondir » l’utilisateur peut choisir de naviguer selon énormément d’axes : la source, la collection, la discipline, l’auteur, le type de doc etc. Il s’agit d’une forme de sérendipité orientée répondant exactement aux besoins d’un chercheur. Les chercheurs ont salué l’efficacité d’ISIDORE, qui réduit considérablement le temps passé à constituer une bibliographie
  • Pour aller plus loin, ISIDORE publie son modèle de données…
  • … et rend l’ensemble des contenus et de leurs métadonnées accessibles dans le Linked Open Data, via un triple store RDF requêtable en SPARQL.
  • Revenons à ISIDORE
  • Comment l'intelligence artificielle améliore la recherche documentaire

    1. 1. Comment l’intelligence artificielle améliore la recherche documentaire Meetup Lyon Data Science – 9 juin 2016 Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet
    2. 2. 2 @AntidotNet Agenda ● Antidot (en 2 slides) ● Où en est la recherche documentaire ? ● Comment enrichir les documents ? ● Text Mining et IA - créer des métadonnées ● Linked (Open) Data – lier les documents ● Exemples
    3. 3. 3 Antidot en 2 slides
    4. 4. 4 @AntidotNet Antidot @AntidotNet ● Editeur de logiciels ● moteurs de recherche | enrichissement des données ● depuis 1999 | Paris, Lyon, Aix-en-Provence ● 47 collaborateurs | +150 clients ● Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients
    5. 5. 5 @AntidotNet Parmi nos clients ● Production de contenus ● Industries ● E-Commerce ● Santé
    6. 6. 6 @AntidotNet Pierre Col @PierreCol 1978 1963 1983 1986 1996 2007 2010
    7. 7. 7 Où en est la recherche documentaire ?
    8. 8. 8 @AntidotNet Question : Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ? Notre réponse : Rien de bien passionnant…
    9. 9. 9 @AntidotNet 3 types de moteurs de recherche
    10. 10. 10 @AntidotNet Comment un moteur trouve-t-il ? ● Il recherche dans les documents les mots-clés renseignés ● Il filtre les résultats trouvés selon les critères demandés : type de document, taille, fourchette de prix… ● Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »
    11. 11. 11 @AntidotNet Qu’est-ce que la pertinence ? Mot Mot Mot Mot Mot Mot Mot Mot 1 Mot
    12. 12. 12 @AntidotNet Qu’est-ce que la pertinence ? ● Cette méthode de pondération s’appelle TF- IDF (Term Frequency - Inverse Document Frequency) ● Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information
    13. 13. 13 @AntidotNet Pertinence des moteurs spécialisés
    14. 14. 14 @AntidotNet Pertinence des moteurs spécialisés
    15. 15. 15 @AntidotNet Pertinence des moteurs spécialisés
    16. 16. 16 @AntidotNet Pertinence des moteurs Web ● Étape 1 - 90s : algorithmes TF-IDF ● Étape 2 - 2000 : Google invente le Page Rank ● Étape 3 - 2005 : explosion du nombre de paramètres de pondération ● Étape 4 - 2010 : le Machine Learning pour trouver la meilleure pertinence pour chacun
    17. 17. 17 @AntidotNet Pertinence des moteurs d’entreprise ● TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires, via les algorithmes appelés Best Match ou Vector Space Model ● L’état de l’art scientifique de ces moteurs de recherche a 45 ans !
    18. 18. 18 Comment améliorer l’efficacité de la recherche ?
    19. 19. 19 @AntidotNet Disposer d’un contexte riche ● Les résultats sont d’autant plus pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches
    20. 20. 20 @AntidotNet Disposer d’un contexte riche ● Si nécessaire, avant indexation des documents, créer des métadonnées pour ● caractériser finement chaque document ● lier les documents entre eux ● Des outils précieux : ● Text Mining / Machine Learning ● Linked Data
    21. 21. 21 @AntidotNet Qu’est-ce que le Text Mining ? ● Fouille de textes : ensemble de traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains. ● Disciplines scientifiques : ● linguistique calculatoire, traitement automatique des langues, ● apprentissage automatique, intelligence artificielle, ● statistique
    22. 22. 22 @AntidotNet Qu’est-ce que le Machine Learning ? ● Définition : faculté donnée à un ordinateur d’apprendre un comportement à partir d’exemples ● Discipline scientifique : ● Intelligence Artificielle ● approche probabiliste ≠ approches par règles
    23. 23. 23 @AntidotNet Disposer d’un contexte riche ● En exploitant les métadonnées, on peut créer des liens entre documents issus de silos différents ● Pour cela, on dispose de l’approche et des standards du web de données : Linked Data
    24. 24. 24 @AntidotNet L’approche globale d’Antidot Access Search Semantic & Complex Enrich Text Mining Machine Learning Doc Graph & Linked Data
    25. 25. 25 Classification automatique de documents
    26. 26. 26 @AntidotNet Classification automatique de texte Droit de la famille Droit fiscal Droit pénal
    27. 27. 27 @AntidotNet Principe de fonctionnement Corpus d’entrainement Base d’apprentissage Traitement statistique
    28. 28. 28 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
    29. 29. 29 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
    30. 30. 30 @AntidotNet Etape 1 : Constitution du corpus d’apprentissage
    31. 31. 31 @AntidotNet Etape 2 : Lancer le Machine Learning
    32. 32. 32 @AntidotNet Etape 3 : Mesurer le niveau de qualité du ML
    33. 33. 33 @AntidotNet Etape 4 : Itérer pour amélioration de la qualité Base d’apprentissage Base d’apprentissage
    34. 34. 34 @AntidotNet Etape 4 : Mesurer l’amélioration de la qualité
    35. 35. 35 @AntidotNet En résumé
    36. 36. 36 Exemple : www.rechercheisidore.fr
    37. 37. 37 @AntidotNet www.rechercheisidore.fr ● 2010 ● 750 sources ● 1,8 M publications scientifiques en SHS ● dont 100.000 classées par les documentalistes ● 2016 ● 3700 sources ● 4,2 M publications classées automatiquement
    38. 38. 38 @AntidotNet Classification automatique
    39. 39. 39 @AntidotNet Classification automatique
    40. 40. 40 Exemple : www.caij.qc.ca
    41. 41. 41 @AntidotNet www.caij.qc.ca ● L’information pour les avocats du Québec ● Une information « en vrac » ● 1,7 M documents sans classement à la source ● 10.000 nouveaux docs chaque mois ● Plan de classement : 600 domaines du droit ● Classer : une tâche surhumaine ● 10 à 15 minutes par document ? ● Un travail évalué à plus de 200 années hommes !
    42. 42. 42 @AntidotNet Classification automatique
    43. 43. 43 @AntidotNet Atelier d’entraînement
    44. 44. 44 @AntidotNet Atelier d’entraînement
    45. 45. 45 @AntidotNet Atelier d’entraînement
    46. 46. 46 @AntidotNet Boucle d’amélioration continue
    47. 47. 47 @AntidotNet
    48. 48. 48 @AntidotNet Mesurer la qualité des résultats
    49. 49. 49 @AntidotNet Mesurer la qualité des résultats
    50. 50. 50 @AntidotNet Précision inégalée
    51. 51. 51 @AntidotNet Un projet mené en 3 mois ● 3 personnes ont travaillé itérativement pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs ● 1,7M de documents classés en 10 h, à raison de 23 ms par document
    52. 52. 52 Extraction d’entités nommées
    53. 53. 53 @AntidotNet Extraction d’entités nommées
    54. 54. 54 @AntidotNet Extraction d’entités
    55. 55. 55 @AntidotNet Extraction d’entités
    56. 56. 56 Linked (Open) Data
    57. 57. 57 @AntidotNet Exploiter la variété des documents ● Tirer profit de l’énorme gisement de valeur des données non structurées : ● documents bureautiques, courriels ● GED – gestion électronique de documents ● CRM – gestion de la relation clients ● ERP – outils de gestion d’entreprise ● … et de leur richesse sémantique !
    58. 58. 58 @AntidotNet Changer de paradigme ● Ne plus considérer les applications mais SEULEMENT LES DONNÉES
    59. 59. 59 @AntidotNet Relier les données ● Mettre les données de l’entreprise en commun, les mailler au niveau le plus fin
    60. 60. 60 @AntidotNet Faire émerger l’implicite
    61. 61. 61 Exemple : www.rechercheisidore.fr
    62. 62. 62 @AntidotNet On recherche par mots clés
    63. 63. 63 @AntidotNet On filtre via les facettes
    64. 64. 64 @AntidotNet On sélectionne un document
    65. 65. 65 @AntidotNet On rebondit via les métadonnées
    66. 66. 66 @AntidotNet Modèle de données public
    67. 67. 67 @AntidotNet Accès normalisé RDF / SPARQL
    68. 68. 68 Conclusion
    69. 69. 69 @AntidotNet Enrichir et contextualiser pour trouver vite
    70. 70. Des questions ? Merci de votre attention Meetup Lyon Data Science – 9 juin 2016 Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

    ×