SlideShare une entreprise Scribd logo

Comment l'intelligence artificielle améliore la recherche documentaire

Antidot
Antidot

Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.

1  sur  70
Télécharger pour lire hors ligne
Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● Text Mining et IA - créer des métadonnées
● Linked (Open) Data – lier les documents
● Exemples
3
Antidot en 2 slides
4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs | +150 clients
● Mission : fournir des solutions innovantes qui créent
de la valeur à partir des données et augmentent la
performance opérationnelle de nos clients
5
@AntidotNet
Parmi nos clients
● Production de contenus
● Industries
● E-Commerce
● Santé
6
@AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010

Recommandé

Internet des objets (IoT)
Internet des objets (IoT)Internet des objets (IoT)
Internet des objets (IoT)bruno-dambrun
 
Développement Web - Module 1 - Introduction
Développement Web - Module 1 - IntroductionDéveloppement Web - Module 1 - Introduction
Développement Web - Module 1 - IntroductionMohammed Amine Mostefai
 
Déploiement d’applications
Déploiement d’applicationsDéploiement d’applications
Déploiement d’applicationsMohammed Jaafar
 
Expose sur l' informatique ok
Expose sur l' informatique okExpose sur l' informatique ok
Expose sur l' informatique okNICKYKROU
 
Diaporama de la soutenance de stage
Diaporama de la soutenance de stageDiaporama de la soutenance de stage
Diaporama de la soutenance de stagemanon-chaudot
 
Mohamed youssfi support architectures logicielles distribuées basées sue les ...
Mohamed youssfi support architectures logicielles distribuées basées sue les ...Mohamed youssfi support architectures logicielles distribuées basées sue les ...
Mohamed youssfi support architectures logicielles distribuées basées sue les ...ENSET, Université Hassan II Casablanca
 
Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)CABSIS Consulting Ltd
 

Contenu connexe

Tendances

Systeme embarque td1
Systeme embarque td1Systeme embarque td1
Systeme embarque td1SinGuy
 
Modèle d'une Présentation
Modèle d'une PrésentationModèle d'une Présentation
Modèle d'une Présentationsjemmali
 
Chapitre 2 complexité
Chapitre 2 complexitéChapitre 2 complexité
Chapitre 2 complexitéSana Aroussi
 
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...KTN
 
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介Ko Nagase
 
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...Borel NZOGANG
 
Présentation du projet c++ Gestion des étudiants
Présentation du projet c++ Gestion des étudiants Présentation du projet c++ Gestion des étudiants
Présentation du projet c++ Gestion des étudiants Saâd Zerhouni
 
Merise exercices-mcd_corriges
Merise  exercices-mcd_corrigesMerise  exercices-mcd_corriges
Merise exercices-mcd_corrigesMehdi El
 
Formation arduino 2018
Formation arduino 2018Formation arduino 2018
Formation arduino 2018Hichem Hamdi
 
exercices Corrigées du merise
exercices Corrigées du  meriseexercices Corrigées du  merise
exercices Corrigées du meriseYassine Badri
 
gestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiquegestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiqueOussama Yoshiki
 
Présentation de la robotique
Présentation de la robotiquePrésentation de la robotique
Présentation de la robotiqueLouise Roy
 
Soutenance de fin d’étude promotion srs 2012
Soutenance de fin d’étude promotion srs 2012Soutenance de fin d’étude promotion srs 2012
Soutenance de fin d’étude promotion srs 2012jedjenderedjian
 
présentation ppt du stage technicien
présentation ppt du stage technicienprésentation ppt du stage technicien
présentation ppt du stage technicienIheb Ben Salem
 
Rapport: Robot supervisor
Rapport: Robot supervisorRapport: Robot supervisor
Rapport: Robot supervisorMalak Talbi
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Ines Ouaz
 

Tendances (20)

Systeme embarque td1
Systeme embarque td1Systeme embarque td1
Systeme embarque td1
 
Modèle d'une Présentation
Modèle d'une PrésentationModèle d'une Présentation
Modèle d'une Présentation
 
Chapitre 2 complexité
Chapitre 2 complexitéChapitre 2 complexité
Chapitre 2 complexité
 
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...
Fast, Scalable Quantized Neural Network Inference on FPGAs with FINN and Logi...
 
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介
Redmineで地理空間情報を扱う、Redmine GTT (Geo-Task-Tracker) pluginの紹介
 
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...
SITE WEB DE E-COMMERCE AVEC HAUTE DISPONIBILITÉ ET PAIEMENT EN LIGNE AVEC EXP...
 
Présentation du projet c++ Gestion des étudiants
Présentation du projet c++ Gestion des étudiants Présentation du projet c++ Gestion des étudiants
Présentation du projet c++ Gestion des étudiants
 
SMART Home Rapport
SMART Home RapportSMART Home Rapport
SMART Home Rapport
 
Installation open erp
Installation open erpInstallation open erp
Installation open erp
 
Merise exercices-mcd_corriges
Merise  exercices-mcd_corrigesMerise  exercices-mcd_corriges
Merise exercices-mcd_corriges
 
Formation arduino 2018
Formation arduino 2018Formation arduino 2018
Formation arduino 2018
 
exercices Corrigées du merise
exercices Corrigées du  meriseexercices Corrigées du  merise
exercices Corrigées du merise
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 
gestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiquegestion de magasin vente matériels informatique
gestion de magasin vente matériels informatique
 
Outils Web Sémantique
Outils Web SémantiqueOutils Web Sémantique
Outils Web Sémantique
 
Présentation de la robotique
Présentation de la robotiquePrésentation de la robotique
Présentation de la robotique
 
Soutenance de fin d’étude promotion srs 2012
Soutenance de fin d’étude promotion srs 2012Soutenance de fin d’étude promotion srs 2012
Soutenance de fin d’étude promotion srs 2012
 
présentation ppt du stage technicien
présentation ppt du stage technicienprésentation ppt du stage technicien
présentation ppt du stage technicien
 
Rapport: Robot supervisor
Rapport: Robot supervisorRapport: Robot supervisor
Rapport: Robot supervisor
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
 

Similaire à Comment l'intelligence artificielle améliore la recherche documentaire

Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Synaltic Group
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCIFrenchTechCentral
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioAlexandra Loria
 
Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Sandra Davené
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...PCU Consortium
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...Marc Dutoo
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !OCTO Technology
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Antidot
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 

Similaire à Comment l'intelligence artificielle améliore la recherche documentaire (20)

Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCI
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-Dremio
 
Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 

Plus de Antidot

Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content ClassifierAntidot
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJAntidot
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Antidot
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRAntidot
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper Antidot
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceAntidot
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Antidot
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Antidot
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?Antidot
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Antidot
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Antidot
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Antidot
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Antidot
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesAntidot
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesAntidot
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Antidot
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Antidot
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebAntidot
 

Plus de Antidot (20)

Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content Classifier
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJ
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FR
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerce
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertes
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux données
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le Web
 

Comment l'intelligence artificielle améliore la recherche documentaire

Notes de l'éditeur

  1. Avant de me présenter, une petite question : qui ici était né en 1978 ? Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-) En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères  Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais bien au-delà, et pour toute l’humanité.
  2. Distinguons 3 catégories de moteurs de recherche : les grands moteurs du web, les moteurs spécialisés et les moteurs d’entreprise
  3. tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est jugé pertinent pour ce mot et donc plus le document A doit être mis en tête de liste
  4. Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour suggérer des recherches ou des réponses : top des recherches, produits les plus vus…
  5. Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse : disponibilité, top ventes, marge etc
  6. Les moteurs spécialisés apportent un maximum de filtres pour raccourcir le parcours client
  7. La classification automatique de textes consiste à poser des étiquettes, ou tags, sur les textes. Chaque étiquette caractérise un « sujet » dont parle le texte.
  8. Un corpus représentatif permet d’entraîner le logiciel de classification : il constitue une base de « signatures » caractéristique de chaque tag, qu’il va ensuite utiliser pour classer tous les autres textes. Le traitement du corpus d’entraînement prend quelques minutes, le classement de chaque document ne prenant ensuite que quelques millisecondes.
  9. La première étape est manuelle : elle consiste à poser « à la main » les étiquettes sur les documents. Pour cela, un€ documentaliste choisit des documents, par exemple grâce à un moteur de recherche.
  10. Les tags sont automatique proposés, selon le plan de classement retenu.
  11. On itère pour poser toutes les étiquettes pertinentes sur chaque document.
  12. On lance ensuite le processus d’apprentissage sur ce corpus représentatif : il faut en général entre 20 et 30 documents par étiquette.
  13. Un rapport permet d’évaluer le niveau de qualité (indicateur F1)
  14. On itère ensuite en enlevant / ajoutant des documents pour les tags qui manquent de précision.
  15. On voit ici la précision s’améliorer asymptotiquement au fil des itérations sur le corpus d’entraînement.
  16. En résumé : - à gauche, un apprentissage supervisé qui fait intervenir des experts humains - à droite, une classification automatique ultra-rapide
  17. Exemple avec le portail ISIDORE du CNRS
  18. ISIDORE - http://www.rechercheisidore.fr - a vocation à agréger toutes les publications scientifiques en sciences humaines et sociales - SHS. Au lancement du projet, il comprenait 1,8 millions de documents, et en fournit aujourd’hui plus du double.
  19. Chaque document a été classé selon la nomenclature officielles des sciences humaines et sociales qui couvre plus de trente disciplines.
  20. Cette classification permet au moteur de recherche de proposer des facettes de filtrage des résultats très utiles.
  21. Autre exemple, au Québec, dans le domaine juridique
  22. L’objectif du CAIJ - http://caij.qc.ca - est de rendre facilement accessible une information foisonnante, et non classée à la source : en effet les avocats sont spécialisés par domaine du droit (famille, travail, pénal..) et n’ont pas de temps à perdre : ils veulent trouver très vite les infos utiles pour leur dossier. Un classement par des humains était inenvisageable.
  23. Là encore, la classification permet un filtrage très précis des résultats d’une recherche.
  24. Dans un premier temps, des spécialistes du droit (étudiants en 3ème année) ont posé des étiquette spour constituer le corpus d’entraînement
  25. Les étiquettes sont suggérées selon le plan de classement du CAIJ
  26. Comme on l’a vu, la démarche
  27. Chaque entraînement du classifieur automatique fournit un rapport analysé étiquette par étiquette.
  28. Il est important d’avoir une vision globale de la précision
  29. Le projet a été un vrai succès, et en à peine 3 mois.
  30. Autre brique d’enrichissement, l’extraction d’entités nommées
  31. L’idée est de partir d’un texte à plat, et d’en extraire les noms de personnes, de lieux, d’organisation etc. On peut entraîner un extracteur d’entités sur des vocabulaires spécifiques : par exemple dans la santé avec des noms de molécules, de maladies, de médicaments…
  32. Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  33. Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  34. Le Linked Data, issu du web des données, permet d’enrichir le contexte de chaque document en le liant à d’autres
  35. Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
  36. Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données… et aujourd’hui la plupart des entreprises sous-exploitent cet actif, disséminé dans des silos cloisonnées
  37. En reliant des données et documents, on crée de la « smart information » dans laquelle l’utilisateur pourra naviguer, indépendamment du point d’entrée qui pourra bien sûr être le moteur de recherche.
  38. Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc… En trouvant un de ces documents, on pourra profiter de toutes les informations qui lui sont connexes.
  39. Revenons à ISIDORE
  40. La classification automatique permet de filtrer : ici o, part de plus de 113.000 résultats à une requête
  41. Pour n’en avoir plus qu’un peu plus 2000 en choisissant les documents vieux de moins d’un an.
  42. Une fois sélectionné un document, sont contexte se trouve exposé à droite : la classification, et les sujets / concepts qu’il couvre
  43. En cliquant sur « Rebondir » l’utilisateur peut choisir de naviguer selon énormément d’axes : la source, la collection, la discipline, l’auteur, le type de doc etc. Il s’agit d’une forme de sérendipité orientée répondant exactement aux besoins d’un chercheur. Les chercheurs ont salué l’efficacité d’ISIDORE, qui réduit considérablement le temps passé à constituer une bibliographie
  44. Pour aller plus loin, ISIDORE publie son modèle de données…
  45. … et rend l’ensemble des contenus et de leurs métadonnées accessibles dans le Linked Open Data, via un triple store RDF requêtable en SPARQL.
  46. Revenons à ISIDORE