SlideShare une entreprise Scribd logo
1  sur  33
Machine learning, deep learning :
à quand ces innovations dans nos
entreprises ?
Search Day 2015
William Lesguillier – Product manager offre Valorisation des Données
2
Antidot – Qui sommes-nous?
● Editeur de logiciels
● Moteurs de recherche| enrichissement des données
● Depuis 1999 | Paris, Lyon, Aix-en-Provence
● 3.5 M€, 45 collaborateurs, +150 clients
● Mission : délivrer à nos clients des solutions hautement
configurables et innovantes qui créent de la valeur à partir de
leurs données et augmentent leur performance
opérationnelle
3
Parmi nos clients
● Production de contenus
● Industrie
● E-Commerce
● Santé
4
Qu’est-ce que le Machine Learning
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Fondement scientifique : l’Intelligence
Artificielle (IA)
5
Re-re-renaissance de l’IA
● L’Intelligence Artificielle est de retour sur le
devant de la scène
● Deux facteurs principaux :
● Le développement de la puissance de calcul
● La disponibilités accrues des données !
6
L’événement qui change tout
7
L’événement qui change tout
● Puissance de calcul : 100 servers
● Données disponibles : 200 millions de pages
8
L’événement qui change tout
9
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Altitude des logements
Concept d’attribut
Crédit : http://www.r2d3.us
10
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Concept de modèle
d’entrainement
11
Données
d’entrainement
Données de test
ML : illustrations des principes
Dire si une maison se
trouve à New York ou
San Francisco
Concept de
surentrainement
12
Qu’est-ce que le Deep Learning ?
● Se base sur les algorithmes de type réseaux de
neurones
● Le système découvre lui-même les attributs et
construit le modèle d’entrainement
● Il peut même aller jusqu’à s’affranchir d’une base
d’entrainement (pas de documents étiquetés, ie
apprentissage non supervisé)
● Avènement grâce à la puissance des GPU
(Graphic Computing Units) très adaptés à ce type
de calcul
13
Qu’est-ce que le Deep Learning ?
14
Machine Learning : pour quoi faire ?
● Reconnaissance du texte (y compris manuscrit) et de la voix
● Traduction automatique
● Text mining
● Aide à la recherche d’information
● Assistants personnels
● Assistance au diagnostic médical
● Smart cities
● Sécurité informatique
● Robotique
● …
15
Le Machine Learning chez Antidot
Enrich Access
Search
Semantic & ComplexMachine Learning
Graph &
Linked Data
16
Classification automatique
17
Classification automatique
18
Extraction d’entités
19
Les avantages du ML pour le text mining
20
Et pour les moteurs de
recherche ?
21
Que s’est-il passé ces 10 dernières dans le
monde du moteur de recherche d’entreprise ?
Notre réponse :
Rien de bien folichon
22
3 types de moteurs de recherche
23
Comment un moteur trouve-t-il ?
● Il recherche dans les documents le ou les
mots-clés renseignés
● Il filtre les documents trouvés avec les critères
fournis (format de document, fourchette de
prix…)
● Et enfin, le plus important : il ordonne les
document dans l’ordre jugé le plus pertinent
24
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot
25
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle tf-idf
(Term Frequency-Inverse Document
Frequency)
● Elle a été inventée par Gerry Salton, appelé le
père de la recherche d’information, en 1970
26
Pertinence des moteurs spécialisés
27
Pertinence des moteurs Web
● Etape 1 (90s) : algorithmes tf idf
● Etape 2 (2000) : Google invente le Page Rank
● Etape 3 (2005) : explosion du nombre de
paramètres de pondération
● Etape 4 (2010) : utilisation du ML pour trouver
la meilleure pertinence en fonction de tous et
de chacun
28
Pertinence des moteurs d’entreprise
● tf-idf est toujours implémenté dans tous les
moteurs de recherche d’entreprise via les
algorithmes appelés Best Match ou Vector
Space Model
● L’état de l’art de ces moteurs à 45 ans !!
29
● Today with AFS : 0 results
● Tomorrow with Taruqa :
Sneak peak sur nos travaux de recherche
comment configurer le back office Antidot d’AFS Rechercher
30
● Today with AFS : filtering only is possible
● Tomorrow with Taruqa : Boost documents by facet values
Sneak peak sur nos travaux de recherche
configuration back office Rechercher
31
Rendez-vous en 2016 !
32
Sources et ressources
● Wikipedia : Histoire de l’intelligence artificielle
● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all »
● TechRepublic : IBM Watson: The inside story of how the Jeopardy-winning
supercomputer was born, and what it wants to do next
● A visual introduction to machine learning
● Wired : Google’s Artificial Brain Learns to Find Cat Videos
● IBM : machine learning applications
● Wikipedia : TF-IDF
● Wikipedia : BM25
● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle
Merci de votre attention
Des questions ?

Contenu connexe

Tendances

Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamMicrosoft Décideurs IT
 
L'intelligence artificielle au sein des entreprises wallonnes
L'intelligence artificielle au sein des entreprises wallonnesL'intelligence artificielle au sein des entreprises wallonnes
L'intelligence artificielle au sein des entreprises wallonnesMathieu Goeminne
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolutionTélécom Paris
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016Karim Baïna
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxAlexia Audevart
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEGroupe IDAIA
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVRomain Jouin
 

Tendances (20)

Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de Spam
 
L'intelligence artificielle au sein des entreprises wallonnes
L'intelligence artificielle au sein des entreprises wallonnesL'intelligence artificielle au sein des entreprises wallonnes
L'intelligence artificielle au sein des entreprises wallonnes
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolution
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreux
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
 
Big data : défis & technologies
Big data : défis & technologiesBig data : défis & technologies
Big data : défis & technologies
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 

En vedette

Analyse financière
Analyse financièreAnalyse financière
Analyse financièreAbdo attar
 
Machine learning
Machine learningMachine learning
Machine learningebiznext
 
Mahout classification presentation
Mahout classification presentationMahout classification presentation
Mahout classification presentationNaoki Nakatani
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tousDamien Seguy
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiereSabrine MASTOURA
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage AutomatiqueNizar Bechir
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBaseAmal Abid
 
Machine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionMachine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionVarad Meru
 

En vedette (12)

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Analyse financière
Analyse financièreAnalyse financière
Analyse financière
 
Machine learning
Machine learningMachine learning
Machine learning
 
Mahout classification presentation
Mahout classification presentationMahout classification presentation
Mahout classification presentation
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiere
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBase
 
Machine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionMachine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An Introduction
 

Similaire à Machine learning, deep learning et search : à quand ces innovations dans nos entreprises ?

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
 
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]Data science et Ux design [MEET UP Palo IT / Le LAPTOP]
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]Nadège Bide
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
 
EXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxEXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxInfopole1
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016Julien Deneuville
 
Big data et machine Learning
Big data et machine Learning Big data et machine Learning
Big data et machine Learning ichrafkhalfaoui
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Technologia Formation
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...aOS Community
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
L'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsL'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsFernando Alcoforado
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data ScienceSoft Computing
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine LearningEuraTechnologies
 
29/06/17 Matinale Python
29/06/17 Matinale Python29/06/17 Matinale Python
29/06/17 Matinale PythonSoft Computing
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...Marc Dutoo
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...PCU Consortium
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskJedha Bootcamp
 
Une transformation tout (ou presque) sauf digitale
Une transformation tout (ou presque) sauf digitaleUne transformation tout (ou presque) sauf digitale
Une transformation tout (ou presque) sauf digitaleChris Woodrow
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioAlexandra Loria
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 

Similaire à Machine learning, deep learning et search : à quand ces innovations dans nos entreprises ? (20)

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
 
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]Data science et Ux design [MEET UP Palo IT / Le LAPTOP]
Data science et Ux design [MEET UP Palo IT / Le LAPTOP]
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
 
EXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxEXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptx
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016
 
Big data et machine Learning
Big data et machine Learning Big data et machine Learning
Big data et machine Learning
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
L'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsL'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impacts
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
 
29/06/17 Matinale Python
29/06/17 Matinale Python29/06/17 Matinale Python
29/06/17 Matinale Python
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
 
Une transformation tout (ou presque) sauf digitale
Une transformation tout (ou presque) sauf digitaleUne transformation tout (ou presque) sauf digitale
Une transformation tout (ou presque) sauf digitale
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-Dremio
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 

Plus de Antidot

Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot
 
Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content ClassifierAntidot
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJAntidot
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Antidot
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRAntidot
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper Antidot
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceAntidot
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Antidot
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?Antidot
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Antidot
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Antidot
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Antidot
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesAntidot
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesAntidot
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Antidot
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Antidot
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Antidot
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebAntidot
 

Plus de Antidot (20)

Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
 
Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content Classifier
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJ
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FR
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerce
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertes
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux données
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le Web
 

Machine learning, deep learning et search : à quand ces innovations dans nos entreprises ?

  • 1. Machine learning, deep learning : à quand ces innovations dans nos entreprises ? Search Day 2015 William Lesguillier – Product manager offre Valorisation des Données
  • 2. 2 Antidot – Qui sommes-nous? ● Editeur de logiciels ● Moteurs de recherche| enrichissement des données ● Depuis 1999 | Paris, Lyon, Aix-en-Provence ● 3.5 M€, 45 collaborateurs, +150 clients ● Mission : délivrer à nos clients des solutions hautement configurables et innovantes qui créent de la valeur à partir de leurs données et augmentent leur performance opérationnelle
  • 3. 3 Parmi nos clients ● Production de contenus ● Industrie ● E-Commerce ● Santé
  • 4. 4 Qu’est-ce que le Machine Learning ● Définition : faculté donnée à un ordinateur d’apprendre un comportement à partir d’exemples ● Fondement scientifique : l’Intelligence Artificielle (IA)
  • 5. 5 Re-re-renaissance de l’IA ● L’Intelligence Artificielle est de retour sur le devant de la scène ● Deux facteurs principaux : ● Le développement de la puissance de calcul ● La disponibilités accrues des données !
  • 7. 7 L’événement qui change tout ● Puissance de calcul : 100 servers ● Données disponibles : 200 millions de pages
  • 9. 9 ML : illustrations des principes Dire si un logement se trouve à New York ou San Francisco Altitude des logements Concept d’attribut Crédit : http://www.r2d3.us
  • 10. 10 ML : illustrations des principes Dire si un logement se trouve à New York ou San Francisco Concept de modèle d’entrainement
  • 11. 11 Données d’entrainement Données de test ML : illustrations des principes Dire si une maison se trouve à New York ou San Francisco Concept de surentrainement
  • 12. 12 Qu’est-ce que le Deep Learning ? ● Se base sur les algorithmes de type réseaux de neurones ● Le système découvre lui-même les attributs et construit le modèle d’entrainement ● Il peut même aller jusqu’à s’affranchir d’une base d’entrainement (pas de documents étiquetés, ie apprentissage non supervisé) ● Avènement grâce à la puissance des GPU (Graphic Computing Units) très adaptés à ce type de calcul
  • 13. 13 Qu’est-ce que le Deep Learning ?
  • 14. 14 Machine Learning : pour quoi faire ? ● Reconnaissance du texte (y compris manuscrit) et de la voix ● Traduction automatique ● Text mining ● Aide à la recherche d’information ● Assistants personnels ● Assistance au diagnostic médical ● Smart cities ● Sécurité informatique ● Robotique ● …
  • 15. 15 Le Machine Learning chez Antidot Enrich Access Search Semantic & ComplexMachine Learning Graph & Linked Data
  • 19. 19 Les avantages du ML pour le text mining
  • 20. 20 Et pour les moteurs de recherche ?
  • 21. 21 Que s’est-il passé ces 10 dernières dans le monde du moteur de recherche d’entreprise ? Notre réponse : Rien de bien folichon
  • 22. 22 3 types de moteurs de recherche
  • 23. 23 Comment un moteur trouve-t-il ? ● Il recherche dans les documents le ou les mots-clés renseignés ● Il filtre les documents trouvés avec les critères fournis (format de document, fourchette de prix…) ● Et enfin, le plus important : il ordonne les document dans l’ordre jugé le plus pertinent
  • 24. 24 Qu’est-ce que la pertinence ? Mot Mot Mot Mot Mot Mot Mot Mot 1 Mot
  • 25. 25 Qu’est-ce que la pertinence ? ● Cette méthode de pondération s’appelle tf-idf (Term Frequency-Inverse Document Frequency) ● Elle a été inventée par Gerry Salton, appelé le père de la recherche d’information, en 1970
  • 26. 26 Pertinence des moteurs spécialisés
  • 27. 27 Pertinence des moteurs Web ● Etape 1 (90s) : algorithmes tf idf ● Etape 2 (2000) : Google invente le Page Rank ● Etape 3 (2005) : explosion du nombre de paramètres de pondération ● Etape 4 (2010) : utilisation du ML pour trouver la meilleure pertinence en fonction de tous et de chacun
  • 28. 28 Pertinence des moteurs d’entreprise ● tf-idf est toujours implémenté dans tous les moteurs de recherche d’entreprise via les algorithmes appelés Best Match ou Vector Space Model ● L’état de l’art de ces moteurs à 45 ans !!
  • 29. 29 ● Today with AFS : 0 results ● Tomorrow with Taruqa : Sneak peak sur nos travaux de recherche comment configurer le back office Antidot d’AFS Rechercher
  • 30. 30 ● Today with AFS : filtering only is possible ● Tomorrow with Taruqa : Boost documents by facet values Sneak peak sur nos travaux de recherche configuration back office Rechercher
  • 32. 32 Sources et ressources ● Wikipedia : Histoire de l’intelligence artificielle ● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all » ● TechRepublic : IBM Watson: The inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next ● A visual introduction to machine learning ● Wired : Google’s Artificial Brain Learns to Find Cat Videos ● IBM : machine learning applications ● Wikipedia : TF-IDF ● Wikipedia : BM25 ● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle
  • 33. Merci de votre attention Des questions ?

Notes de l'éditeur

  1. Loi de Moore. Plus de données grâce au Big Data et aux objets connectés.
  2. 2011 : victoire d’IBM Watson sur les deux meilleurs champions de Jeopardy. A plate couture. Evénéments précurseurs (source Wikipedia) : le 11 mai 1997, Deep Blue est devenu le premier système informatique de jeu d'échecs à battre le champion du monde en titre, Garry Kasparov134. En 2005, un robot de Stanford a remporté le DARPA Grand Challengeen conduisant de manière autonome pendant 131 milles sur une piste de désert sans avoir fait de reconnaissance préalable135. Deux ans plus tard, une équipe de Carnegie-Mellon remporte le DARPA Urban Challenge, cette fois en navigant en autonome pendant 55 milles dans un environnement urbain tout en respectant les conditions de trafic et le code de la route136. En février 2011, dans un match de démonstration du jeu télévisé Jeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont été battus avec une marge confortable par le système de questions-réponses conçu par IBM, au centre de recherche Watson137. https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle
  3. Si on y réfléchit à deux fois, 200 millions de pages ce n’est pas grand chose à l’échelle de l’information disponible sur le web.
  4. Le système analyse la question et recherche les réponses potentielles en puisant dans un historique des questions/réponses Jeopardy et dans une base documentaire. Mais la particularité du système réside dans la façon dont les réponses potentielles trouvées sont choisies. Les ingénieurs d’IBM n’ont pas développé un algorithme décisionnel classique pour parvenir à ce choix, ils ont laissé la machine apprendre quelles sont les bonnes réponses de sorte que nul ne peut définir aujourd’hui quel est l’agencement de paramètres réellement utilisé par Watson lorsqu’il fait ce choix.
  5. http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
  6. Wired : Google’s Artificial Brain Learns to Find Cat Videos http://www.wired.com/2012/06/google-x-neural-network/
  7. Issu du site de notre client http://www.rechercheisidore.fr Classification automatique de 3,5 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.
  8. Issu du site de notre client http://caij.qc.ca Classification automatique de 1,5 millions de décisions juridiques (ie jurisprudence) selon plus de 100 domaines de droit.
  9. Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction.
  10. Meilleure qualité Peu d’adhérence à la langue Temps de traitement courts, temps de mise en œuvre court, maintenance très peu chronophage.
  11. tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est caractéristique du mot et donc plus le document A doit être mis en tête de liste
  12. Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse.