SlideShare une entreprise Scribd logo
1  sur  45
Agence Conseil en stratégie digitale
SEO, CRO, Inbound Marketing, Analytics
Philippe YONNET
Agence Search Foresight – Groupe My Media
13 février 2015
Extraction d’information :
Construisez votre propre
graphe de connaissances
/ PHILIPPE YONNET – DIRECTEUR ASSOCIE SF
L’ORATEUR
Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement
naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte
audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin,
LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-
Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à
Londres et New-York pendant deux ans, en tant que Directeur SEO International
de Vivastreet, puis en tant que Directeur SEO International et Directeur
Merchandising du comparateur de prix Twenga.
• Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les
professionnels du référencement des pays francophones.
 Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a
contribué à plusieurs chapitres du livre « réussir son référencement » chez
Eyrolles
 Il a fondé le principal évènement sur le référencement en France, les SEO
Camp’us
 Il a créé la certification CESEO, qui valide les connaissances des experts
en SEO
 Lancé en janvier 2015
 Directeur : Stéphane Tolleron
 Objectifs :
 Réaliser études et tests
 Développer des outils et briques
logicielles utiles pour nos clients
 Piloter les projets de recherche
 Les sujets d’étude :
 l’extraction d’information
 l’indexation des concepts
 Un doctorant en TAL
Le SF Lab
QU’EST CE QUE C’EST ?
Le « knowledge graph »
/ Un « graphe de connaissances » limité
6
Le knowledge graph de Google
 Annoncé le 16 mai 2012
 S’appuie fortement sur freebase
/ Service lancé par Metaweb
7
Freebase
 La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été
faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de
Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
/ Le principe
8
Le knowledge graph de Google
 Une base d’entités
 Reliée à des « faits » sur ces entités
 Ainsi que les relations sémantiques
entre les entités, et entre les faits et
les entités
/ Définition
9
Les entités nommées
Les entités nommées désignent des « entités »
concrètes, c’est-à-dire des objets qui existent
dans le monde réel : lieux, personnes,
sociétés, dates, numéros de téléphone…
D’une certaine façon, il s’agit d’une
généralisation de tout ce qu’on appelle
« noms propres » dans le langage courant.
La Reconnaissance d‘Entités Nommées (REN
en français, NER en anglais) est une sous-
tâche primordiale dans l'activité d'extraction
d'information dans des documents
Elle consiste à rechercher des objets textuels
(c'est-à-dire un mot, ou un groupe de mots)
catégorisables dans des classes telles que
noms de personnes, noms d'organisations ou
d'entreprises, noms de lieux, quantités,
distances, valeurs, dates, etc.
Source Basistech
/ Exemple
10
Les entités nommées
 Reconnaître les entités avec exactitude n’est pas trivial !
/ Mettez un outil de REN dans votre navigateur
- 11 -
Un outil à tester : Open Calais
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Exemple : couleur, taille, âge, profession,capital
social…
12
Les attributs des entités
 Les attributs sont soit des propriétés,
soit des caractéristiques
 L’attribut est indissociable d’une
valeur
 Trouver la valeur d’un attribut est
déjà un challenge, identifier les
attributs associables à une entité est
un défi encore plus grand
/ Identifier les relations sémantiques permet de créer une
ontologie
13
Les relations
Ces relations relient les entités avec leurs attributs
Mais aussi les entités entre elles
Mais aussi avec des classes (regroupements) d’entités
ou d’attributs
- 14 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
Et finalement, avec tout ça on a construit
un graphe de connaissances !
QU’EST CE QUE C’EST ?
L’extraction d’information
Attention au faux ami
 Information Retrieval : recherche d’information.
Souvent traduit en extraction d’information, mais c’est
impropre.
Les moteurs de recherche, dans le cadre de leur
fonctionnement classique, utilisent des techniques
d’Information Retrieval.
 Information extraction : extraction d’information. C’est
notre sujet d’aujourd’hui. En France on utilise
beaucoup aussi le terme « fouille de textes »
Extraction d’information : définition
L'activité qui consiste à remplir automatiquement
une banque de données à partir de textes écrits
en langue naturelle" (T. Poibeau)
/ Les principaux champs de recherche
18
Les différents domaines en IE
 La reconnaissance d’entités nommées (REN)
 Déjà présentée…
 La résolution des co-références (COR)
La résolution des co-références cherche à établir les relations entre une entité nommée et
toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le
président Hollande, le Président de la République, le Président de la République Française…
La COR est indispensable pour améliorer les applications de la NER.
On appelle cette tâche plus vulgairement « normalisation »
 L’extraction d’évènements
Les techniques d’extraction d’évènements visent à reconnaître la mention
d’évènements dans les textes, et à créer une base de données structurée,
comportant un certain nombre d’informations associées à l’évènement comme
le nom de l’évènement, les dates de l’évènement, les protagonistes etc.
 L’extraction de relations
/ Le processus d’analyse étape par étape
19
L’extraction d’évènement
 L’extraction d’évènement est un problème complexe : le challenge fait partie des
premiers défis que les chercheurs se sont lancés
(implémentation typique dans l’outil GATE de l’université de Sheffield)
LES APPROCHES LES PLUS CLASSIQUES
Les méthodes d’extraction
d’information
/ Les « patrons » sémantiques
21
Méthode 1 : L’utilisation de règles
 – règles de type expressions régulières écrites à la main, pour la reconnaissance
des entités nommées en fonction de leur contexte
 – gros usage de listes, dictionnaires...
 – intérêt : lisibilité (jusqu’à un certain point)
 – mais requiert une certaine expertise linguistique
 – problème : grande évolutivité des noms, ambiguïtés...
 – en général : bonne précision, mauvais rappel !
 – exemple (démo) : Unitex
/ Unitex
- 22 -
Démo / Exemple
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/
23
Méthode 2 : L’apprentissage automatique
Apprentissage automatique supervisé
Problème : nécessite au départ un grand nombre d’exemples annotés à la main
Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)
 Apprentissage symbolique
 Apprentissage basé sur une grammaire (bof !)
 Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)
 Approche statistique
 Apprentissage s’appuyant sur des modèles graphiques
/ Règles, données extérieures, + apprentissage
automatique
24
L’approche hybride
 Découverte semi automatique des patrons
 Réutilisation de données existantes
 Apprentissage faiblement supervisé
 OIE : Open Information Extraction
Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf
Partir d'un patron déjà déterminé :
<company1> acheter <company2>
Trouver des exemples d'entités instanciant ce patron
<company>IBM</company> a acheté <company>Lotus</company>
➢ achat(IBM, Lotus)
– Collection de nouveaux patrons grâce aux connaissances acquises
Lotus a été acquis par IBM
<company2> être acquis <company1>
L'achat de Lotus par IBM
L'achat de <company2> par <company1>
Quelques pistes d’applications pour
vos sites
/ Extraction de caractéristiques
26
Améliorer vos fiches produits
 Exemple : Rakuten
Source 01 net
/ Fonction avancée de comparaison et d’agrégation
- 27 -
Agréger des données
 Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Qualification et structuration
28
Bases d’annonces emploi et de CV
/ De la donnée à la séquence !
29
Création de nouvelles bases structurées
 Exemple : parser des recettes de cuisine pour identifier les ingrédients, les
quantités, et les process !
 Si, si, c’est possible
/ Les how to !
- 30 -
Application chez Google
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Réponse : des choses très utiles pour le SEO
- 31 -
Que peut-on faire avec données ?
De nouveaux
services pour les
internautes !
De nouvelles pages
de contenus
Un maillage interne
plus intelligent
grâce à des
données plus
structurées
Plus de pertinence,
plus de précision
pour vos moteurs de
recherche interne
Une meilleure
expérience
utilisateur
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
L’aspect juridique
- 32 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ Ok pour certaines utilisations, problématique pour
d’autres
33
Un cadre juridique complexe
• Droit d’auteur et droits voisins
• Droit des bases de données
• Propriété intellectuelle
• Droit des marques
• Droit « sui generis »
• …
Et demain ?
- 35 -
Search Foresight 2014 © Agence Conseil
en Stratégie Digitale
Vers le « Knowledge Vault » chez Google
 Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de
relations différentes
 Knowledge Vault = 100 fois plus ?
/ La note de « véracité », une alternative au pagerank ?
- 36 -
Google et la vérification des faits !
 http://www.newscientist.com/article/
mg22530102.600-google-wants-to-
rank-websites-based-on-facts-not-
links.html#.VPbn0yz6WOn
 Knowledge-Based Trust: Estimating
the Trustworthiness of Web Sources -
Xin Luna Dong, Evgeniy Gabrilovich,
Kevin Murphy, Van Dang Wilko Horn,
Camillo Lugaresi, Shaohua Sun, Wei
Zhang Google Inc.
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
37
L’Open Information Extraction
 Concept popularisé par Oren Etzioni
 Système d’apprentissage
automatique faiblement supervisé
 Capable d’extraire des informations,
sans dépendance au domaine, et
sans rechercher des types de
relation particuliers
 Certaines des technologies
développées par Oren Etzioni ont
été achetées par Google
/ Comprendre la question, identifier la bonne réponse !
- 38 -
Application de l’OIE : Textrunner
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
Application de l’OIE : Revminer
Conclusion
 Indexer des entités, des faits, et des relations devient le
nec plus ultra pour les personnes qui veulent offrir des
services sur le web
 Extraire des informations demande l’utilisation de
techniques avancées, mais le domaine a fait
d’énormes progrès, et beaucoup d’outils sont
accessibles et disponibles
 Plus la demande pour ces techniques progresse, plus
les technologies se développent rapidement
LIENS ET BIBLIO
Pour approfondir le sujet
41
/ Quelques livres
42
Liens et biblio
Extraction automatique d’information de Thierry Poibeau chez
Hermès Lavoisier
Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès
Lavoisier
/ Les outils
43
Liens et biblio
 Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/
 Reconnaissance des entités nommées : http://www.opencalais.com/
 Outil de visualisation de graphes : Gephi http://gephi.github.io/
 OIE – Outil TextRunner : http://openie.cs.washington.edu/
 OIE – Outil Reverb : http://reverb.cs.washington.edu/
44
Merci !
www.search-foresight.com
Spécialiste de
l’accompagnement
stratégique en SEO

Contenu connexe

Tendances

Brave : étude du nouveau moteur de recherche - Frédéric Plisson - SEO CAMP'u...
Brave : étude du nouveau moteur de recherche  - Frédéric Plisson - SEO CAMP'u...Brave : étude du nouveau moteur de recherche  - Frédéric Plisson - SEO CAMP'u...
Brave : étude du nouveau moteur de recherche - Frédéric Plisson - SEO CAMP'u...
SEO CAMP
 

Tendances (20)

Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Adapter votre stratégie SEO pour 2015 face aux changements de Google
Adapter votre stratégie SEO pour 2015 face aux changements de GoogleAdapter votre stratégie SEO pour 2015 face aux changements de Google
Adapter votre stratégie SEO pour 2015 face aux changements de Google
 
Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?
 
Comment lever une sanction pour liens factices de Google ?
Comment lever une sanction pour liens factices de Google ?Comment lever une sanction pour liens factices de Google ?
Comment lever une sanction pour liens factices de Google ?
 
RP digitales et référencement : des métiers convergents
RP digitales et référencement : des métiers convergentsRP digitales et référencement : des métiers convergents
RP digitales et référencement : des métiers convergents
 
SMX PARIS 2014 : Convergence SEO, étude de cas Humanis - WAM-Référencement
SMX PARIS 2014 : Convergence SEO, étude de cas Humanis - WAM-RéférencementSMX PARIS 2014 : Convergence SEO, étude de cas Humanis - WAM-Référencement
SMX PARIS 2014 : Convergence SEO, étude de cas Humanis - WAM-Référencement
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Petit Déj' "Ergonomie et SEO" organisé par Use Age le 26 Septembre 2013
Petit Déj' "Ergonomie et SEO" organisé par Use Age le 26 Septembre 2013Petit Déj' "Ergonomie et SEO" organisé par Use Age le 26 Septembre 2013
Petit Déj' "Ergonomie et SEO" organisé par Use Age le 26 Septembre 2013
 
Réussir son référencement Google actualites
Réussir son référencement Google actualitesRéussir son référencement Google actualites
Réussir son référencement Google actualites
 
SMO : techniques de référencement avec les réseaux sociaux
SMO : techniques de référencement avec les réseaux sociauxSMO : techniques de référencement avec les réseaux sociaux
SMO : techniques de référencement avec les réseaux sociaux
 
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
 
Quel ROI attendre d'un projet de création de pages AMP ?
Quel ROI attendre d'un projet de création de pages AMP ?Quel ROI attendre d'un projet de création de pages AMP ?
Quel ROI attendre d'un projet de création de pages AMP ?
 
Google news : critères de ranking et nouveautés
Google news : critères de ranking et nouveautésGoogle news : critères de ranking et nouveautés
Google news : critères de ranking et nouveautés
 
Featured Snippet, Infinite People Also Ask (PAA), quels bouleversements pour ...
Featured Snippet, Infinite People Also Ask (PAA), quels bouleversements pour ...Featured Snippet, Infinite People Also Ask (PAA), quels bouleversements pour ...
Featured Snippet, Infinite People Also Ask (PAA), quels bouleversements pour ...
 
Digital Apéro - Le SEO en 2020
Digital Apéro - Le SEO en 2020Digital Apéro - Le SEO en 2020
Digital Apéro - Le SEO en 2020
 
Brave : étude du nouveau moteur de recherche - Frédéric Plisson - SEO CAMP'u...
Brave : étude du nouveau moteur de recherche  - Frédéric Plisson - SEO CAMP'u...Brave : étude du nouveau moteur de recherche  - Frédéric Plisson - SEO CAMP'u...
Brave : étude du nouveau moteur de recherche - Frédéric Plisson - SEO CAMP'u...
 
SEO pour le B to B
SEO pour le B to BSEO pour le B to B
SEO pour le B to B
 
Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015
 

En vedette

SEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital AnalyticsSEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital Analytics
Nicolas Malo
 

En vedette (20)

Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015
 
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
 
SEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital AnalyticsSEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital Analytics
 
Confiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères PeyronnetConfiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères Peyronnet
 
La #landingquitue par @valvert
La #landingquitue par @valvertLa #landingquitue par @valvert
La #landingquitue par @valvert
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Réussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect FranceRéussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect France
 
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez ! #Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
 
2015 seo-campus-mobile1
2015 seo-campus-mobile12015 seo-campus-mobile1
2015 seo-campus-mobile1
 
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
 
SEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérienceSEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérience
 
SEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décaléSEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décalé
 
Designing Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us seeDesigning Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us see
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017
 
HTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp ParisHTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp Paris
 
Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?
 
Les défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEOLes défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEO
 
Measuring Content Marketing
Measuring Content MarketingMeasuring Content Marketing
Measuring Content Marketing
 
Organiser un projet à l’international : un Pari Fou
Organiser un projet à l’international : un Pari FouOrganiser un projet à l’international : un Pari Fou
Organiser un projet à l’international : un Pari Fou
 

Similaire à Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre III
Aproged
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stg
amazonai
 
Technologies éducatives intro
Technologies éducatives introTechnologies éducatives intro
Technologies éducatives intro
Martine Dubreucq
 
2014 03 arcade j2 haguenau_app_itg_j_vds
2014 03 arcade  j2 haguenau_app_itg_j_vds2014 03 arcade  j2 haguenau_app_itg_j_vds
2014 03 arcade j2 haguenau_app_itg_j_vds
Jean Vanderspelden
 
Travaux pratiques de l'activité réseaux et communautés
Travaux pratiques de l'activité réseaux et communautésTravaux pratiques de l'activité réseaux et communautés
Travaux pratiques de l'activité réseaux et communautés
richard peirano
 
Formation Centres Sociaux Web2 Et Wp
Formation Centres Sociaux Web2 Et WpFormation Centres Sociaux Web2 Et Wp
Formation Centres Sociaux Web2 Et Wp
Centres Sociaux
 

Similaire à Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes (20)

Comment le social augment l'accès à l'information
Comment le social augment l'accès à l'informationComment le social augment l'accès à l'information
Comment le social augment l'accès à l'information
 
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre III
 
Lali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuLali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actu
 
Réseaux sociaux d'entreprises
Réseaux sociaux d'entreprisesRéseaux sociaux d'entreprises
Réseaux sociaux d'entreprises
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stg
 
Technologies éducatives intro
Technologies éducatives introTechnologies éducatives intro
Technologies éducatives intro
 
Présentation séminaire adoption SharePoint Voirin Conseil
Présentation séminaire adoption SharePoint Voirin ConseilPrésentation séminaire adoption SharePoint Voirin Conseil
Présentation séminaire adoption SharePoint Voirin Conseil
 
Trouvez un emploi avec internet
Trouvez un emploi avec internetTrouvez un emploi avec internet
Trouvez un emploi avec internet
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
 
Nouvel Ingénieur - Knowledge Management (12/11/2011 - Contenu)
Nouvel Ingénieur - Knowledge Management (12/11/2011 - Contenu)Nouvel Ingénieur - Knowledge Management (12/11/2011 - Contenu)
Nouvel Ingénieur - Knowledge Management (12/11/2011 - Contenu)
 
Avant la veille : tentative de grammaire du web
Avant la veille : tentative de grammaire du webAvant la veille : tentative de grammaire du web
Avant la veille : tentative de grammaire du web
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
2014 03 arcade j2 haguenau_app_itg_j_vds
2014 03 arcade  j2 haguenau_app_itg_j_vds2014 03 arcade  j2 haguenau_app_itg_j_vds
2014 03 arcade j2 haguenau_app_itg_j_vds
 
Gestion de projet digital : startup sharitiz
Gestion de projet digital : startup sharitizGestion de projet digital : startup sharitiz
Gestion de projet digital : startup sharitiz
 
Plateformes collaboratives et sociales d'entreprise
Plateformes collaboratives et sociales d'entreprisePlateformes collaboratives et sociales d'entreprise
Plateformes collaboratives et sociales d'entreprise
 
Réseaux sociaux, des liens pour apprendre
Réseaux sociaux, des liens pour apprendreRéseaux sociaux, des liens pour apprendre
Réseaux sociaux, des liens pour apprendre
 
Travaux pratiques de l'activité réseaux et communautés
Travaux pratiques de l'activité réseaux et communautésTravaux pratiques de l'activité réseaux et communautés
Travaux pratiques de l'activité réseaux et communautés
 
Eim360 Gestion de l'information & collaboratif
Eim360 Gestion de l'information & collaboratif Eim360 Gestion de l'information & collaboratif
Eim360 Gestion de l'information & collaboratif
 
Formation Centres Sociaux Web2 Et Wp
Formation Centres Sociaux Web2 Et WpFormation Centres Sociaux Web2 Et Wp
Formation Centres Sociaux Web2 Et Wp
 

Plus de Philippe YONNET

Plus de Philippe YONNET (17)

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Inbound Marketing et Growth Hacking
Inbound Marketing et Growth HackingInbound Marketing et Growth Hacking
Inbound Marketing et Growth Hacking
 
Actualités sur Google et le SEO - Février 2015
Actualités sur Google et le SEO - Février 2015Actualités sur Google et le SEO - Février 2015
Actualités sur Google et le SEO - Février 2015
 
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
 
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
 

Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

  • 1. Agence Conseil en stratégie digitale SEO, CRO, Inbound Marketing, Analytics Philippe YONNET Agence Search Foresight – Groupe My Media 13 février 2015 Extraction d’information : Construisez votre propre graphe de connaissances
  • 2. / PHILIPPE YONNET – DIRECTEUR ASSOCIE SF L’ORATEUR Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition- Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones.  Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles  Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us  Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  • 3.  Lancé en janvier 2015  Directeur : Stéphane Tolleron  Objectifs :  Réaliser études et tests  Développer des outils et briques logicielles utiles pour nos clients  Piloter les projets de recherche  Les sujets d’étude :  l’extraction d’information  l’indexation des concepts  Un doctorant en TAL Le SF Lab
  • 4.
  • 5. QU’EST CE QUE C’EST ? Le « knowledge graph »
  • 6. / Un « graphe de connaissances » limité 6 Le knowledge graph de Google  Annoncé le 16 mai 2012  S’appuie fortement sur freebase
  • 7. / Service lancé par Metaweb 7 Freebase  La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
  • 8. / Le principe 8 Le knowledge graph de Google  Une base d’entités  Reliée à des « faits » sur ces entités  Ainsi que les relations sémantiques entre les entités, et entre les faits et les entités
  • 9. / Définition 9 Les entités nommées Les entités nommées désignent des « entités » concrètes, c’est-à-dire des objets qui existent dans le monde réel : lieux, personnes, sociétés, dates, numéros de téléphone… D’une certaine façon, il s’agit d’une généralisation de tout ce qu’on appelle « noms propres » dans le langage courant. La Reconnaissance d‘Entités Nommées (REN en français, NER en anglais) est une sous- tâche primordiale dans l'activité d'extraction d'information dans des documents Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. Source Basistech
  • 10. / Exemple 10 Les entités nommées  Reconnaître les entités avec exactitude n’est pas trivial !
  • 11. / Mettez un outil de REN dans votre navigateur - 11 - Un outil à tester : Open Calais Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 12. / Exemple : couleur, taille, âge, profession,capital social… 12 Les attributs des entités  Les attributs sont soit des propriétés, soit des caractéristiques  L’attribut est indissociable d’une valeur  Trouver la valeur d’un attribut est déjà un challenge, identifier les attributs associables à une entité est un défi encore plus grand
  • 13. / Identifier les relations sémantiques permet de créer une ontologie 13 Les relations Ces relations relient les entités avec leurs attributs Mais aussi les entités entre elles Mais aussi avec des classes (regroupements) d’entités ou d’attributs
  • 14. - 14 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale Et finalement, avec tout ça on a construit un graphe de connaissances !
  • 15. QU’EST CE QUE C’EST ? L’extraction d’information
  • 16. Attention au faux ami  Information Retrieval : recherche d’information. Souvent traduit en extraction d’information, mais c’est impropre. Les moteurs de recherche, dans le cadre de leur fonctionnement classique, utilisent des techniques d’Information Retrieval.  Information extraction : extraction d’information. C’est notre sujet d’aujourd’hui. En France on utilise beaucoup aussi le terme « fouille de textes »
  • 17. Extraction d’information : définition L'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle" (T. Poibeau)
  • 18. / Les principaux champs de recherche 18 Les différents domaines en IE  La reconnaissance d’entités nommées (REN)  Déjà présentée…  La résolution des co-références (COR) La résolution des co-références cherche à établir les relations entre une entité nommée et toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le président Hollande, le Président de la République, le Président de la République Française… La COR est indispensable pour améliorer les applications de la NER. On appelle cette tâche plus vulgairement « normalisation »  L’extraction d’évènements Les techniques d’extraction d’évènements visent à reconnaître la mention d’évènements dans les textes, et à créer une base de données structurée, comportant un certain nombre d’informations associées à l’évènement comme le nom de l’évènement, les dates de l’évènement, les protagonistes etc.  L’extraction de relations
  • 19. / Le processus d’analyse étape par étape 19 L’extraction d’évènement  L’extraction d’évènement est un problème complexe : le challenge fait partie des premiers défis que les chercheurs se sont lancés (implémentation typique dans l’outil GATE de l’université de Sheffield)
  • 20. LES APPROCHES LES PLUS CLASSIQUES Les méthodes d’extraction d’information
  • 21. / Les « patrons » sémantiques 21 Méthode 1 : L’utilisation de règles  – règles de type expressions régulières écrites à la main, pour la reconnaissance des entités nommées en fonction de leur contexte  – gros usage de listes, dictionnaires...  – intérêt : lisibilité (jusqu’à un certain point)  – mais requiert une certaine expertise linguistique  – problème : grande évolutivité des noms, ambiguïtés...  – en général : bonne précision, mauvais rappel !  – exemple (démo) : Unitex
  • 22. / Unitex - 22 - Démo / Exemple Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 23. / 23 Méthode 2 : L’apprentissage automatique Apprentissage automatique supervisé Problème : nécessite au départ un grand nombre d’exemples annotés à la main Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)  Apprentissage symbolique  Apprentissage basé sur une grammaire (bof !)  Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)  Approche statistique  Apprentissage s’appuyant sur des modèles graphiques
  • 24. / Règles, données extérieures, + apprentissage automatique 24 L’approche hybride  Découverte semi automatique des patrons  Réutilisation de données existantes  Apprentissage faiblement supervisé  OIE : Open Information Extraction Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf Partir d'un patron déjà déterminé : <company1> acheter <company2> Trouver des exemples d'entités instanciant ce patron <company>IBM</company> a acheté <company>Lotus</company> ➢ achat(IBM, Lotus) – Collection de nouveaux patrons grâce aux connaissances acquises Lotus a été acquis par IBM <company2> être acquis <company1> L'achat de Lotus par IBM L'achat de <company2> par <company1>
  • 26. / Extraction de caractéristiques 26 Améliorer vos fiches produits  Exemple : Rakuten Source 01 net
  • 27. / Fonction avancée de comparaison et d’agrégation - 27 - Agréger des données  Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 28. / Qualification et structuration 28 Bases d’annonces emploi et de CV
  • 29. / De la donnée à la séquence ! 29 Création de nouvelles bases structurées  Exemple : parser des recettes de cuisine pour identifier les ingrédients, les quantités, et les process !  Si, si, c’est possible
  • 30. / Les how to ! - 30 - Application chez Google Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 31. / Réponse : des choses très utiles pour le SEO - 31 - Que peut-on faire avec données ? De nouveaux services pour les internautes ! De nouvelles pages de contenus Un maillage interne plus intelligent grâce à des données plus structurées Plus de pertinence, plus de précision pour vos moteurs de recherche interne Une meilleure expérience utilisateur Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 32. L’aspect juridique - 32 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 33. / Ok pour certaines utilisations, problématique pour d’autres 33 Un cadre juridique complexe • Droit d’auteur et droits voisins • Droit des bases de données • Propriété intellectuelle • Droit des marques • Droit « sui generis » • …
  • 35. - 35 - Search Foresight 2014 © Agence Conseil en Stratégie Digitale Vers le « Knowledge Vault » chez Google  Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de relations différentes  Knowledge Vault = 100 fois plus ?
  • 36. / La note de « véracité », une alternative au pagerank ? - 36 - Google et la vérification des faits !  http://www.newscientist.com/article/ mg22530102.600-google-wants-to- rank-websites-based-on-facts-not- links.html#.VPbn0yz6WOn  Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources - Xin Luna Dong, Evgeniy Gabrilovich, Kevin Murphy, Van Dang Wilko Horn, Camillo Lugaresi, Shaohua Sun, Wei Zhang Google Inc. Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 37. 37 L’Open Information Extraction  Concept popularisé par Oren Etzioni  Système d’apprentissage automatique faiblement supervisé  Capable d’extraire des informations, sans dépendance au domaine, et sans rechercher des types de relation particuliers  Certaines des technologies développées par Oren Etzioni ont été achetées par Google
  • 38. / Comprendre la question, identifier la bonne réponse ! - 38 - Application de l’OIE : Textrunner Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 40. Conclusion  Indexer des entités, des faits, et des relations devient le nec plus ultra pour les personnes qui veulent offrir des services sur le web  Extraire des informations demande l’utilisation de techniques avancées, mais le domaine a fait d’énormes progrès, et beaucoup d’outils sont accessibles et disponibles  Plus la demande pour ces techniques progresse, plus les technologies se développent rapidement
  • 41. LIENS ET BIBLIO Pour approfondir le sujet 41
  • 42. / Quelques livres 42 Liens et biblio Extraction automatique d’information de Thierry Poibeau chez Hermès Lavoisier Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès Lavoisier
  • 43. / Les outils 43 Liens et biblio  Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/  Reconnaissance des entités nommées : http://www.opencalais.com/  Outil de visualisation de graphes : Gephi http://gephi.github.io/  OIE – Outil TextRunner : http://openie.cs.washington.edu/  OIE – Outil Reverb : http://reverb.cs.washington.edu/