SlideShare une entreprise Scribd logo
La révolution des
Word Embeddings
Philippe Yonnet
Lyon – 21 avril 2017
Philippe Yonnet
DG et fondateur – Search Foresight
2
Présentation de
l’agence Search
Foresight
Introduction
Pourquoi les Word
Embeddings ont un
rapport avec cette
nouvelle
fonctionnalité de
l’algo ?
Rankbrain ?
De Salton aux word
embeddings
Les
principes
Les word embeddings
commencent à
s’immiscer dans de
nombreux domaines
des NLP
Les
applications
Quelle evolution
attendre dans les OR ?
Comment utiliser les
word embeddings
pour optimiser les
sites
Quel impact
pour le SEO ?
.
1 2 3 4 5
Plan de l’intervention
35 mn de presentation, 10 mn de Q&A
Les word embeddings sont ils la
vraie technologie d’IA derrière
Rankbrain ?
4
Rankbrain : de l’IA dans l’algo de Google
En place depuis le début de l’année 2015
Notons que personne n’a vu la différence
Utilise, d’après Greg Cerrado, des technologies d’IA
Très peu d’infos lâchées
La machine à fantasmes s’est mise en route, et tout le monde a
vu de l’IA partout
https://www.bloomberg.com/news/articles/2015-10-26/google-
turning-its-lucrative-web-search-over-to-ai-machines
Annoncé le 26 oct 2015 dans un article de Bloomberg
Rankbrain : l’algo de tous les fantasmes
Un florilège des erreurs d’interprétation
Non, Rankbrain n’est pas un grand
programme de machine learning qui
remplace l’algo
Non Rankbrain n’est pas le 3e critère le plus
important de l’algo
Non, Rankbrain n’apprend pas les bonnes
réponses à donner en fonction de l’analyse
des CTR
On en trouve aussi dans l’espace
francophone, mais tout le monde a le
droit de dire des bêtises sur des sujets
qu’on ne maîtrise pas
On voit de l’IA partout
6
“RankBrain is essentially Google’s almost-sentient AI
algorithm factor that constantly trudges through the
Internet, looking for information sources that can
answer questions that have never been asked before.
Others have deemed the mysterious technology a
machine-learning, knowledge-compiling, results-
providing robot.”
“Google may use RankBrain to impact selection of
featured snippet results, trigger the delivery of a map
where there wasn’t one shown before, and/or
determine if the main impact of a given query would
be an improved search results snippet”.
La vision de Rand
Rankbrain permet à Google de
déterminer quels signaux prioriser en
fonction des requêtes…
Euh… d’où cela sort ? Où sont les preuves ?
Rankbrain = machine learning à la Yandex
7
La description de l’article de Bloomberg
Les mots clés :
Vecteurs
Embed (pas compris par le journaliste mais
bon)
Similar
Meaning
Pour les initiés c’est une évidence
8
RankBrain uses artificial intelligence
to embed vast amounts of written
language into mathematical entities -
- called vectors -- that the computer
can understand. If RankBrain sees a
word or phrase it isn’t familiar with,
the machine can make a guess as to
what words or phrases might have a
similar meaning and filter the result
accordingly, making it more effective
at handling never-before-seen search
queries.
Un exemple de requête traité par Rankbrain
Donné par Greg Cerrado
9
Quel est le nom donné au
consommateur situé au somment
de la chaine alimentaire ?
« title » est ambigu
« consumer » est ambigu
Un exemple de requête traité par Rankbrain
Donné par Greg Cerrado
10
La réponse est …
Predator
Ou Apex predator
(Superprédateur)
Les principes
11
Les espaces vectoriels
Application basique :
« Numériser » la géométrie
Identifier la position d’un point dans
l’espace en fonction de ses
coordonnées cartésiennes
Un outil mathématique particulièrement utile et commode
Et les ordinateurs adorent cela !
Calcul de la distance angulaire entre
deux vecteurs
Les processeurs permettent de faire de multiples calculs sur les vecteurs
13
Et même en utilisant plusieurs vecteurs de
coordonnées à la fois
14
Calcul sur les matrices
Ici une multiplication entre une
matrice contenant la description sur
les mouvements de translation et de
rotation d’un objet.
Conclusion : les modèles reposant
sur des coordonnées dans un
espace vectoriel sont faciles à
exploiter à l’aide de programmes
informatiques
Application à la linguistique et aux OR
L’idée est de « compter » les mots pour
calculer leur importance dans un texte
(mesure de la « fréquence »)
Un poids du terme est calculé pour chaque terme
dans un document
Cela fournit des coordonnées dans un espace
« virtuel » qui a autant de dimensions que de termes
dans le « dictionnaire » (d’entrées dans l’index)
On peut ensuite calculer des coordonnées pour des
termes, ou plus utile pour un moteur de recherche, à
des documents
Cosinus de Salton, très utilisé dans de
nombreux outils de recherche : Altavista,
Lucène SolR… Google ?
L’approche de Gérard Salton
15
Banane
Orange
Les différentes approches utilisant un modèle vectoriel
Mesurer la fréquence d’occurrence dans le document
0 1 0 1 0 0 2 0 1 0 1 0banane
Doc7 Doc9Doc2 Doc4 Doc11
Méthode de Salton « naïve »
Remarque : on ne tient pas compte du tout de l’ordre des mots, de leur sens, de la grammaire
Les différentes approches utilisant un modèle vectoriel
On peut stocker également les distances entre les termes. On obtient un double vecteur
(occurrence + contexte)
e.g., “Les bananes plantain poussent dans des bananiers en afrique”
On peut essayer de tenir compte du contexte
0 1 0 1 0 0 2 0 1 0 1 0banane
(poussent,+2)(bananiers, +5)(plantain, +1) (dans, +3) (africa, +7)
Le problème : on voudrait avoir une solution pour comprendre une similarité qui provient du sens des termes
Pourtant, il existe des niveaux de parenté sémantiques
Comparer deux vecteurs en utilisant la Similarité Cosinus permet d’évaluer quelle est leur
similarité textuelle. Mais est-ce pertinent ?
Dans certains cas, la “proximité” entre deux documents vient de leur sens
OuParis est similaire à Berlin
Ce sont des villes.
Bordeaux est similaire à Boxers ?
Il y’a les “Boxers de Bordeaux”
(club de Hockey)
Peut-on identifier cette similarité ?
Voici quatre (courts) documents,
Document 1 : “Maillots des boxers de Bordeaux”
Document 2 : “Résultats des boxers de Bordeaux”
Document 3 : “Maillots des Albatros de Brest”
Document 4 : “Résultats des Albatros de Brest”
Essayons avec l’approche en « sac de mots »
Si on utilise des vecteurs d’occurrence
On peut identifier ce que l’on appelle la « topical similarity » (similarité thématique)
1 1 0 0Bordeaux
Document 1 Document 3
Document 2 Document 4
1 1 0 0Boxers
0 0 1 1Brest
0 0 1 1Albatros
similaire
similaire
Si on utilise des vecteurs de contexte
Similarité par type
0 2 0 0 0 1 0 1Bordeaux
(Bordeaux, -1) (Brest, -1)
(Boxers, +1) (Albatros, +1)
(Maillots, + 1)
(Maillots, + 2)
(Résultats, +1)
(Résultats, +2)
2 0 0 0 1 0 1 0Boxers
0 0 0 2 0 1 0 1Brest
0 0 2 0 1 0 1 0Albatros
similaire
similaire
Trouver les analogies entre les mots
homme -> femme, roi -> ___ ?
Orange -> fruit, carotte -> _____?
Chine -> Pékin, Russie -> _____?
Il s’avère que les vecteurs de contexte que nous venons de décrire sont de bons outils
pour découvrir ces différents type d’analogies, car il suffit de faire des operations sur les
vecteurs pour trouver les coordonnées du terme recherché :
[roi] – [homme] + [femme] ≈ [reine]
La méthode en action
23
Les « directions » indiquent des types d’analogies
24
Cette direction signifie
toujours le genre
La preuve par l’exemple Chaque direction code
des analogies différentes
Les “Embeddings” -> le “plongement”
Les vecteurs que nous manipulons sont caractérisés
par :
• Un grand nombre de dimensions
• Et beaucoup de zéros comme coordonnées.
Il y’a des techniques qui permettent de trouver des
vecteurs plus denses (moins de zéros) représentant
des coordonnées dans des espaces à moins de
dimensions.
Cette méthode s’appelle un “plongement”
(embedding) et dans notre contexte on appelle cela
des “word embeddings”
Objectif : réduire les dimensions
Comment obtenir les nouveaux vecteurs ?
Factoriser la matrice des vecteurs de contexte
LDA (Word-Document),
GloVe (Word-NeighboringWord)
L’approche de Google :
Les réseaux de neurones
Word2vec (Word-NeighboringWord)
Context1
Context
1
…. Contextk
Word1
Word2
⁞
Wordn
• Deerwester, Dumais, Landauer, Furnas, and Harshman, Indexing by latent semantic
analysis, JASIS, 1990.
• Pennington, Socher, and Manning, GloVe: Global Vectors for Word Representation,
EMNLP, 2014.
• Mikolov, Sutskever, Chen, Corrado, and Dean, Distributed representations of words
and phrases and their compositionality, NIPS, 2013.
La réduction de dimensions à l’aide d’un réseau de neurones
Un exemple : Analyse en Composantes Principales avec passage de 4D en 2D
27
L’intelligence artificielle n’est pas donc pas
forcément là où beaucoup le pensaient
C’est l’utilisation d’un réseau de
neurones pour le « plongement » dans
un espace à peu de dimensions qui est
la vraie contribution de l’IA à la méthode
Ce n’est même pas du « deep learning »,
il n’y a que deux couches de neurones !
28
Les applications
29
Les “Word embeddings” dans un moteur de
recherche
L’approche traditionnelle se base sur la
correspondence de termes :
→ en clair, on compte le nombre de fois où
un document contient le terme
Albuquerque
On peut utiliser les “word embeddings” pour
comparer par paires les termes de la
requête et ceux du document,
→ on compte le nombre de termes en
rapport avec Albuquerque dans le
document
Un passage à propos d’Albuquerque
Un passage qui ne parle pas vraiment d’Albuquerque
Les word embeddings et les expansions de
requêtes
Ressemble à l’implémentation… de
Google avec Rankbrain non ?
Trouver les termes analogues à chercher pour améliorer la précision et le rappel
31
Application à la traduction
Les termes analogues ont des coordonnées proches dans les différentes langues
32
On peut aussi appliquer cela à des catalogues marchands
Un article + le terme « enceinte » donne les
coordonnées d’autres articles
33
Trouver une info par ses coordonnées dans un
espace “sémantique” virtuel
Pour en savoir plus
Word2vec
Word2vec trained on queries
GloVe
DSSM
Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Les word embeddings et le
SEO
36
Peut-on optimiser son site pour Rankbrain ?
Mais en pratique, oui on peut essayer
Des outils comme les word embeddings
améliorent la capacité du moteur à identifier
les pages les plus pertinentes.
A terme, optimiser pour des mots clés
particuliers deviendra moins utile.
La méthode a ses limites qu’il faut comprendre
pour ne pas être maltraité par l’algo
Certaines bonnes pratiques sont à inventer :
par ex. les pages jugées les plus « proches »
d’un thème donné ne doivent plus être
parasitées par des contextes allogènes
Le ROI de ce travail peut ne pas être très
favorable
En principe, cela n’a pas de sens
37
Peut-on utiliser les word embeddings pour le
Search ?
Oui
Nouveaux outils de suggestions de mots
clés, se basant sur des notions de
« relatedness » et des analogies
Outils de recommandation ou de
suggestions avancés, améliorant le maillage
en se basant sur la parenté sémantique
Identifier des mots clés intéressants longue
traine pour le SEA sans avoir à construire
des modèles de langue
38
Peut-on utiliser les word embeddings sur son site ?
Amélioration du moteur de recherche
interne et de la recherche dans le
catalogue
Nouveaux outils de suggestions et de
recommandations
Nouveaux outils de classification
Par
Certainement !
Conclusion
Ce n’est que le début des
applications dans les moteurs de
recherche.
Le Rankbrain de 2015 sera-t’il le même
en 2018 -> vers tjrs plus d’IA ?
C’est un domaine de recherche
encore récent
Les applications seront nombreuses, y
compris dans votre vie quotidienne
NLP
Assistants numériques, bots
Et oui, vous pouvez aussi l’utiliser
pour améliorer vos services web !
Oui les word embeddings pourraient être embarqués dans Rankbrain !
Manipulation de vecteurs de contextes à l’aide de TensorFlow
Google a inventé des puces spéciales plus efficientes pour faire des calculs avec Tensorflow
Merci !
41
Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Des questions ?
42
La question qui peut vous rapporter 1 Mug
Quel est l’autre nom de l’hypercube ?
43
Contact
Philippe Yonnet, DG et fondateur
philippe.yonnet@search-foresight.com
+ 33 1 74 18 29 40 / + 33 6 99 60 21 49
Slideshare.net/S4sight
@S4sight & @Cariboo_seo
www.search-foresight.com
44

Contenu connexe

Tendances

Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Philippe YONNET
 
Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)
DOUCET Raphael
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Olivier Andrieu
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
Philippe YONNET
 
Réussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect FranceRéussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect France
iProspect France
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
Philippe YONNET
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secrets
Aymeric Bouillat
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
Aymeric Bouillat
 
Analyser mes donnees_google_analytics
Analyser mes donnees_google_analyticsAnalyser mes donnees_google_analytics
Analyser mes donnees_google_analytics
Concept Image
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
Philippe YONNET
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
Aymeric Bouillat
 
Stratégie SEO en 2015 -
Stratégie SEO en 2015 - Stratégie SEO en 2015 -
Stratégie SEO en 2015 -
Philippe YONNET
 
Actualité du SEO
Actualité du SEOActualité du SEO
Actualité du SEO
Philippe YONNET
 
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Peak Ace
 
Bien utiliser les Search Consoles - Seocampus 2016
Bien utiliser les  Search Consoles - Seocampus 2016Bien utiliser les  Search Consoles - Seocampus 2016
Bien utiliser les Search Consoles - Seocampus 2016
Sébastien Bulté (meuhsli)
 
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEOATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
Laurent P. PRO
 
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
Peak Ace
 

Tendances (17)

Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
 
Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Réussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect FranceRéussir son SEO à l’international - iProspect France
Réussir son SEO à l’international - iProspect France
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secrets
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
 
Analyser mes donnees_google_analytics
Analyser mes donnees_google_analyticsAnalyser mes donnees_google_analytics
Analyser mes donnees_google_analytics
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
 
Stratégie SEO en 2015 -
Stratégie SEO en 2015 - Stratégie SEO en 2015 -
Stratégie SEO en 2015 -
 
Actualité du SEO
Actualité du SEOActualité du SEO
Actualité du SEO
 
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
Webconférence du 8 mars 2018 - Comment obtenir et exploiter la positions 0 de...
 
Bien utiliser les Search Consoles - Seocampus 2016
Bien utiliser les  Search Consoles - Seocampus 2016Bien utiliser les  Search Consoles - Seocampus 2016
Bien utiliser les Search Consoles - Seocampus 2016
 
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEOATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
 
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
Contenu et SEO : quelles tendances pour 2019 ? - Julien Callaou - petit déjeu...
 

En vedette

Le content Marketing : chainon manquant entre SXO et SEO - Digimood
Le content Marketing : chainon manquant entre SXO et SEO - DigimoodLe content Marketing : chainon manquant entre SXO et SEO - Digimood
Le content Marketing : chainon manquant entre SXO et SEO - Digimood
Digimood - Agence SEO / SEA
 
E-commerce et référencement : comment disposer d’un site en tête de liste sur...
E-commerce et référencement : comment disposer d’un site en tête de liste sur...E-commerce et référencement : comment disposer d’un site en tête de liste sur...
E-commerce et référencement : comment disposer d’un site en tête de liste sur...
Keeg-seo
 
10 erreurs fréquentes sur Google Analytics
10 erreurs fréquentes sur Google Analytics10 erreurs fréquentes sur Google Analytics
10 erreurs fréquentes sur Google Analytics
Woptimo
 
Éduquons Google – c’est un enfant en soif de connaissances
 Éduquons Google – c’est un enfant en soif de connaissances Éduquons Google – c’est un enfant en soif de connaissances
Éduquons Google – c’est un enfant en soif de connaissances
Jason Barnard
 
Seocamp Lyon 2017
Seocamp Lyon 2017Seocamp Lyon 2017
Seocamp Lyon 2017
Julien Gadanho
 
Catastrophe SEO : comment réagir
Catastrophe SEO : comment réagirCatastrophe SEO : comment réagir
Catastrophe SEO : comment réagir
Laurent Peyrat
 
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Reputation VIP
 

En vedette (7)

Le content Marketing : chainon manquant entre SXO et SEO - Digimood
Le content Marketing : chainon manquant entre SXO et SEO - DigimoodLe content Marketing : chainon manquant entre SXO et SEO - Digimood
Le content Marketing : chainon manquant entre SXO et SEO - Digimood
 
E-commerce et référencement : comment disposer d’un site en tête de liste sur...
E-commerce et référencement : comment disposer d’un site en tête de liste sur...E-commerce et référencement : comment disposer d’un site en tête de liste sur...
E-commerce et référencement : comment disposer d’un site en tête de liste sur...
 
10 erreurs fréquentes sur Google Analytics
10 erreurs fréquentes sur Google Analytics10 erreurs fréquentes sur Google Analytics
10 erreurs fréquentes sur Google Analytics
 
Éduquons Google – c’est un enfant en soif de connaissances
 Éduquons Google – c’est un enfant en soif de connaissances Éduquons Google – c’est un enfant en soif de connaissances
Éduquons Google – c’est un enfant en soif de connaissances
 
Seocamp Lyon 2017
Seocamp Lyon 2017Seocamp Lyon 2017
Seocamp Lyon 2017
 
Catastrophe SEO : comment réagir
Catastrophe SEO : comment réagirCatastrophe SEO : comment réagir
Catastrophe SEO : comment réagir
 
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
 

Similaire à Search Foresight - Word Embeddings - 2017 avril lyon

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO
Exploiter les données d'outils avancés pour optimiser ses textes pour le SEOExploiter les données d'outils avancés pour optimiser ses textes pour le SEO
Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO
Peak Ace
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
Y. Nicolas
 
En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielle
Peak Ace
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
Y. Nicolas
 
Méthodologie et astuces de recherche sur Internet par Victorine Porte
Méthodologie et astuces de recherche sur Internet par Victorine PorteMéthodologie et astuces de recherche sur Internet par Victorine Porte
Méthodologie et astuces de recherche sur Internet par Victorine Porte
vporte
 
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Search Foresight
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
Gautier Poupeau
 
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquéeGoogle Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Woptimo
 
Les technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEOLes technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEO
SEO Camp Association
 
Concepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSSConcepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSS
Desjardins
 
Deck 11
Deck 11Deck 11
Deck 11
raphael0202
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
Philippe YONNET
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
Stéphane Traumat
 
Coopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les OntologiesCoopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les Ontologies
Raji Ghawi
 
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
Peak Ace
 
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
Jean Rohmer
 
Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...
Olivier Andrieu
 

Similaire à Search Foresight - Word Embeddings - 2017 avril lyon (20)

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO
Exploiter les données d'outils avancés pour optimiser ses textes pour le SEOExploiter les données d'outils avancés pour optimiser ses textes pour le SEO
Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielle
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Méthodologie et astuces de recherche sur Internet par Victorine Porte
Méthodologie et astuces de recherche sur Internet par Victorine PorteMéthodologie et astuces de recherche sur Internet par Victorine Porte
Méthodologie et astuces de recherche sur Internet par Victorine Porte
 
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquéeGoogle Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
 
Les technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEOLes technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEO
 
Soutenance.final
Soutenance.finalSoutenance.final
Soutenance.final
 
8.mcd
8.mcd8.mcd
8.mcd
 
Concepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSSConcepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSS
 
Deck 11
Deck 11Deck 11
Deck 11
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
 
Coopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les OntologiesCoopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les Ontologies
 
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
Petit déjeuner du 29 mars - Quel contenu créer pour un Google transformé en m...
 
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
Expériences de gestion des connaissances avec IDELIANCE: supprimons le document!
 
Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...
 

Plus de Philippe YONNET

Requetes ecommerce - les différences US vs Europe.pptx
Requetes ecommerce - les différences US vs Europe.pptxRequetes ecommerce - les différences US vs Europe.pptx
Requetes ecommerce - les différences US vs Europe.pptx
Philippe YONNET
 
Google - les nouvelles regles du jeu.pptx
Google - les nouvelles regles du jeu.pptxGoogle - les nouvelles regles du jeu.pptx
Google - les nouvelles regles du jeu.pptx
Philippe YONNET
 
Actu du SEO - Matin Népérien Lille - Agence Neper
Actu du SEO - Matin Népérien Lille - Agence NeperActu du SEO - Matin Népérien Lille - Agence Neper
Actu du SEO - Matin Népérien Lille - Agence Neper
Philippe YONNET
 
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
Philippe YONNET
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
Philippe YONNET
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
Philippe YONNET
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
Philippe YONNET
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
Philippe YONNET
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
Philippe YONNET
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
Philippe YONNET
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
Philippe YONNET
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Philippe YONNET
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
Philippe YONNET
 
Inbound Marketing et Growth Hacking
Inbound Marketing et Growth HackingInbound Marketing et Growth Hacking
Inbound Marketing et Growth Hacking
Philippe YONNET
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
Philippe YONNET
 

Plus de Philippe YONNET (15)

Requetes ecommerce - les différences US vs Europe.pptx
Requetes ecommerce - les différences US vs Europe.pptxRequetes ecommerce - les différences US vs Europe.pptx
Requetes ecommerce - les différences US vs Europe.pptx
 
Google - les nouvelles regles du jeu.pptx
Google - les nouvelles regles du jeu.pptxGoogle - les nouvelles regles du jeu.pptx
Google - les nouvelles regles du jeu.pptx
 
Actu du SEO - Matin Népérien Lille - Agence Neper
Actu du SEO - Matin Népérien Lille - Agence NeperActu du SEO - Matin Népérien Lille - Agence Neper
Actu du SEO - Matin Népérien Lille - Agence Neper
 
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Inbound Marketing et Growth Hacking
Inbound Marketing et Growth HackingInbound Marketing et Growth Hacking
Inbound Marketing et Growth Hacking
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 

Search Foresight - Word Embeddings - 2017 avril lyon

  • 1. La révolution des Word Embeddings Philippe Yonnet Lyon – 21 avril 2017
  • 2. Philippe Yonnet DG et fondateur – Search Foresight 2
  • 3. Présentation de l’agence Search Foresight Introduction Pourquoi les Word Embeddings ont un rapport avec cette nouvelle fonctionnalité de l’algo ? Rankbrain ? De Salton aux word embeddings Les principes Les word embeddings commencent à s’immiscer dans de nombreux domaines des NLP Les applications Quelle evolution attendre dans les OR ? Comment utiliser les word embeddings pour optimiser les sites Quel impact pour le SEO ? . 1 2 3 4 5 Plan de l’intervention 35 mn de presentation, 10 mn de Q&A
  • 4. Les word embeddings sont ils la vraie technologie d’IA derrière Rankbrain ? 4
  • 5. Rankbrain : de l’IA dans l’algo de Google En place depuis le début de l’année 2015 Notons que personne n’a vu la différence Utilise, d’après Greg Cerrado, des technologies d’IA Très peu d’infos lâchées La machine à fantasmes s’est mise en route, et tout le monde a vu de l’IA partout https://www.bloomberg.com/news/articles/2015-10-26/google- turning-its-lucrative-web-search-over-to-ai-machines Annoncé le 26 oct 2015 dans un article de Bloomberg
  • 6. Rankbrain : l’algo de tous les fantasmes Un florilège des erreurs d’interprétation Non, Rankbrain n’est pas un grand programme de machine learning qui remplace l’algo Non Rankbrain n’est pas le 3e critère le plus important de l’algo Non, Rankbrain n’apprend pas les bonnes réponses à donner en fonction de l’analyse des CTR On en trouve aussi dans l’espace francophone, mais tout le monde a le droit de dire des bêtises sur des sujets qu’on ne maîtrise pas On voit de l’IA partout 6 “RankBrain is essentially Google’s almost-sentient AI algorithm factor that constantly trudges through the Internet, looking for information sources that can answer questions that have never been asked before. Others have deemed the mysterious technology a machine-learning, knowledge-compiling, results- providing robot.” “Google may use RankBrain to impact selection of featured snippet results, trigger the delivery of a map where there wasn’t one shown before, and/or determine if the main impact of a given query would be an improved search results snippet”.
  • 7. La vision de Rand Rankbrain permet à Google de déterminer quels signaux prioriser en fonction des requêtes… Euh… d’où cela sort ? Où sont les preuves ? Rankbrain = machine learning à la Yandex 7
  • 8. La description de l’article de Bloomberg Les mots clés : Vecteurs Embed (pas compris par le journaliste mais bon) Similar Meaning Pour les initiés c’est une évidence 8 RankBrain uses artificial intelligence to embed vast amounts of written language into mathematical entities - - called vectors -- that the computer can understand. If RankBrain sees a word or phrase it isn’t familiar with, the machine can make a guess as to what words or phrases might have a similar meaning and filter the result accordingly, making it more effective at handling never-before-seen search queries.
  • 9. Un exemple de requête traité par Rankbrain Donné par Greg Cerrado 9 Quel est le nom donné au consommateur situé au somment de la chaine alimentaire ? « title » est ambigu « consumer » est ambigu
  • 10. Un exemple de requête traité par Rankbrain Donné par Greg Cerrado 10 La réponse est … Predator Ou Apex predator (Superprédateur)
  • 12. Les espaces vectoriels Application basique : « Numériser » la géométrie Identifier la position d’un point dans l’espace en fonction de ses coordonnées cartésiennes Un outil mathématique particulièrement utile et commode
  • 13. Et les ordinateurs adorent cela ! Calcul de la distance angulaire entre deux vecteurs Les processeurs permettent de faire de multiples calculs sur les vecteurs 13
  • 14. Et même en utilisant plusieurs vecteurs de coordonnées à la fois 14 Calcul sur les matrices Ici une multiplication entre une matrice contenant la description sur les mouvements de translation et de rotation d’un objet. Conclusion : les modèles reposant sur des coordonnées dans un espace vectoriel sont faciles à exploiter à l’aide de programmes informatiques
  • 15. Application à la linguistique et aux OR L’idée est de « compter » les mots pour calculer leur importance dans un texte (mesure de la « fréquence ») Un poids du terme est calculé pour chaque terme dans un document Cela fournit des coordonnées dans un espace « virtuel » qui a autant de dimensions que de termes dans le « dictionnaire » (d’entrées dans l’index) On peut ensuite calculer des coordonnées pour des termes, ou plus utile pour un moteur de recherche, à des documents Cosinus de Salton, très utilisé dans de nombreux outils de recherche : Altavista, Lucène SolR… Google ? L’approche de Gérard Salton 15 Banane Orange
  • 16. Les différentes approches utilisant un modèle vectoriel Mesurer la fréquence d’occurrence dans le document 0 1 0 1 0 0 2 0 1 0 1 0banane Doc7 Doc9Doc2 Doc4 Doc11 Méthode de Salton « naïve » Remarque : on ne tient pas compte du tout de l’ordre des mots, de leur sens, de la grammaire
  • 17. Les différentes approches utilisant un modèle vectoriel On peut stocker également les distances entre les termes. On obtient un double vecteur (occurrence + contexte) e.g., “Les bananes plantain poussent dans des bananiers en afrique” On peut essayer de tenir compte du contexte 0 1 0 1 0 0 2 0 1 0 1 0banane (poussent,+2)(bananiers, +5)(plantain, +1) (dans, +3) (africa, +7) Le problème : on voudrait avoir une solution pour comprendre une similarité qui provient du sens des termes
  • 18. Pourtant, il existe des niveaux de parenté sémantiques Comparer deux vecteurs en utilisant la Similarité Cosinus permet d’évaluer quelle est leur similarité textuelle. Mais est-ce pertinent ? Dans certains cas, la “proximité” entre deux documents vient de leur sens OuParis est similaire à Berlin Ce sont des villes. Bordeaux est similaire à Boxers ? Il y’a les “Boxers de Bordeaux” (club de Hockey)
  • 19. Peut-on identifier cette similarité ? Voici quatre (courts) documents, Document 1 : “Maillots des boxers de Bordeaux” Document 2 : “Résultats des boxers de Bordeaux” Document 3 : “Maillots des Albatros de Brest” Document 4 : “Résultats des Albatros de Brest” Essayons avec l’approche en « sac de mots »
  • 20. Si on utilise des vecteurs d’occurrence On peut identifier ce que l’on appelle la « topical similarity » (similarité thématique) 1 1 0 0Bordeaux Document 1 Document 3 Document 2 Document 4 1 1 0 0Boxers 0 0 1 1Brest 0 0 1 1Albatros similaire similaire
  • 21. Si on utilise des vecteurs de contexte Similarité par type 0 2 0 0 0 1 0 1Bordeaux (Bordeaux, -1) (Brest, -1) (Boxers, +1) (Albatros, +1) (Maillots, + 1) (Maillots, + 2) (Résultats, +1) (Résultats, +2) 2 0 0 0 1 0 1 0Boxers 0 0 0 2 0 1 0 1Brest 0 0 2 0 1 0 1 0Albatros similaire similaire
  • 22. Trouver les analogies entre les mots homme -> femme, roi -> ___ ? Orange -> fruit, carotte -> _____? Chine -> Pékin, Russie -> _____? Il s’avère que les vecteurs de contexte que nous venons de décrire sont de bons outils pour découvrir ces différents type d’analogies, car il suffit de faire des operations sur les vecteurs pour trouver les coordonnées du terme recherché : [roi] – [homme] + [femme] ≈ [reine]
  • 23. La méthode en action 23
  • 24. Les « directions » indiquent des types d’analogies 24 Cette direction signifie toujours le genre La preuve par l’exemple Chaque direction code des analogies différentes
  • 25. Les “Embeddings” -> le “plongement” Les vecteurs que nous manipulons sont caractérisés par : • Un grand nombre de dimensions • Et beaucoup de zéros comme coordonnées. Il y’a des techniques qui permettent de trouver des vecteurs plus denses (moins de zéros) représentant des coordonnées dans des espaces à moins de dimensions. Cette méthode s’appelle un “plongement” (embedding) et dans notre contexte on appelle cela des “word embeddings” Objectif : réduire les dimensions
  • 26. Comment obtenir les nouveaux vecteurs ? Factoriser la matrice des vecteurs de contexte LDA (Word-Document), GloVe (Word-NeighboringWord) L’approche de Google : Les réseaux de neurones Word2vec (Word-NeighboringWord) Context1 Context 1 …. Contextk Word1 Word2 ⁞ Wordn • Deerwester, Dumais, Landauer, Furnas, and Harshman, Indexing by latent semantic analysis, JASIS, 1990. • Pennington, Socher, and Manning, GloVe: Global Vectors for Word Representation, EMNLP, 2014. • Mikolov, Sutskever, Chen, Corrado, and Dean, Distributed representations of words and phrases and their compositionality, NIPS, 2013.
  • 27. La réduction de dimensions à l’aide d’un réseau de neurones Un exemple : Analyse en Composantes Principales avec passage de 4D en 2D 27
  • 28. L’intelligence artificielle n’est pas donc pas forcément là où beaucoup le pensaient C’est l’utilisation d’un réseau de neurones pour le « plongement » dans un espace à peu de dimensions qui est la vraie contribution de l’IA à la méthode Ce n’est même pas du « deep learning », il n’y a que deux couches de neurones ! 28
  • 30. Les “Word embeddings” dans un moteur de recherche L’approche traditionnelle se base sur la correspondence de termes : → en clair, on compte le nombre de fois où un document contient le terme Albuquerque On peut utiliser les “word embeddings” pour comparer par paires les termes de la requête et ceux du document, → on compte le nombre de termes en rapport avec Albuquerque dans le document Un passage à propos d’Albuquerque Un passage qui ne parle pas vraiment d’Albuquerque
  • 31. Les word embeddings et les expansions de requêtes Ressemble à l’implémentation… de Google avec Rankbrain non ? Trouver les termes analogues à chercher pour améliorer la précision et le rappel 31
  • 32. Application à la traduction Les termes analogues ont des coordonnées proches dans les différentes langues 32
  • 33. On peut aussi appliquer cela à des catalogues marchands Un article + le terme « enceinte » donne les coordonnées d’autres articles 33
  • 34. Trouver une info par ses coordonnées dans un espace “sémantique” virtuel
  • 35. Pour en savoir plus Word2vec Word2vec trained on queries GloVe DSSM
  • 36. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics Les word embeddings et le SEO 36
  • 37. Peut-on optimiser son site pour Rankbrain ? Mais en pratique, oui on peut essayer Des outils comme les word embeddings améliorent la capacité du moteur à identifier les pages les plus pertinentes. A terme, optimiser pour des mots clés particuliers deviendra moins utile. La méthode a ses limites qu’il faut comprendre pour ne pas être maltraité par l’algo Certaines bonnes pratiques sont à inventer : par ex. les pages jugées les plus « proches » d’un thème donné ne doivent plus être parasitées par des contextes allogènes Le ROI de ce travail peut ne pas être très favorable En principe, cela n’a pas de sens 37
  • 38. Peut-on utiliser les word embeddings pour le Search ? Oui Nouveaux outils de suggestions de mots clés, se basant sur des notions de « relatedness » et des analogies Outils de recommandation ou de suggestions avancés, améliorant le maillage en se basant sur la parenté sémantique Identifier des mots clés intéressants longue traine pour le SEA sans avoir à construire des modèles de langue 38
  • 39. Peut-on utiliser les word embeddings sur son site ? Amélioration du moteur de recherche interne et de la recherche dans le catalogue Nouveaux outils de suggestions et de recommandations Nouveaux outils de classification Par Certainement !
  • 40. Conclusion Ce n’est que le début des applications dans les moteurs de recherche. Le Rankbrain de 2015 sera-t’il le même en 2018 -> vers tjrs plus d’IA ? C’est un domaine de recherche encore récent Les applications seront nombreuses, y compris dans votre vie quotidienne NLP Assistants numériques, bots Et oui, vous pouvez aussi l’utiliser pour améliorer vos services web ! Oui les word embeddings pourraient être embarqués dans Rankbrain ! Manipulation de vecteurs de contextes à l’aide de TensorFlow Google a inventé des puces spéciales plus efficientes pour faire des calculs avec Tensorflow
  • 42. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics Des questions ? 42
  • 43. La question qui peut vous rapporter 1 Mug Quel est l’autre nom de l’hypercube ? 43
  • 44. Contact Philippe Yonnet, DG et fondateur philippe.yonnet@search-foresight.com + 33 1 74 18 29 40 / + 33 6 99 60 21 49 Slideshare.net/S4sight @S4sight & @Cariboo_seo www.search-foresight.com 44