LLMs et SEO - Cas d'usage avec Screaming Frog.pptx

Utiliser les LLMs pour faire
des chantiers SEO
Matin Népérien – 4 décembre 2025
Philippe Yonnet – CEO de l’agence Neper

Au programme de cette conférence
 Les embeddings, qu’est ce que c’est ?
 L’algorithme de Google utilise cela depuis … dix ans
 Comment se servir des LLMs (et notamment des API embeddings de
Google) pour certains sujets SEO
 Et comment utiliser un outil que beaucoup de SEO possèdent :
Screaming Frog, pour faire du SEO avancé

Les embeddings
Un concept central dans les LLMs modernes

Du sac de mots aux LLMs
Quatre paradigmes, cinquante ans d'évolution
1970s 2013 2017 2018+
Bag of Words
Salton, TF-IDF
Compter les occurrences des mots
dans un document. Chaque terme =
une dimension.
✗ Pas de sens
✗ Pas d'ordre
Word Embeddings
Word2Vec, GloVe
Apprendre un vecteur dense par mot
à partir du contexte d'usage dans de
grands corpus.
✓ Similarité sémantique
✗ 1 vecteur fixe/mot
Transformers
Attention is All You Need
Chaque mot consulte tous les autres
pour calculer sa représentation
contextuelle.
✓ Contexte complet
✓ Polysémie gérée
LLMs
BERT, GPT, Claude
Transformers pré-entraînés sur des
milliards de tokens, puis affinés pour
des tâches.
✓ Compréhension
✓ Génération

Comparatif des représentations
Bag of Words Word Embeddings Transformers LLMs actuels
Type de vecteur
Sparse (creux)
~50 000 dim
Dense (plein)
100-300 dim
Dense contextuel
768-1024 dim
Dense contextuel
4096+ dim
Sémantique ✗ Aucune ✓ Similarité apprise ✓ Contextuelle ✓ Profonde
Polysémie ✗ Non gérée ✗ 1 vecteur/mot ✓ Vecteur adaptatif ✓ Vecteur adaptatif
Prise en compte du
contexte
✗ Aucune ~ Fenêtre locale ✓ Séquence entière ✓ 100K+ tokens
Capacités Recherche par mots-clés Similarité sémantique, analogies Classification, NER, Q&A
Génération, raisonnement, agents

Application à la linguistique et aux OR
 L’idée est de « compter » les mots
pour calculer leur importance dans
un texte (mesure de la « fréquence »)
 Un poids du terme est calculé pour chaque terme
dans un document
 Cela fournit des coordonnées dans un espace
« virtuel » qui a autant de dimensions que de termes
dans le « dictionnaire » (d’entrées dans l’index)
 On peut ensuite calculer des coordonnées pour des
termes, ou plus utile pour un moteur de recherche,
à des documents
Cosinus de Salton, très utilisé dans de
nombreux outils de recherche : Altavista,
Lucène SolR… Google ?
L’approche de Gérard Salton
7
Banane
Orange
Les limites fondamentales
✗ Vecteurs sparse : 50 000 dimensions, 99% de zéros
✗ Aucune sémantique : "voiture" et "automobile" aussi éloignés que "voiture" et "photosynthèse"
✗ Perte de l'ordre : "le chat mange la souris" = "la souris mange le chat"

Les “Embeddings” -> le “plongement”
Les vecteurs que nous manipulons sont
caractérisés par :
• Un grand nombre de dimensions
• Et beaucoup de zéros comme coordonnées.
Il y’a des techniques qui permettent de trouver
des vecteurs plus denses (moins de zéros)
représentant des coordonnées dans des espaces
à moins de dimensions.
Cette méthode s’appelle un “plongement”
(embedding) et dans notre contexte on appelle
cela des “word embeddings”
Objectif : réduire les dimensions

Le saut conceptuel : les word embeddings
9
 L'hypothèse distributionnelle de
Firth (1957) : "You shall know a
word by the company it keeps.“
 Tenir compte des mots qui entourent
un terme pour en identifier le “sens”
 Les vecteurs calculés contiennent des
coordonnées dans un espace
sémantique
 Ces coordonnées sont « apprises » via
un réseau neuronal
 Les dimensions initiales sont réduites
(plongement) pour rendre le modèle
compact
 Vecteurs denses, pas de zero ou presque

Les « directions » indiquent des types d’analogies
 Cette direction signifie toujours le genre
10
La preuve par
l’exemple
Chaque direction code
des analogies
différentes

Les « embeddings » à base de
transformers
 Un vecteur par « sens » !
(chat/chat, apple/Apple,
hôte/hôte, Ice Cube /ice
cube)
 BERT
 LLMs « modernes » : GPT,
Gemini, Claude…
« De l’attention, c’est tout ce dont vous avez besoin »

La place des embeddings
dans l’algorithme actuel de
Google

La présence de fonctionnalités IA dans l’algorithme a
été confirmée par les « Justice Leaks »

Rankbrain (2015)
 Meilleure compréhension du sens
 Identification des termes synonymes
 Expansion de requête
Première intégration des word embeddings dans l’algorithme

RankEmbed BERT
 Intégré en 2019
Intégration des LLMs à base de transformers dans l’algorithme

Deeprank (2019)
Intégration poussée des LLMs dans l’algorithme

MUVERA (publié en juin 2025)
 Permet, en passant par des vecteurs simplifiés (les FDE) d’accélérer les
calculs de similarité.
 Normalement, on doit utiliser la méthode de Chamfer pour avoir de bons résultats, et
pas la similarité Cosinus
 MUVERA permet à Google de revenir à la similarité cosinus
A l’œuvre dans les AI Overviews et le mode IA

Exploiter les embeddings
pour des usages SEO

Les apports des embeddings pour le SEO
 Clustering : analyser la pertinence d’un rubriquage
 Mappage entre mot clé et pages d’un gros site
 Quelle page de votre site est la plus proche sémantiquement d’une expression clé
 Approche plus « 2025/26 » : quelle page est la meilleure réponse à un questionnement d’un internaute ?
 Résultat en creux : si la distance angulaire est grande, il vous manque une page d’atterrissage (une réponse)
 Maillage interne automatique basé sur la sémantique
 Ajouter des liens vers les pages proches sémantiquement, même si elles sont dans d’autres rubriques
 Assistance dans la migration de gros sites
 Mapper les contenus des anciennes urls avec les nouvelles, même si les urls ont changé, même si du contenu a été créé, supprimé,
fusionné, éclaté
 Détection de cannibalisation
 Analyse du contenu
 Quels contenus sont « hors sujets »
Des approches anciennes revampée avec un outil moderne !

Utiliser Screaming Frog pour ces usages avancés

Avertissement
 La méthode proposée par Screaming Frog utilise la similarité cosinus :
c’est une approximation de la similarité sémantique
 Cela marche car nos besoins quotidiens sont basiques : on a juste
besoin d’un outil moins ignorant du sens que les modèles « en sac de
mots »

Première étape : se connecter à un fournisseur
d’embeddings
 Les fournisseurs possibles
 OpenAI : pas cher mais bof
 Anthropic : super mais cher
 Remarque : Anthropic vient de baisser
ses prix tout récemment
 Ollama : je déconseille pour ces
utilisations
 Google Gemini : meilleur rapport
qualité prix
 Pour chaque fournisseur, il faut
créer un compte pour accéder à
l’API, et une clé API

2. Choisir le prompt adapté au projet
Ici : extraire les embeddings des pages

3. Connectez-vous à l’API Gemini

4. Sélectionnez « Store HTML » et Store Rendered
HTML dans les paramètres

5. Cochez la fonctionnalité embeddings dans les
paramètres de crawl

6. En mode HTML : ne crawler que les ressources
utiles accélère le crawl

7. Lancer l’analyse du crawl pour récupérer quelques
choses dans les champs « embeddings »

Plus les urls sont proches, plus on est près
de 1

Pour voir toutes les pages similaires
Cliquez sur l’onglet ad hoc indiquant les données associées aux urls

Le champ sur les pages « de faible
pertinence »

Comment s’en servir dans le cas d’une migration
 Même approche, mais on va crawler les anciennes urls et les nouvelles
en mode liste
 La liste contiendra les pages d’accueil
 Du site live
 Et du site de staging
 Il faut enlever la limite de profondeur par défaut (1) pour que les deux
sites soient crawlés normalement
 Ensuite, on procède à la recherche des pages sémantiquement proches
 Si deux urls dont l’une est live, et l’autre sur le site de staging ont des
scores de similarité proches de 1, alors c’est intéressant d’ajouter dans
le plan de redirection une 301 entre l’url live qui va disparaître et la
future url
 La méthode a ses limites, mais c’est mieux que de tout faire à la main
 Après cela reste une meilleure idée de créer une traçabilité entre ancien et futur site

Comment optimiser les résultats
 Crawler en mode HTML (SSR)
 Réduire les dimensions des embeddings à 256 (ça passe)
 Si vous avez des pages avec trop de contenu, limitez la taille du contenu
passé dans les prompts (il y’a un réglage pour cela)
Le crawl avec API est lent et peut demander trop de ressources sur un gros site

Comment améliorer la précision des embeddings
 Paramétrer les zones
de vos pages qui
contiennent le texte
utile à analyser
 Vous pouvez exclure
aussi les boilerplates
(header, footer, menus,
menus à gauche,
menus à droite…)

Conclusion
 Les embeddings sont déjà dans l’algorithme de Google
 Des LLMs sont à votre disposition pour des usages proches de ceux de
Google dans son algorithme
 Ces approches sont intégrées dans des outils de crawl comme
Screaming Frog
 Et c’est tout aussi moderne d’utiliser les embeddings pour des tâches de
SEO que de se lancer dans le GEO…

LLMs et SEO - Cas d'usage avec Screaming Frog.pptx

Contenu connexe

Similaire à LLMs et SEO - Cas d'usage avec Screaming Frog.pptx

Plus de Philippe YONNET

LLMs et SEO - Cas d'usage avec Screaming Frog.pptx