Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise

1
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Maitriser le RAG
Connecter les modèles d’IA génératives aux données de l’entreprise
Comptoir Octo
16/01/24

2
There
is
a
better
way
Nicolas Cavallo
Head of Generative AI
Intervenants OCTO
Dont plus de 900
consultant.e.s expert.e.s
Tou.te.s cultivant des expertises tech et
méthodo pour toujours trouver de meilleures
façons de résoudre vos problématiques
complexes.
1000
OCTOs

3
There
is
a
better
way
Sommaire
1. Le RAG ?
2. Le “bon” RAG ?
3. Construire son RAG
4. Retours d’expérience
5. Demain le RAG

4
There
is
a
better
way
Retrieval Augmented Generation
RAG
01

5
There
is
a
better
way
En une phrase
“Je peux discuter avec un agent conversationnel qui est à jour, comprend ma donnée
mon vocabulaire d’entreprise, qui peut interagir avec des données sensibles,
stratégiques”
Retrieval-Augmented Generation
…. On augmente les modèles de langages (LLMs)
…avec de la données qui peut être privée, à jour etc..

6
There
is
a
better
way
On en met partout

7
There
is
a
better
way

8
There
is
a
better
way
OpenAI en met dans ses GPTs

9
There
is
a
better
way
Quand Google Bard ajoute la fonctionnalité de répondre en se basant sur le contenu de vidéos youtube…
C’est du RAG !
Google aussi…
src img :
https://www.theverge.com/2023/11/22/23972636/bard-youtube-extension-update-search-video-content
…
transcriptions

10
There
is
a
better
way
Techniquement

11
There
is
a
better
way
Une réponse contextualisée
source:
https://blog.octo.com/le-chatbot-docto-langchain-rag-et-code-associe
ChatGPT3.5 sans RAG ChatGPT3.5 avec RAG
🥱

12
There
is
a
better
way
Fonctionnement
Base
Vecteur
Documents LLM embedding
Créer un embedding pour différentes parties
des documents
Ingestion
de l’existant
Formulation
d’une réponse
avec ses sources
Prompt Engineering
récupérer les passages les plus liés
Réponse
avec références
LLM Text
(Agent Conversationnel )
[0.08,0.92,.....,0.07]
[0.43,0.55,.....,0.13]
[0.73,0.15,.....,0.98]
Question
LLM embedding
Créer l’embedding de la
question
Recherche
des informations
utiles
[0.05,0.90,.....,0.54]

13
There
is
a
better
way
L’exemple pour l’assistant Octo
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
1.
C’est quoi le RAG ?
2.
Les passages des documents
importants donnant des informations
liées sont sélectionnés :
● l’article de Blog Construire son RAG (Retrieval
Augmented Generation) grâce à langchain: L’exemple de
l’Helpdesk d’OCTO
3.
On construit un “prompt” qui contient un
Rôle (tu es un assistant qui répond …à partir des références suivantes..)
Les Références utiles ( le contenu du document X )
La Question( à la question suivante…)

14
There
is
a
better
way
un bon RAG ?
02

15
There
is
a
better
way
Evaluation
RAG

16
There
is
a
better
way
QUALITÉ : Deux composants à étudier dans un RAG
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
RETRIEVER
GENERATION

17
There
is
a
better
way
Complexité d’évaluer la qualité des réponses
C’est quoi un RAG ?
Question
Construire son RAG (Retrieval
Augmented Generation) grâce à
langchain: L’exemple de l’Helpdesk
d’OCTO
Posté le 17/10/2023 par Florian Bastin, Nicolas
Cavallo
Un article qui parle de RAG
Sous le capot des bases de données
vectorielles
Posté le 14/12/2023 par Aurélien Massiot, Philippe
Stepniewski
Un article qui évoque le RAG
Le RAG, ou Retrieval Augmented Generation, est une
approche qui permet d'utiliser un agent
conversationnel pour répondre aux questions en
utilisant des données spéciﬁques. Il consiste en
plusieurs étapes, notamment la division du corpus de
textes en sous-parties, la transformation de ces
sous-parties en vecteurs numériques, le stockage de
ces vecteurs dans une base de données, et la
recherche des informations sémantiquement
proches de la question posée. L'objectif du RAG est
de personnaliser la réponse en utilisant les données
de l'utilisateur ou de l'entreprise.
Réponse 1
Le RAG (Retrieval Augmented Generation)
est une approche qui permet d'exploiter la
puissance d'un agent conversationnel en
utilisant nos propres données, en lien avec
les bases de données vectorielles.
Cependant, le contexte ne fournit pas de
déﬁnition précise du RAG
Réponse 2
RETRIEVER
deux documents différents peuvent
contenir une information suffisante
GENERATION
Deux réponses dont la formulation et
les mots sont totalement différents
peuvent contenir une bonne réponse.

18
There
is
a
better
way
Un domaine en pleine évolution
๏ Des méthodologies d’évaluation qui utilisent des LLMs 🤯
๏ Des “frameworks” qui emergent
Déﬁnir les bonnes métriques

19
There
is
a
better
way
Trulens The RAG - triad
https://github.com/truera/trulens
Framework : Trulens
ou Faithfulness (ﬁdélité)

20
There
is
a
better
way
Un score qui prend en compte les différents axes d’évaluation
Framework : Ragas
ragas : https://github.com/explodinggradients/ragas
GENERATION
Faithfulness
(ﬁdélité)
Answer relevancy
(Pertinence de la réponse)
RETRIEVER
Context precision
(Pertinence du context)
Context Recall
( Rappel du contexte)

21
There
is
a
better
way
Un score qui prend en compte les différents axes d’évaluation
Framework : Ragas
ragas : https://github.com/explodinggradients/ragas
GENERATION
๏ Faithfulness (fidélité) : mesure la précision de la réponse
générée par rapport au contexte fourni.
> Etape 1 : Pour le couple “question/ réponse générée”, nous
utilisons un LLM pour déterminer les affirmations que la
réponse générée fait.
> Etape 2 : Nous utilisons un LLM pour qualifier la liste des
affirmations (Etape 1). Pour chacune des affirmations nous
vérifions qu’elle est bien contenue dans le contexte fourni .
Le score est la division du nombre d'affirmations validées
par le nombre total d’affirmations de la réponse générée.
๏ Answer relevancy (Pertinence de la réponse) : Mesure la
pertinence de la réponse par rapport à la question.
> Nous utilisons un LLM pour déterminer une liste de questions probables
auxquelles la réponse générée serait une réponse. Nous calculons la
similarité de ces questions probable avec la réelle question.
RETRIEVER
๏ Context precision (Pertinence du context) : Mesure le poids des
informations utiles comparativement au bruit dans le contexte
récupéré.
> Nous utilisons un LLM pour déterminer les phrases du contexte récupéré
qui sont nécessaires pour répondre à la question. Le score est le ratio entre
le nombre de phrases requises et le total des phrases du contexte
récupéré.
๏ Context Recall ( Rappel du contexte) : Mesure la capacité du
“Retriever” à retrouver toutes les informations nécessaires pour
répondre à la question.
> Nous utilisons un LLM pour lister l’ensemble d’affirmations de la réponse
“ground truth” fournie. Le score est la division entre le nombre
d’affirmations contenues (d’après un LLM) dans le contexte récupéré et le
total d’affirmations de la réponse “ground truth”.

22
There
is
a
better
way
Toutes les évaluations sont fausses, mais certaines sont utiles.
Des évaluations à plusieurs niveaux,
dont l’importance dépend du cas
d’usage
Pas seulement la qualité…
QUALITÉ
GENERATION RETRIEVER
RESPONSABILITÉ
Impact Carbon
Biais Moderation
INFRASTRUCTURE
Latence
Cout inférence
SÉCURITÉ
Prompt injection Gestion des accès

23
There
is
a
better
way
OpenAI diffuse son retour d’expérience pour construire un RAG
“ … because with prompt engineering and RAG, it sounds like these things can be quite simple,
but they're really quite hard. It takes a lot of iterations and a lot of testing and learning to
actually make this happen for real.” OpenAI nov-2023 https://www.youtube.com/watch?v=ahnGLM-RC1Y
ÉVALUATION
TESTER, TESTER … TESTER
98 % d’accuracy
sans ﬁne tuning !

24
There
is
a
better
way
un RAG
ça peut être complexe
du RAG basique … au RAG avancé

25
There
is
a
better
way
Deux composants dans un RAG
Question
Réponse
avec références
RETRIEVER
GENERATION

26
There
is
a
better
way
Aller plus loin
sur le RETRIEVER

27
There
is
a
better
way
Build a search engine not a vector DB
Le Retriever ce n’est pas une base vecteur

28
There
is
a
better
way
Un “RETRIEVER” Avancé
Question
Réponse
avec références
RETRIEVER
PRE-RETRIEVER POST-RETRIEVER
GENERATION

29
There
is
a
better
way
Un “RETRIEVER” Avancé
src img : langchain blog
PRE-RETRIEVER RETRIEVER POST-RETRIEVER

30
There
is
a
better
way
Aller plus loin
sur la GENERATION

31
There
is
a
better
way
Une “GENERATION” Avancé
Question
Réponse
avec références
RETRIEVER
PRE-RETRIEVER POST-RETRIEVER
GENERATION

32
There
is
a
better
way
๏ Prompt Engineering : Modiﬁer/ Adapter le Rôle
๏ Adapter-modiﬁer le modèle LLM text :
> GPT3.5 <-> GPT4 <-> Mistral , etc..
> Utiliser des modèles alignés pour le RAG
๏ Ajouter des modèles - garde-fous :
> Modèle de modération
> Modèle de relecture
> Utiliser plusieurs modèles et analyser la cohérence entres les différentes réponses
> etc..
Une GÉNÉRATION avancée

33
There
is
a
better
way
jusqu’au
RAG modulaire

34
There
is
a
better
way
L’idée est de permettre de choisir les différents modules à activer en fonction des questions.
Modular RAG
src : Retrieval-Augmented Generation for Large Language Models: A
Survey arXiv:2312.10997

35
There
is
a
better
way
Construire son RAG
03

36
There
is
a
better
way
Commencer techniquement un projet RAG
EXPERIMENTATION
SIMPLE
AMÉLIORATION
● Fixer les pré-requis :
○ Données
○ Environnement technique
● Fixer la GÉNÉRATION
○ Déﬁnir le LLM text utilisable
● Fixer un RETRIEVER
○ base vecteur, LLM embedding
● Commencer avec un sous
périmètre.
● Déﬁnir un moyen d’
évaluer
● Créer le RAG simple et
tester quelques questions
● Prendre la totalité du
périmètre.
● Passer à un RAG avancé
(voire modulaire)
Un MVP en quelques semaines
Un cadrage technique
On a déjà validé la valeur potentiel du projet
DÉFINITION

37
There
is
a
better
way
Construire le projet RAG
Des dizaines de bases vecteur possibles (PostgreSQL, Elasticsearch,
chroma, etc..)
● Comparaison : Vector DB Feature Matrix :
https://docs.google.com/spreadsheets/d/170HErOyOkLDjQfy3TJ6a3XXXM1rHvw_779Sit-KT7uc/edit#gid=0
● Construire sa base vecteur Sous le capot des bases de données vectorielles
- OCTO Talks !
https://blog.octo.com/sous-le-capot-des-bases-de-donnees-vectorielles-(vector-databases)
Base vecteur
● API externe : OpenAI
embedding,
● Open Source :
HuggingFace Embedding
Models (Bert, etc..)
LLM embedding
…
LLM text
Pipeline RAG

38
There
is
a
better
way
Peut fonctionner dans un environnement privé
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
Des modèles “LLM embedding”
existent en Open Source et peuvent
tourner sur des machines sans GPU
On peut héberger une base vecteur
Open Source dans son
environnement privé
Un modèle LLM Text nécessite une puissance GPU
conséquente pour fonctionner correctement
● soit un appel à une API externe = faire
conﬁance dans le fournisseur du service
● soit hébergement dans mon environnement
privée avec carte graphique suffisante

39
There
is
a
better
way
Stable et fonctionnel Solutions émergentes ( mieux connectées
aux spéciﬁcités LLM-RAG)
Les outils de suivi d’un pipeline LLM

40
There
is
a
better
way
Cout ﬁnancier & Environnemental

41
There
is
a
better
way
Mesurer le coût !
Coût = LLM text : représente rapidement >99% du coût de RUN du projet RAG
FINANCIER :
๏ Coût principalement au nombre de tokens
๏ GPT-3.5-turbo est 30 fois moins cher que GPT4 (10 fois moins que GPT4 turbo)
https://docs.google.com/spreadsheets/d/1NX8ZW9Jnfpy88PC2d6Bwla87JRiv3GTeqwXoB4mKU_s/edit#gid=0
> input : 1$ pour 1M de tokens
> output : 2$ pour 1M de tokens
ENVIRONNEMENTAL :
๏ Action principale = mesurer l’impact carbon de l’usage de ce LLM text.
> Si modèle Open Source hébergé :
+ CodeCarbon (consommation de l’application) * Empreinte carbone en France (50 g.CO2eq/kWh)
> Si modèle externe (ex GPT4) : …
+ ~coûts ﬁnanciers corrélés avec le coût environnemental

42
There
is
a
better
way
Retours d’expérience
04

43
There
is
a
better
way
https://github.com/BastinFlorian/RAG-on-GCP-with-VertexAI
Helpdesk Octo sur GCP

44
There
is
a
better
way
Architecture environnement Privée
Assistant augmenté
LLM
Embedding
LLM Text
Application PostgreSQL
LÉGENDES
VM
Cloud
Privé
Utilisateur
Endpoint
GPU-enabled
OpenAI API
OR
External
Stockage
Mistral API

45
There
is
a
better
way
Le futur du RAG ?
01

46
There
is
a
better
way
C’est RAG et ﬁne tuning !
RAG ou Fine-Tuning
src : https://github.com/Tongji-KGLLM/RAG-Survey

47
There
is
a
better
way
Une méthodologie modiﬁée :
๏ Les “LLM text” s’améliorent : (le Retriever peut être moins bon… )
๏ Leur taille du contexte augmente ( ~128k GPT4 , 32k Mixtral ) : 10-30 fois plus en un an.
๏ Les coûts de ces LLM text se réduisent fortement : ~ divisé par 10-20 en un an .
Une architecture modiﬁée : Demain le LLM text peux tourner en local
Mais l’idée principale devrait rester : Exposer ses données et des services à un agent IA devient le futur de
nos systèmes d’information !
Mais le RAG demain ?

48
There
is
a
better
way

49
There
is
a
better
way
la conférence DATA & IA by OCTO
La Grosse Conf :
Infos et Billetterie sur
lagrosseconf.com

50
There
is
a
better
way
Les Actus OCT
Comptoir. Formation.
Publication. Recrutement.
Culture Data &
Industrie
De l'atelier au Big
Data et à l'IA
Lien dans le chat ou sur
octo.com
catégorie”Ressources”
06.02.2024
Comptoir OCTO
Comment OCTO
transforme la
CSRD en un outil
stratégique pour un
impact positif
Lien d’inscription dans le
chat de la conférence ou
sur octo.com, catégorie
“Événements”
Pour aller plus loin,
découvrez notre
formation
Sensibilisation à
l’Intelligence Artiﬁcielle
générative et à ses
enjeux
Identiﬁer les opportunités de
l’IA générative dans son
organisation
Rdv sur octo.academy
Vous vous sentez
l’âme d’un(e)
Octo ?
Rejoignez-nous !
Rdv sur rejoins.octo.com
ou envoyez un mail
à candidature@octo.com

Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise

Recommandé

Recommandé

Contenu connexe

Similaire à Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise

Similaire à Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise (20)

Plus de OCTO Technology

Plus de OCTO Technology (20)

Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise