SlideShare une entreprise Scribd logo
1  sur  50
Télécharger pour lire hors ligne
1
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Maitriser le RAG
Connecter les modèles d’IA génératives aux données de l’entreprise
Comptoir Octo
16/01/24
2
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Nicolas Cavallo
Head of Generative AI
Intervenants OCTO
Dont plus de 900
consultant.e.s expert.e.s
Tou.te.s cultivant des expertises tech et
méthodo pour toujours trouver de meilleures
façons de résoudre vos problématiques
complexes.
1000
OCTOs
3
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Sommaire
1. Le RAG ?
2. Le “bon” RAG ?
3. Construire son RAG
4. Retours d’expérience
5. Demain le RAG
4
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Retrieval Augmented Generation
RAG
01
5
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
En une phrase
“Je peux discuter avec un agent conversationnel qui est à jour, comprend ma donnée
mon vocabulaire d’entreprise, qui peut interagir avec des données sensibles,
stratégiques”
Retrieval-Augmented Generation
…. On augmente les modèles de langages (LLMs)
…avec de la données qui peut être privée, à jour etc..
6
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
On en met partout
7
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
8
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
OpenAI en met dans ses GPTs
9
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Quand Google Bard ajoute la fonctionnalité de répondre en se basant sur le contenu de vidéos youtube…
C’est du RAG !
Google aussi…
src img :
https://www.theverge.com/2023/11/22/23972636/bard-youtube-extension-update-search-video-content
…
transcriptions
10
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Techniquement
11
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Une réponse contextualisée
source:
https://blog.octo.com/le-chatbot-docto-langchain-rag-et-code-associe
ChatGPT3.5 sans RAG ChatGPT3.5 avec RAG
🥱
12
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Fonctionnement
Base
Vecteur
Documents LLM embedding
Créer un embedding pour différentes parties
des documents
Ingestion
de l’existant
Formulation
d’une réponse
avec ses sources
Prompt Engineering
récupérer les passages les plus liés
Réponse
avec références
LLM Text
(Agent Conversationnel )
[0.08,0.92,.....,0.07]
[0.43,0.55,.....,0.13]
[0.73,0.15,.....,0.98]
Question
LLM embedding
Créer l’embedding de la
question
Recherche
des informations
utiles
[0.05,0.90,.....,0.54]
13
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
L’exemple pour l’assistant Octo
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
(Agent Conversationnel )
1.
C’est quoi le RAG ?
2.
Les passages des documents
importants donnant des informations
liées sont sélectionnés :
● l’article de Blog Construire son RAG (Retrieval
Augmented Generation) grâce à langchain: L’exemple de
l’Helpdesk d’OCTO
3.
On construit un “prompt” qui contient un
Rôle (tu es un assistant qui répond …à partir des références suivantes..)
Les Références utiles ( le contenu du document X )
La Question( à la question suivante…)
14
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
un bon RAG ?
02
15
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Evaluation
RAG
16
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
QUALITÉ : Deux composants à étudier dans un RAG
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
(Agent Conversationnel )
RETRIEVER
GENERATION
17
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Complexité d’évaluer la qualité des réponses
C’est quoi un RAG ?
Question
Construire son RAG (Retrieval
Augmented Generation) grâce à
langchain: L’exemple de l’Helpdesk
d’OCTO
Posté le 17/10/2023 par Florian Bastin, Nicolas
Cavallo
Un article qui parle de RAG
Sous le capot des bases de données
vectorielles
Posté le 14/12/2023 par Aurélien Massiot, Philippe
Stepniewski
Un article qui évoque le RAG
Le RAG, ou Retrieval Augmented Generation, est une
approche qui permet d'utiliser un agent
conversationnel pour répondre aux questions en
utilisant des données spécifiques. Il consiste en
plusieurs étapes, notamment la division du corpus de
textes en sous-parties, la transformation de ces
sous-parties en vecteurs numériques, le stockage de
ces vecteurs dans une base de données, et la
recherche des informations sémantiquement
proches de la question posée. L'objectif du RAG est
de personnaliser la réponse en utilisant les données
de l'utilisateur ou de l'entreprise.
Réponse 1
Le RAG (Retrieval Augmented Generation)
est une approche qui permet d'exploiter la
puissance d'un agent conversationnel en
utilisant nos propres données, en lien avec
les bases de données vectorielles.
Cependant, le contexte ne fournit pas de
définition précise du RAG
Réponse 2
RETRIEVER
deux documents différents peuvent
contenir une information suffisante
GENERATION
Deux réponses dont la formulation et
les mots sont totalement différents
peuvent contenir une bonne réponse.
18
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Un domaine en pleine évolution
๏ Des méthodologies d’évaluation qui utilisent des LLMs 🤯
๏ Des “frameworks” qui emergent
Définir les bonnes métriques
19
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Trulens The RAG - triad
https://github.com/truera/trulens
Framework : Trulens
ou Faithfulness (fidélité)
20
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Un score qui prend en compte les différents axes d’évaluation
Framework : Ragas
ragas : https://github.com/explodinggradients/ragas
GENERATION
Faithfulness
(fidélité)
Answer relevancy
(Pertinence de la réponse)
RETRIEVER
Context precision
(Pertinence du context)
Context Recall
( Rappel du contexte)
21
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Un score qui prend en compte les différents axes d’évaluation
Framework : Ragas
ragas : https://github.com/explodinggradients/ragas
GENERATION
๏ Faithfulness (fidélité) : mesure la précision de la réponse
générée par rapport au contexte fourni.
> Etape 1 : Pour le couple “question/ réponse générée”, nous
utilisons un LLM pour déterminer les affirmations que la
réponse générée fait.
> Etape 2 : Nous utilisons un LLM pour qualifier la liste des
affirmations (Etape 1). Pour chacune des affirmations nous
vérifions qu’elle est bien contenue dans le contexte fourni .
Le score est la division du nombre d'affirmations validées
par le nombre total d’affirmations de la réponse générée.
๏ Answer relevancy (Pertinence de la réponse) : Mesure la
pertinence de la réponse par rapport à la question.
> Nous utilisons un LLM pour déterminer une liste de questions probables
auxquelles la réponse générée serait une réponse. Nous calculons la
similarité de ces questions probable avec la réelle question.
RETRIEVER
๏ Context precision (Pertinence du context) : Mesure le poids des
informations utiles comparativement au bruit dans le contexte
récupéré.
> Nous utilisons un LLM pour déterminer les phrases du contexte récupéré
qui sont nécessaires pour répondre à la question. Le score est le ratio entre
le nombre de phrases requises et le total des phrases du contexte
récupéré.
๏ Context Recall ( Rappel du contexte) : Mesure la capacité du
“Retriever” à retrouver toutes les informations nécessaires pour
répondre à la question.
> Nous utilisons un LLM pour lister l’ensemble d’affirmations de la réponse
“ground truth” fournie. Le score est la division entre le nombre
d’affirmations contenues (d’après un LLM) dans le contexte récupéré et le
total d’affirmations de la réponse “ground truth”.
22
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Toutes les évaluations sont fausses, mais certaines sont utiles.
Des évaluations à plusieurs niveaux,
dont l’importance dépend du cas
d’usage
Pas seulement la qualité…
QUALITÉ
GENERATION RETRIEVER
RESPONSABILITÉ
Impact Carbon
Biais Moderation
INFRASTRUCTURE
Latence
Cout inférence
SÉCURITÉ
Prompt injection Gestion des accès
23
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
OpenAI diffuse son retour d’expérience pour construire un RAG
“ … because with prompt engineering and RAG, it sounds like these things can be quite simple,
but they're really quite hard. It takes a lot of iterations and a lot of testing and learning to
actually make this happen for real.” OpenAI nov-2023 https://www.youtube.com/watch?v=ahnGLM-RC1Y
ÉVALUATION
TESTER, TESTER … TESTER
98 % d’accuracy
sans fine tuning !
24
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
un RAG
ça peut être complexe
du RAG basique … au RAG avancé
25
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Deux composants dans un RAG
Question
Réponse
avec références
RETRIEVER
GENERATION
26
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Aller plus loin
sur le RETRIEVER
27
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Build a search engine not a vector DB
Le Retriever ce n’est pas une base vecteur
28
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Un “RETRIEVER” Avancé
Question
Réponse
avec références
RETRIEVER
PRE-RETRIEVER POST-RETRIEVER
GENERATION
29
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Un “RETRIEVER” Avancé
src img : langchain blog
PRE-RETRIEVER RETRIEVER POST-RETRIEVER
30
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Aller plus loin
sur la GENERATION
31
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Une “GENERATION” Avancé
Question
Réponse
avec références
RETRIEVER
PRE-RETRIEVER POST-RETRIEVER
GENERATION
32
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
๏ Prompt Engineering : Modifier/ Adapter le Rôle
๏ Adapter-modifier le modèle LLM text :
> GPT3.5 <-> GPT4 <-> Mistral , etc..
> Utiliser des modèles alignés pour le RAG
๏ Ajouter des modèles - garde-fous :
> Modèle de modération
> Modèle de relecture
> Utiliser plusieurs modèles et analyser la cohérence entres les différentes réponses
> etc..
Une GÉNÉRATION avancée
33
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
jusqu’au
RAG modulaire
34
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
L’idée est de permettre de choisir les différents modules à activer en fonction des questions.
Modular RAG
src : Retrieval-Augmented Generation for Large Language Models: A
Survey arXiv:2312.10997
35
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Construire son RAG
03
36
OCTO Part of Accenture © 2022 - All rights reserved
There
is
a
better
way
Commencer techniquement un projet RAG
EXPERIMENTATION
SIMPLE
AMÉLIORATION
● Fixer les pré-requis :
○ Données
○ Environnement technique
● Fixer la GÉNÉRATION
○ Définir le LLM text utilisable
● Fixer un RETRIEVER
○ base vecteur, LLM embedding
● Commencer avec un sous
périmètre.
● Définir un moyen d’
évaluer
● Créer le RAG simple et
tester quelques questions
● Prendre la totalité du
périmètre.
● Passer à un RAG avancé
(voire modulaire)
Un MVP en quelques semaines
Un cadrage technique
On a déjà validé la valeur potentiel du projet
DÉFINITION
37
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Construire le projet RAG
Des dizaines de bases vecteur possibles (PostgreSQL, Elasticsearch,
chroma, etc..)
● Comparaison : Vector DB Feature Matrix :
https://docs.google.com/spreadsheets/d/170HErOyOkLDjQfy3TJ6a3XXXM1rHvw_779Sit-KT7uc/edit#gid=0
● Construire sa base vecteur Sous le capot des bases de données vectorielles
- OCTO Talks !
https://blog.octo.com/sous-le-capot-des-bases-de-donnees-vectorielles-(vector-databases)
Base vecteur
● API externe : OpenAI
embedding,
● Open Source :
HuggingFace Embedding
Models (Bert, etc..)
LLM embedding
…
LLM text
Pipeline RAG
38
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Peut fonctionner dans un environnement privé
Documents
Base
Vecteur
Question
LLM embedding
LLM embedding
Prompt Engineering
Réponse
avec références
LLM Text
(Agent Conversationnel )
Des modèles “LLM embedding”
existent en Open Source et peuvent
tourner sur des machines sans GPU
On peut héberger une base vecteur
Open Source dans son
environnement privé
Un modèle LLM Text nécessite une puissance GPU
conséquente pour fonctionner correctement
● soit un appel à une API externe = faire
confiance dans le fournisseur du service
● soit hébergement dans mon environnement
privée avec carte graphique suffisante
39
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Stable et fonctionnel Solutions émergentes ( mieux connectées
aux spécificités LLM-RAG)
Les outils de suivi d’un pipeline LLM
40
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Cout financier & Environnemental
41
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Mesurer le coût !
Coût = LLM text : représente rapidement >99% du coût de RUN du projet RAG
FINANCIER :
๏ Coût principalement au nombre de tokens
๏ GPT-3.5-turbo est 30 fois moins cher que GPT4 (10 fois moins que GPT4 turbo)
https://docs.google.com/spreadsheets/d/1NX8ZW9Jnfpy88PC2d6Bwla87JRiv3GTeqwXoB4mKU_s/edit#gid=0
> input : 1$ pour 1M de tokens
> output : 2$ pour 1M de tokens
ENVIRONNEMENTAL :
๏ Action principale = mesurer l’impact carbon de l’usage de ce LLM text.
> Si modèle Open Source hébergé :
+ CodeCarbon (consommation de l’application) * Empreinte carbone en France (50 g.CO2eq/kWh)
> Si modèle externe (ex GPT4) : …
+ ~coûts financiers corrélés avec le coût environnemental
42
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Retours d’expérience
04
43
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
https://github.com/BastinFlorian/RAG-on-GCP-with-VertexAI
Helpdesk Octo sur GCP
44
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Architecture environnement Privée
Assistant augmenté
LLM
Embedding
LLM Text
Application PostgreSQL
LÉGENDES
VM
Cloud
Privé
Utilisateur
Endpoint
GPU-enabled
OpenAI API
OR
External
Stockage
Mistral API
45
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Le futur du RAG ?
01
46
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
C’est RAG et fine tuning !
RAG ou Fine-Tuning
src : https://github.com/Tongji-KGLLM/RAG-Survey
47
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Une méthodologie modifiée :
๏ Les “LLM text” s’améliorent : (le Retriever peut être moins bon… )
๏ Leur taille du contexte augmente ( ~128k GPT4 , 32k Mixtral ) : 10-30 fois plus en un an.
๏ Les coûts de ces LLM text se réduisent fortement : ~ divisé par 10-20 en un an .
Une architecture modifiée : Demain le LLM text peux tourner en local
Mais l’idée principale devrait rester : Exposer ses données et des services à un agent IA devient le futur de
nos systèmes d’information !
Mais le RAG demain ?
48
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
49
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
la conférence DATA & IA by OCTO
La Grosse Conf :
Infos et Billetterie sur
lagrosseconf.com
50
There
is
a
better
way
OCTO Part of Accenture © 2023 - All rights reserved
Les Actus OCT
Comptoir. Formation.
Publication. Recrutement.
Culture Data &
Industrie
De l'atelier au Big
Data et à l'IA
Lien dans le chat ou sur
octo.com
catégorie”Ressources”
06.02.2024
Comptoir OCTO
Comment OCTO
transforme la
CSRD en un outil
stratégique pour un
impact positif
Lien d’inscription dans le
chat de la conférence ou
sur octo.com, catégorie
“Événements”
Pour aller plus loin,
découvrez notre
formation
Sensibilisation à
l’Intelligence Artificielle
générative et à ses
enjeux
Identifier les opportunités de
l’IA générative dans son
organisation
Rdv sur octo.academy
Vous vous sentez
l’âme d’un(e)
Octo ?
Rejoignez-nous !
Rdv sur rejoins.octo.com
ou envoyez un mail
à candidature@octo.com

Contenu connexe

Similaire à Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise

Catalogue de stage
Catalogue de stageCatalogue de stage
Catalogue de stagemzoughi Anis
 
Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxFlavian Hautbois
 
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp012014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01MongoDB
 
Mockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice DuteilMockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice DuteilNormandy JUG
 
Adoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALMAdoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALMGrégory Ott
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs Microsoft
 
Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Thomas Choppy
 
[TNT19] Hands on: Objectif Top Architecte!
[TNT19] Hands on: Objectif Top Architecte![TNT19] Hands on: Objectif Top Architecte!
[TNT19] Hands on: Objectif Top Architecte!Alexandre Touret
 
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenu
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenuWebinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenu
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenuNuxeo
 
Captronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presenteeCaptronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presenteePatrick MOREAU
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...SOLLAN FRANCE
 
Le Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisLe Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisOCTO Technology
 
Introduction au BDD (Behavior Driven Development)
Introduction au BDD (Behavior Driven Development)Introduction au BDD (Behavior Driven Development)
Introduction au BDD (Behavior Driven Development)Fabian Vilers
 
Le Télétravail - un plus pour la compétivité
Le Télétravail - un plus pour la compétivitéLe Télétravail - un plus pour la compétivité
Le Télétravail - un plus pour la compétivitéAlexander Teleki
 
La gestion des actifs logiciels : enjeux et opportunités
La gestion des actifs logiciels : enjeux et opportunitésLa gestion des actifs logiciels : enjeux et opportunités
La gestion des actifs logiciels : enjeux et opportunitésMicrosoft Ideas
 
Introduction au Domain Driven Design
Introduction au Domain Driven DesignIntroduction au Domain Driven Design
Introduction au Domain Driven DesignDNG Consulting
 
RepuX Pitch Deck - French
RepuX Pitch Deck - FrenchRepuX Pitch Deck - French
RepuX Pitch Deck - Frenchrepux
 

Similaire à Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise (20)

Paris Chaos Engineering Meetup #6
Paris Chaos Engineering Meetup #6Paris Chaos Engineering Meetup #6
Paris Chaos Engineering Meetup #6
 
Catalogue de stage
Catalogue de stageCatalogue de stage
Catalogue de stage
 
Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptx
 
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp012014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01
2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01
 
Mockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice DuteilMockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice Duteil
 
Adoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALMAdoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALM
 
Adoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALMAdoption incrémentale des tests dans VS ALM
Adoption incrémentale des tests dans VS ALM
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
Ged Open Source - Documation 2010
Ged Open Source - Documation 2010Ged Open Source - Documation 2010
Ged Open Source - Documation 2010
 
[TNT19] Hands on: Objectif Top Architecte!
[TNT19] Hands on: Objectif Top Architecte![TNT19] Hands on: Objectif Top Architecte!
[TNT19] Hands on: Objectif Top Architecte!
 
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenu
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenuWebinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenu
Webinar Nuxeo/Amexio : Comment bien choisir sa plateforme de gestion de contenu
 
Captronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presenteeCaptronic grenoble 01102014 version presentee
Captronic grenoble 01102014 version presentee
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
 
Le Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisLe Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermis
 
Introduction au BDD (Behavior Driven Development)
Introduction au BDD (Behavior Driven Development)Introduction au BDD (Behavior Driven Development)
Introduction au BDD (Behavior Driven Development)
 
Formation fibrenoire
Formation fibrenoireFormation fibrenoire
Formation fibrenoire
 
Le Télétravail - un plus pour la compétivité
Le Télétravail - un plus pour la compétivitéLe Télétravail - un plus pour la compétivité
Le Télétravail - un plus pour la compétivité
 
La gestion des actifs logiciels : enjeux et opportunités
La gestion des actifs logiciels : enjeux et opportunitésLa gestion des actifs logiciels : enjeux et opportunités
La gestion des actifs logiciels : enjeux et opportunités
 
Introduction au Domain Driven Design
Introduction au Domain Driven DesignIntroduction au Domain Driven Design
Introduction au Domain Driven Design
 
RepuX Pitch Deck - French
RepuX Pitch Deck - FrenchRepuX Pitch Deck - French
RepuX Pitch Deck - French
 

Plus de OCTO Technology

Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéOCTO Technology
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudOCTO Technology
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...OCTO Technology
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Technology
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...OCTO Technology
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Technology
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanOCTO Technology
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? OCTO Technology
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...OCTO Technology
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...OCTO Technology
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionOCTO Technology
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...OCTO Technology
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...OCTO Technology
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...OCTO Technology
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsOCTO Technology
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API DesignOCTO Technology
 
RefCard API Architecture Strategy
RefCard API Architecture StrategyRefCard API Architecture Strategy
RefCard API Architecture StrategyOCTO Technology
 
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du green
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du greenLA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du green
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du greenOCTO Technology
 
LA DUCK CONF 2023 - Sous le capot du cloud souverain
LA DUCK CONF 2023 - Sous le capot du cloud souverainLA DUCK CONF 2023 - Sous le capot du cloud souverain
LA DUCK CONF 2023 - Sous le capot du cloud souverainOCTO Technology
 

Plus de OCTO Technology (20)

Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture Test
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend web
 
Refcard GraphQL
Refcard GraphQLRefcard GraphQL
Refcard GraphQL
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/Leaseplan
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les fronts
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API Design
 
RefCard API Architecture Strategy
RefCard API Architecture StrategyRefCard API Architecture Strategy
RefCard API Architecture Strategy
 
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du green
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du greenLA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du green
LA DUCK CONF 2023 - Journal de bord d’un archi dans l’océan du green
 
LA DUCK CONF 2023 - Sous le capot du cloud souverain
LA DUCK CONF 2023 - Sous le capot du cloud souverainLA DUCK CONF 2023 - Sous le capot du cloud souverain
LA DUCK CONF 2023 - Sous le capot du cloud souverain
 

Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise

  • 1. 1 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Maitriser le RAG Connecter les modèles d’IA génératives aux données de l’entreprise Comptoir Octo 16/01/24
  • 2. 2 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Nicolas Cavallo Head of Generative AI Intervenants OCTO Dont plus de 900 consultant.e.s expert.e.s Tou.te.s cultivant des expertises tech et méthodo pour toujours trouver de meilleures façons de résoudre vos problématiques complexes. 1000 OCTOs
  • 3. 3 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Sommaire 1. Le RAG ? 2. Le “bon” RAG ? 3. Construire son RAG 4. Retours d’expérience 5. Demain le RAG
  • 4. 4 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Retrieval Augmented Generation RAG 01
  • 5. 5 There is a better way OCTO Part of Accenture © 2023 - All rights reserved En une phrase “Je peux discuter avec un agent conversationnel qui est à jour, comprend ma donnée mon vocabulaire d’entreprise, qui peut interagir avec des données sensibles, stratégiques” Retrieval-Augmented Generation …. On augmente les modèles de langages (LLMs) …avec de la données qui peut être privée, à jour etc..
  • 6. 6 There is a better way OCTO Part of Accenture © 2023 - All rights reserved On en met partout
  • 7. 7 There is a better way OCTO Part of Accenture © 2023 - All rights reserved
  • 8. 8 There is a better way OCTO Part of Accenture © 2023 - All rights reserved OpenAI en met dans ses GPTs
  • 9. 9 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Quand Google Bard ajoute la fonctionnalité de répondre en se basant sur le contenu de vidéos youtube… C’est du RAG ! Google aussi… src img : https://www.theverge.com/2023/11/22/23972636/bard-youtube-extension-update-search-video-content … transcriptions
  • 10. 10 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Techniquement
  • 11. 11 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Une réponse contextualisée source: https://blog.octo.com/le-chatbot-docto-langchain-rag-et-code-associe ChatGPT3.5 sans RAG ChatGPT3.5 avec RAG 🥱
  • 12. 12 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Fonctionnement Base Vecteur Documents LLM embedding Créer un embedding pour différentes parties des documents Ingestion de l’existant Formulation d’une réponse avec ses sources Prompt Engineering récupérer les passages les plus liés Réponse avec références LLM Text (Agent Conversationnel ) [0.08,0.92,.....,0.07] [0.43,0.55,.....,0.13] [0.73,0.15,.....,0.98] Question LLM embedding Créer l’embedding de la question Recherche des informations utiles [0.05,0.90,.....,0.54]
  • 13. 13 There is a better way OCTO Part of Accenture © 2023 - All rights reserved L’exemple pour l’assistant Octo Documents Base Vecteur Question LLM embedding LLM embedding Prompt Engineering Réponse avec références LLM Text (Agent Conversationnel ) 1. C’est quoi le RAG ? 2. Les passages des documents importants donnant des informations liées sont sélectionnés : ● l’article de Blog Construire son RAG (Retrieval Augmented Generation) grâce à langchain: L’exemple de l’Helpdesk d’OCTO 3. On construit un “prompt” qui contient un Rôle (tu es un assistant qui répond …à partir des références suivantes..) Les Références utiles ( le contenu du document X ) La Question( à la question suivante…)
  • 14. 14 There is a better way OCTO Part of Accenture © 2023 - All rights reserved un bon RAG ? 02
  • 15. 15 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Evaluation RAG
  • 16. 16 There is a better way OCTO Part of Accenture © 2023 - All rights reserved QUALITÉ : Deux composants à étudier dans un RAG Documents Base Vecteur Question LLM embedding LLM embedding Prompt Engineering Réponse avec références LLM Text (Agent Conversationnel ) RETRIEVER GENERATION
  • 17. 17 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Complexité d’évaluer la qualité des réponses C’est quoi un RAG ? Question Construire son RAG (Retrieval Augmented Generation) grâce à langchain: L’exemple de l’Helpdesk d’OCTO Posté le 17/10/2023 par Florian Bastin, Nicolas Cavallo Un article qui parle de RAG Sous le capot des bases de données vectorielles Posté le 14/12/2023 par Aurélien Massiot, Philippe Stepniewski Un article qui évoque le RAG Le RAG, ou Retrieval Augmented Generation, est une approche qui permet d'utiliser un agent conversationnel pour répondre aux questions en utilisant des données spécifiques. Il consiste en plusieurs étapes, notamment la division du corpus de textes en sous-parties, la transformation de ces sous-parties en vecteurs numériques, le stockage de ces vecteurs dans une base de données, et la recherche des informations sémantiquement proches de la question posée. L'objectif du RAG est de personnaliser la réponse en utilisant les données de l'utilisateur ou de l'entreprise. Réponse 1 Le RAG (Retrieval Augmented Generation) est une approche qui permet d'exploiter la puissance d'un agent conversationnel en utilisant nos propres données, en lien avec les bases de données vectorielles. Cependant, le contexte ne fournit pas de définition précise du RAG Réponse 2 RETRIEVER deux documents différents peuvent contenir une information suffisante GENERATION Deux réponses dont la formulation et les mots sont totalement différents peuvent contenir une bonne réponse.
  • 18. 18 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Un domaine en pleine évolution ๏ Des méthodologies d’évaluation qui utilisent des LLMs 🤯 ๏ Des “frameworks” qui emergent Définir les bonnes métriques
  • 19. 19 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Trulens The RAG - triad https://github.com/truera/trulens Framework : Trulens ou Faithfulness (fidélité)
  • 20. 20 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Un score qui prend en compte les différents axes d’évaluation Framework : Ragas ragas : https://github.com/explodinggradients/ragas GENERATION Faithfulness (fidélité) Answer relevancy (Pertinence de la réponse) RETRIEVER Context precision (Pertinence du context) Context Recall ( Rappel du contexte)
  • 21. 21 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Un score qui prend en compte les différents axes d’évaluation Framework : Ragas ragas : https://github.com/explodinggradients/ragas GENERATION ๏ Faithfulness (fidélité) : mesure la précision de la réponse générée par rapport au contexte fourni. > Etape 1 : Pour le couple “question/ réponse générée”, nous utilisons un LLM pour déterminer les affirmations que la réponse générée fait. > Etape 2 : Nous utilisons un LLM pour qualifier la liste des affirmations (Etape 1). Pour chacune des affirmations nous vérifions qu’elle est bien contenue dans le contexte fourni . Le score est la division du nombre d'affirmations validées par le nombre total d’affirmations de la réponse générée. ๏ Answer relevancy (Pertinence de la réponse) : Mesure la pertinence de la réponse par rapport à la question. > Nous utilisons un LLM pour déterminer une liste de questions probables auxquelles la réponse générée serait une réponse. Nous calculons la similarité de ces questions probable avec la réelle question. RETRIEVER ๏ Context precision (Pertinence du context) : Mesure le poids des informations utiles comparativement au bruit dans le contexte récupéré. > Nous utilisons un LLM pour déterminer les phrases du contexte récupéré qui sont nécessaires pour répondre à la question. Le score est le ratio entre le nombre de phrases requises et le total des phrases du contexte récupéré. ๏ Context Recall ( Rappel du contexte) : Mesure la capacité du “Retriever” à retrouver toutes les informations nécessaires pour répondre à la question. > Nous utilisons un LLM pour lister l’ensemble d’affirmations de la réponse “ground truth” fournie. Le score est la division entre le nombre d’affirmations contenues (d’après un LLM) dans le contexte récupéré et le total d’affirmations de la réponse “ground truth”.
  • 22. 22 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Toutes les évaluations sont fausses, mais certaines sont utiles. Des évaluations à plusieurs niveaux, dont l’importance dépend du cas d’usage Pas seulement la qualité… QUALITÉ GENERATION RETRIEVER RESPONSABILITÉ Impact Carbon Biais Moderation INFRASTRUCTURE Latence Cout inférence SÉCURITÉ Prompt injection Gestion des accès
  • 23. 23 There is a better way OCTO Part of Accenture © 2023 - All rights reserved OpenAI diffuse son retour d’expérience pour construire un RAG “ … because with prompt engineering and RAG, it sounds like these things can be quite simple, but they're really quite hard. It takes a lot of iterations and a lot of testing and learning to actually make this happen for real.” OpenAI nov-2023 https://www.youtube.com/watch?v=ahnGLM-RC1Y ÉVALUATION TESTER, TESTER … TESTER 98 % d’accuracy sans fine tuning !
  • 24. 24 There is a better way OCTO Part of Accenture © 2023 - All rights reserved un RAG ça peut être complexe du RAG basique … au RAG avancé
  • 25. 25 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Deux composants dans un RAG Question Réponse avec références RETRIEVER GENERATION
  • 26. 26 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Aller plus loin sur le RETRIEVER
  • 27. 27 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Build a search engine not a vector DB Le Retriever ce n’est pas une base vecteur
  • 28. 28 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Un “RETRIEVER” Avancé Question Réponse avec références RETRIEVER PRE-RETRIEVER POST-RETRIEVER GENERATION
  • 29. 29 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Un “RETRIEVER” Avancé src img : langchain blog PRE-RETRIEVER RETRIEVER POST-RETRIEVER
  • 30. 30 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Aller plus loin sur la GENERATION
  • 31. 31 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Une “GENERATION” Avancé Question Réponse avec références RETRIEVER PRE-RETRIEVER POST-RETRIEVER GENERATION
  • 32. 32 There is a better way OCTO Part of Accenture © 2023 - All rights reserved ๏ Prompt Engineering : Modifier/ Adapter le Rôle ๏ Adapter-modifier le modèle LLM text : > GPT3.5 <-> GPT4 <-> Mistral , etc.. > Utiliser des modèles alignés pour le RAG ๏ Ajouter des modèles - garde-fous : > Modèle de modération > Modèle de relecture > Utiliser plusieurs modèles et analyser la cohérence entres les différentes réponses > etc.. Une GÉNÉRATION avancée
  • 33. 33 There is a better way OCTO Part of Accenture © 2023 - All rights reserved jusqu’au RAG modulaire
  • 34. 34 There is a better way OCTO Part of Accenture © 2023 - All rights reserved L’idée est de permettre de choisir les différents modules à activer en fonction des questions. Modular RAG src : Retrieval-Augmented Generation for Large Language Models: A Survey arXiv:2312.10997
  • 35. 35 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Construire son RAG 03
  • 36. 36 OCTO Part of Accenture © 2022 - All rights reserved There is a better way Commencer techniquement un projet RAG EXPERIMENTATION SIMPLE AMÉLIORATION ● Fixer les pré-requis : ○ Données ○ Environnement technique ● Fixer la GÉNÉRATION ○ Définir le LLM text utilisable ● Fixer un RETRIEVER ○ base vecteur, LLM embedding ● Commencer avec un sous périmètre. ● Définir un moyen d’ évaluer ● Créer le RAG simple et tester quelques questions ● Prendre la totalité du périmètre. ● Passer à un RAG avancé (voire modulaire) Un MVP en quelques semaines Un cadrage technique On a déjà validé la valeur potentiel du projet DÉFINITION
  • 37. 37 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Construire le projet RAG Des dizaines de bases vecteur possibles (PostgreSQL, Elasticsearch, chroma, etc..) ● Comparaison : Vector DB Feature Matrix : https://docs.google.com/spreadsheets/d/170HErOyOkLDjQfy3TJ6a3XXXM1rHvw_779Sit-KT7uc/edit#gid=0 ● Construire sa base vecteur Sous le capot des bases de données vectorielles - OCTO Talks ! https://blog.octo.com/sous-le-capot-des-bases-de-donnees-vectorielles-(vector-databases) Base vecteur ● API externe : OpenAI embedding, ● Open Source : HuggingFace Embedding Models (Bert, etc..) LLM embedding … LLM text Pipeline RAG
  • 38. 38 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Peut fonctionner dans un environnement privé Documents Base Vecteur Question LLM embedding LLM embedding Prompt Engineering Réponse avec références LLM Text (Agent Conversationnel ) Des modèles “LLM embedding” existent en Open Source et peuvent tourner sur des machines sans GPU On peut héberger une base vecteur Open Source dans son environnement privé Un modèle LLM Text nécessite une puissance GPU conséquente pour fonctionner correctement ● soit un appel à une API externe = faire confiance dans le fournisseur du service ● soit hébergement dans mon environnement privée avec carte graphique suffisante
  • 39. 39 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Stable et fonctionnel Solutions émergentes ( mieux connectées aux spécificités LLM-RAG) Les outils de suivi d’un pipeline LLM
  • 40. 40 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Cout financier & Environnemental
  • 41. 41 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Mesurer le coût ! Coût = LLM text : représente rapidement >99% du coût de RUN du projet RAG FINANCIER : ๏ Coût principalement au nombre de tokens ๏ GPT-3.5-turbo est 30 fois moins cher que GPT4 (10 fois moins que GPT4 turbo) https://docs.google.com/spreadsheets/d/1NX8ZW9Jnfpy88PC2d6Bwla87JRiv3GTeqwXoB4mKU_s/edit#gid=0 > input : 1$ pour 1M de tokens > output : 2$ pour 1M de tokens ENVIRONNEMENTAL : ๏ Action principale = mesurer l’impact carbon de l’usage de ce LLM text. > Si modèle Open Source hébergé : + CodeCarbon (consommation de l’application) * Empreinte carbone en France (50 g.CO2eq/kWh) > Si modèle externe (ex GPT4) : … + ~coûts financiers corrélés avec le coût environnemental
  • 42. 42 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Retours d’expérience 04
  • 43. 43 There is a better way OCTO Part of Accenture © 2023 - All rights reserved https://github.com/BastinFlorian/RAG-on-GCP-with-VertexAI Helpdesk Octo sur GCP
  • 44. 44 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Architecture environnement Privée Assistant augmenté LLM Embedding LLM Text Application PostgreSQL LÉGENDES VM Cloud Privé Utilisateur Endpoint GPU-enabled OpenAI API OR External Stockage Mistral API
  • 45. 45 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Le futur du RAG ? 01
  • 46. 46 There is a better way OCTO Part of Accenture © 2023 - All rights reserved C’est RAG et fine tuning ! RAG ou Fine-Tuning src : https://github.com/Tongji-KGLLM/RAG-Survey
  • 47. 47 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Une méthodologie modifiée : ๏ Les “LLM text” s’améliorent : (le Retriever peut être moins bon… ) ๏ Leur taille du contexte augmente ( ~128k GPT4 , 32k Mixtral ) : 10-30 fois plus en un an. ๏ Les coûts de ces LLM text se réduisent fortement : ~ divisé par 10-20 en un an . Une architecture modifiée : Demain le LLM text peux tourner en local Mais l’idée principale devrait rester : Exposer ses données et des services à un agent IA devient le futur de nos systèmes d’information ! Mais le RAG demain ?
  • 48. 48 There is a better way OCTO Part of Accenture © 2023 - All rights reserved
  • 49. 49 There is a better way OCTO Part of Accenture © 2023 - All rights reserved la conférence DATA & IA by OCTO La Grosse Conf : Infos et Billetterie sur lagrosseconf.com
  • 50. 50 There is a better way OCTO Part of Accenture © 2023 - All rights reserved Les Actus OCT Comptoir. Formation. Publication. Recrutement. Culture Data & Industrie De l'atelier au Big Data et à l'IA Lien dans le chat ou sur octo.com catégorie”Ressources” 06.02.2024 Comptoir OCTO Comment OCTO transforme la CSRD en un outil stratégique pour un impact positif Lien d’inscription dans le chat de la conférence ou sur octo.com, catégorie “Événements” Pour aller plus loin, découvrez notre formation Sensibilisation à l’Intelligence Artificielle générative et à ses enjeux Identifier les opportunités de l’IA générative dans son organisation Rdv sur octo.academy Vous vous sentez l’âme d’un(e) Octo ? Rejoignez-nous ! Rdv sur rejoins.octo.com ou envoyez un mail à candidature@octo.com