1. p. 1
Données de sequences
21 juin 2022 / R Rupp Département Génétique Animale
Utilisation de données de séquence pour la
cartographie fine et l’évaluation génomique des
caractères d’intérêt des caprins laitiers français
Résultats de la thèse d’Estelle Talouarn (2017 - 2020)
Encadrement : Rachel Rupp et Christèle Robert-Granié
Groupe suivi: I Palhiere, G Tosser-Klopp, P Bardou & M Boussaha
30/09/2020
2. p. 2
Données de sequences
21 juin 2022 / R Rupp
L’arrivée des données de séquence en caprins
• 2010: Première séquence de référence assemblée (Dong et al., 2013)
Mise à jour en 2017 (ARS1.0) (Bickhart et al., 2017)
• 2011: création de la puce à ADN 50k (Tosser-Klopp et al., 2014)
Mise à jour en 2021: 60K
• 2017: Acquisition de données de séquences en grand nombre
• Rôle central du Consortium International Génomique Caprins (IGGC), animé par
INRAE (Gwenola Tosser-Klopp)
Yunnan black Goat
3. p. 3
Données de sequences
21 juin 2022 / R Rupp
De nouvelles perspectives ouvertes par le séquençage
L’objectif de la thèse d’Estelle Talouarn (2017-2020) appliquée aux chèvres laitières françaises
• Mettre en place le contrôle qualité des données de séquence
• Détecter de nouvelles régions d’intérêt et affiner les régions QTL déjà connues ?
• Améliorer les évaluations génomiques ?
Les promesses
• Information dense sur le génome
SNP mais aussi variants structuraux : insertions/délétions, CNV, inversions et translocations
• Mutations causales
Mieux comprendre le déterminisme des caractères complexes et sélection plus efficace
Les enjeux dans l’espèce caprine: petits effectif et grande diversité !
4. p. 4
Données de sequences
21 juin 2022 / R Rupp
• Données acquises dans le cadre de l’IGGC (VarGoat):
1 159 séquences (Denoyelle et al., GSE, 2021)
1372 (nov. 2020)
Denoyelle et al., GSE 2021
Les données de séquences disponibles
• Préparation des données (E Talouarn)
829 séquences (dont 37 Saanen & 44 Alpine françaises)
Initialement : 97 889 899 SNPs et 12 304 043 indels
Sélection de 23 338 436 variants Saanen
Alpine
5. p. 5
Données de sequences
21 juin 2022 / R Rupp
Imputation des données de génotypage (50K) vers la séquence
Objectif
Transformer toutes les données de génotypage (54K SNP) en données séquence (23
millions de SNP). La prédiction se fait grâce aux liens de parentés entre les individus
et aux fréquences des variants dans une population de « référence »
Quelle meilleure stratégie ?
Utiliser des populations les plus proches (race ? Géographie ?) ou un maximum
d’individus pour avoir des fréquences plus précises et capter des allèles rares ?
6. p. 6
Données de sequences
21 juin 2022 / R Rupp
Imputation des données de génotypage (50K) vers la séquence
Taille de la population de
référence (sequences)
Alpine Saanen
Intra-race 39 32
Monde 793
Europe 243
France 169
• Stratégies testées (N=4) :
Talouarn et al., 2020, BMC Genetics
Imputation intra race,
avec pedigree
• Résultats : Scenarios équivalents pour toutes les populations de référence. Mais légère dégradation
avec panel mondial
si imputation uniquement populationnelle (sans pedigree)
7. p. 7
Données de sequences
21 juin 2022 / R Rupp
I. Cartographie fine d’un QTL :
chromosome 19 des Saanen (CHI19)
8. p. 8
Données de sequences
21 juin 2022 / R Rupp
Un QTL très important sur le chromosome 19 en race Saanen (résultats
avec la puce 50K)
QTL tout génome sur le LAIT
en race Saanen
Chromosome 19
Grande région de 3 Mb
Explique entre 6,6 et 21,5% de la part de variance
Caractères :
1. Profondeur mamelle
2. Attache avant
3. MG
4. LSCS
5. Lait
6. MP
7. Attache arrière
8. Concentration semence
9. Nbre de spermatozoides
10. Volume semence
11. Distance Plancher Jarret
9. p. 9
Données de sequences
21 juin 2022 / R Rupp
Résultats de la cartographie fine avec les variants imputés de la
séquence
0
5
10
15
20
-log10(pvalue)
24 26 28 30
Position (Mb)
• 784 variants significatifs pour au moins un caractère
• Annotés pour
96 gènes avec une fonction identifiée
16 ARNt
3 miARN
Pas de mutation causale évidente !
Pistes potentielles :
Exploration des cibles des 3 miARN identifiés
Mise à jour de la puce caprine → puce v2 avec 178
marqueurs dans la région
10. p. 10
Données de sequences
21 juin 2022 / R Rupp
Elaboration des haplotypes dans la région du QTL
0
10
20
30
40
50
60
1 2 3 4 5 6 7 8
Saanen
Alpine
On résume la région avec 8 haplotypes/allèles différents
11. p. 11
Données de sequences
21 juin 2022 / R Rupp
Effet des haplotypes (allèles) sur les caractères
Deux profils phénotypiques contrastés
• Hap4 / Hap3
• Hap5 / Hap2,7,6
Pas d’haplotype « parfait »
Information résumée en 3 groupes
(génotype 50K) transmise à Capgenes
Semence
volume
Production
lait Production
MG
Production
MP
Santé
LSCS
Conformation
plancher
Conformation
Attache-arrière
Conformation
Avant-pis
Taille
tour de poitrine
Semence
nombre
Semence
concentration
12. p. 12
Données de sequences
21 juin 2022 / R Rupp
En résumé : QTL chi19 en Saanen
QTL qui a des effets sur de nombreux caractères (production, morphologie,
LSCS et semence), mais qui reste « inexpliqué »
o De nombreux variants candidats
o Quelques miARN intéressants
En perspective :
Cartographie fine avec Puce V2 et +51 individus séquencés (SeqOccin)
D’ore et déjà:
Possibilité d’identifier 3 profils génotypiques contrastés à partir d’un génotype 50k => utilisable en
sélection
13. p. 13
Données de sequences
21 juin 2022 / R Rupp
II. Intégration des informations de séquence dans les
évaluations génomiques : cas d’étude en race Saanen
14. p. 14
Données de sequences
21 juin 2022 / R Rupp
Intégrer les données de séquences dans les évaluations génomiques
Objectif
Réaliser des évaluations génomiques avec des données imputées (54K SNP =>23
millions de SNP)
Enjeux?
Centaines à milliers d’individus X 23 millions de SNP : c’est beaucoup!
Gain de précision ? Stratégies optimales (temps de calcul / gain de précision) ?
15. p. 15
Données de sequences
21 juin 2022 / R Rupp
4 Scenarios testés
22269
539476
178
geno_50kseqQTL
geno_50kseqCHI19
geno_50kv2QTL
geno_50k (ref)
Test sur les évaluations génomiques en Saanen – chromosome 19
16. p. 16
Données de sequences
21 juin 2022 / R Rupp
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
geno_50k geno_50kv2QTL geno_50kseqCHI19 geno_50kseqQTL
• Cohérents avec les résultats ‘classiques’ obtenus
dans les mêmes conditions
• Ajout de 178 marqueurs de la puce v2
+3.4% de gain de précision en moyenne
• Ajout des données de séquence du CHI19
-4.8% de gain de précision en moyenne
• Ajout des données de séquence du QTL
+6.2% de gain de précision en moyenne
Précision
Test sur les évaluations génomiques en Saanen – chromosome 19
17. p. 17
Données de sequences
21 juin 2022 / R Rupp
En résumé
La sélection des variants : un enjeu capital pour les évaluations
• La puce v2 est prometteuse
Gain de temps (imputation, formatage)
Pas d’erreur d’imputation
Moins de biais lié à la densification d’une région (DL entre marqueurs)
Pas de modèle de prédiction optimal → compromis à trouver
• Quel que soit le modèle, des résultats contrastés :
très bénéfiques pour les caractères de production
beaucoup moins pour les cellules
Des résultats à approfondir avant d’envisager un déploiement
• Etendre l’étude aux autres chromosomes et à la race Alpine
• Intégrer les nouvelles séquences (+51 projet SeqOccin)
18. p. 18
Données de sequences
21 juin 2022 / R Rupp
Merci pour votre attention
19. p. 19
Données de sequences
21 juin 2022 / R Rupp
Merci pour votre attention
20. p. 20
Données de sequences
21 juin 2022 / R Rupp
Remerciements
Département de génétique animale
Région Occitanie
Philippe Bardou (Sigenae)
Gwenola Tosser-Klopp
CTIG/ Plateforme GenoToul Bioinfo
Comité de thèse :
Sophie Allais, Mekki Boussaha, Isabelle Palhière, Bertrand Servin, Gwenola Tosser-Klopp
Jury :
Didier Boichard, Tom Druet, Thomas Faraut, Laurence Moreau, Jérôme Raoul
Groupe de travail de Génomique Caprine de GenPhySE
Equipes GesPr et MG²
Equipe GenRoc
et en particulier Florent Woloszyn & Julien Sarry
Equipe G2B
notamment Chris Hozé et Mekki Boussaha
Farid Regad, Cécile Ben
Elie Maza
Notes de l'éditeur
2e pt : arrivée de technologie NGS => information complète pour les individus
+ accessible mais encore cher=> mutation causale pour phénotype & affranchissement DL pour évaluations
Ces qualités d’imputation permettent tout de même de détecter des signaux
De confirmer les signaux connus
Nous avons donc poursuivi les analyses
Groupes sans commune mesure dans les races européennes
Identification du groupe à partir de 50k y compris dans races éloignées