Atelier Variant¶
École de bioinformatique IFB-INSERM 2024
Formateurs et Tuteurs
- Gabriele Adam - INRAe - gabriele.adam@inrae.fr
- Nadia Bessoltane - INRAe - nadia.bessoltane@inrae.fr
- Pauline François - ANSES - pauline.francois@anses.fr
- Vivien DESHAIES - AP-HP - vivien.deshaies@aphp.fr
Programme de l'atelier Variants¶
- Détection des petites variations génomiques
- Détection des variations structurales
- Manipulation des variants avec R
- Ecrire un script automatique
Introduction¶
I. Définition¶
1. Qu'est ce que c'est une variation génomique ?¶
Une variation génomique est un changement d'une ou plusieurs bases nucléotides, dans une séquence d'ADN particulière en comparaison avec une séquence d'ADN (un génome) de référence. Les variations génomiques se distinguent en deux catégories : Polymorphismes et mutations.
2. Différents types de variations¶
- SNV : Single Nucleotide Variant
- INDEL : INsertion ou DELetion d'une ou plusieurs bases
- MNV : Multi-Nucleotide Variant, soit plusieurs SNVs et/ou INDELs dans un bloc
- SV : Structural Variant, réarragement génomique affectant > 50bp
- CNV : Copy Number Variation
II. SNV ≠ SNP¶
- SNV (Single Nucleotide Variant) : Toute altération nucléotidique sans implication de fréquence populationnelle
- SNP (Single Nucleotide Polymorphism) : Implique qu'un variant est partagée dans la population (> 1%)
/!\ L'amalgame entre SNPs et SNVs est très souvent fait
III. Workflow¶
IV. Présentation des jeux de données¶
1. Le jeux de données pour le TP petites variations génomiques (SNVs & INDELs)¶
Depuis que l’homme fait de l’élevage, il essaie de faire en sorte de toujours améliorer sa production, que ce soit en quantité ou en qualité.
Les technologies de génotypage permettent maintenant de sélectionner les mâles reproducteurs en fonction du fond génétique qu’ils vont pouvoir transmettre à leur descendance.
Chez le bovin, il existe un locus de caractères quantitatifs (QTL) lié à la production de lait, situé sur le chromosome 6, et plus exactement sur une région de 700 kb, composée de 7 gènes.
Les échantillons QTL+ sont caractérisés par une diminution de la production en lait et une augmentation des concentrations en protéine et lipide.
Vous aurez à votre disposition :
- Un extrait des données de séquences d’un échantillon du projet 1000 génomes bovins, phénotypé comme QTL- : SRR1262731
- Les résultats du variant calling pour deux échantillons phénotypés QTL+ : SRR1205992 et SRR1205973
Your turn !
Quelle mutation est responsable de ce QTL ?
2. Le Jeux de données pour le TP variations structurales (SV)¶
Zymoseptoria tritici : Champignon ascomycète, pathogène du blé tendre,
responsable d’une maladie foliaire (septoriose).
- Principale maladie du blé (jusqu’à 50% de perte de rendement).
- Haploïde, génome de 40 Mb séquencé en 2011 : 13 chromosomes essentiels + 8 chromosomes accessoires
- Souche séquencée avec deux technologies : Illumina et MinIon
Your turn !
Retrouvez les délétions de grande taille
3. Se connecter sur le serveur¶
- Reservation:
- Account: 2422_ebaii_n1
- Number of CPUs: 4
- Amount of memory: 5G
4. Copier le matériel pédagogique¶
Positionnez-vous dans votre répertoire projet. Remplacer mon_projet par le nom de votre projet!!!
cd /shared/projects/mon_projet
Copiez le dossier atelier_variant dans votre projet.
cp -r /shared/projects/2422_ebaii_n1/atelier_variant ./
Vérifiez le contenu du dossier atelier_variant
# Vérification du contenu du dossier projet
ls -l
- TP_small_variants : TP détection des petits variations génomiques
- TP_structural_variants : TP détection des variations structurales
- TP_variant_process_R : TP manipulation des VCF sous R