L’objectif de ce TP est de vous familiariser avec les packages R utilisés pour la manipulation et la visualisation de variations génomiques à partir de fichiers VCF.
Chez le bovin, il existe un locus de caractères quantitatifs (QTL) lié à la production de lait, situé sur le chromosome 6, et plus exactement sur une région de 700 kb, composée de 7 gènes.
Les échantillons QTL+ sont caractérisés par une diminution de la production en lait et une augmentation des concentrations en protéine et lipide.
Nom d’échantillon | Phénotype |
---|---|
SRR1262731 | QTL- |
SRR1205992 | QTL+ |
SRR1205973 | QTL+ |
Quelle mutation est responsable du phénotype QTL+?
Le point d’entrée de ce TP sera le fichier multi-VCF généré par le workflow décrit dans le cours/TP “variant-calling et annotation” du niveau 1.
# le chemain vers le vcf
vcf_file <- "data/pool_GATK_annot.vcf"
Le package R vcfR est un ensemble d’outils conçu pour lire, écrire, manipuler et analyser les données au format VCF. vcfR documentation
# installer le package
#install.packages("vcfR")
# charger le package / équivalent de module load
library(vcfR)
La fonction read.vcfR() du package vcfR permet de lire un fichier VCF/multi-VCF et de retourner un objet de la classe vcfR.
# pour chercher l'aide : help(read.vcfR) / ?read.vcfR()
?read.vcfR()
Exécuter la fonction read.vcfR()
vcf <- vcfR::read.vcfR(file = vcf_file, verbose = FALSE)
L’objet vcf appartient à quelle classe ?
is(vcf)
## [1] "vcfR"
Trois sections (slots) : * meta-information : entête du vcf * Fixed information : information par variant mais commune à tous les échantillons (position, allèles, qualité…) * Genotype information : information de génotypage par échantillon
La liste des slots :
slotNames(vcf)
## [1] "meta" "fix" "gt"
Ces slots corresponds aux différents parties d’un fichier vcf.