1 Objectif

L’objectif de ce TP est de vous familiariser avec les packages R utilisés pour la manipulation et la visualisation de variations génomiques à partir de fichiers VCF.

2 Jeux de données

Chez le bovin, il existe un locus de caractères quantitatifs (QTL) lié à la production de lait, situé sur le chromosome 6, et plus exactement sur une région de 700 kb, composée de 7 gènes.

Les échantillons QTL+ sont caractérisés par une diminution de la production en lait et une augmentation des concentrations en protéine et lipide.

Nom d’échantillon Phénotype
SRR1262731 QTL-
SRR1205992 QTL+
SRR1205973 QTL+

Quelle mutation est responsable du phénotype QTL+?

Le point d’entrée de ce TP sera le fichier multi-VCF généré par le workflow décrit dans le cours/TP “variant-calling et annotation” du niveau 1.

# le chemain vers le vcf
vcf_file <- "data/pool_GATK_annot.vcf"

3 Lire le fichier vcf sous R

3.1 vcfR package: Manipulate and Visualize VCF Data

Le package R vcfR est un ensemble d’outils conçu pour lire, écrire, manipuler et analyser les données au format VCF. vcfR documentation

# installer le package
#install.packages("vcfR")
# charger le package / équivalent de module load
library(vcfR)       

La fonction read.vcfR() du package vcfR permet de lire un fichier VCF/multi-VCF et de retourner un objet de la classe vcfR.

# pour chercher l'aide : help(read.vcfR) / ?read.vcfR()
?read.vcfR()

Exécuter la fonction read.vcfR()

vcf <- vcfR::read.vcfR(file = vcf_file, verbose = FALSE)

L’objet vcf appartient à quelle classe ?

is(vcf)
## [1] "vcfR"

Trois sections (slots) : * meta-information : entête du vcf * Fixed information : information par variant mais commune à tous les échantillons (position, allèles, qualité…) * Genotype information : information de génotypage par échantillon

La liste des slots :

slotNames(vcf) 
## [1] "meta" "fix"  "gt"

Ces slots corresponds aux différents parties d’un fichier vcf.