pwd

/shared/ifbstor1/projects/2336_nanopore/TP_croisement


cd data
ls

chrs.len  DEgenes.txt  hsGRCh38.genes.gff3  picChip.bed  variant.vcf


head -n 2 *

==> chrs.len <==
1	248956422
10	133797422

==> DEgenes.txt <==
ENSG00000004846
ENSG00000005981

==> hsGRCh38.genes.gff3 <==
1	ensembl_havana	gene	65419	71585	.	+	.	ID=gene:ENSG00000186092;Name=OR4F5;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 5 [Source:HGNC Symbol%3BAcc:HGNC:14825];gene_id=ENSG00000186092;logic_name=ensembl_havana_gene;version=6
1	ensembl_havana	gene	450703	451697	.	-	.	ID=gene:ENSG00000284733;Name=OR4F29;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 29 [Source:HGNC Symbol%3BAcc:HGNC:31275];gene_id=ENSG00000284733;logic_name=ensembl_havana_gene;version=1

==> picChip.bed <==
22	16192349	16192565	region_1
22	16846630	16870710	region_2

==> variant.vcf <==
##fileformat=VCFv4.0
##fileDate=20180418


tail -n 2 variant.vcf

Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1


module load bedtools/2.30.0


head -n 2 DEgenes.txt picChip.bed hsGRCh38.genes.gff3

==> DEgenes.txt <==
ENSG00000004846
ENSG00000005981

==> picChip.bed <==
22	16192349	16192565	region_1
22	16846630	16870710	region_2

==> hsGRCh38.genes.gff3 <==
1	ensembl_havana	gene	65419	71585	.	+	.	ID=gene:ENSG00000186092;Name=OR4F5;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 5 [Source:HGNC Symbol%3BAcc:HGNC:14825];gene_id=ENSG00000186092;logic_name=ensembl_havana_gene;version=6
1	ensembl_havana	gene	450703	451697	.	-	.	ID=gene:ENSG00000284733;Name=OR4F29;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 29 [Source:HGNC Symbol%3BAcc:HGNC:31275];gene_id=ENSG00000284733;logic_name=ensembl_havana_gene;version=1


grep -f DEgenes.txt hsGRCh38.genes.gff3 > DEgenes.gff3
head -n2 DEgenes.gff3
echo "-----"
wc -l DEgenes.txt 
wc -l hsGRCh38.genes.gff3
wc -l DEgenes.gff3

1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16
1	ensembl_havana	gene	70852353	71047808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20
-----
162 DEgenes.txt
21492 hsGRCh38.genes.gff3
162 DEgenes.gff3


bedtools intersect -a DEgenes.gff3 -b picChip.bed -wa -u \
         > intersect_DEgenes_picChip.gff3


wc -l intersect_DEgenes_picChip.gff3

77 intersect_DEgenes_picChip.gff3


grep -v -f DEgenes.txt hsGRCh38.genes.gff3 > notDEgenes.gff3
wc -l notDEgenes.gff3

21330 notDEgenes.gff3


bedtools intersect -a notDEgenes.gff3 -b picChip.bed -wa -u \
       > intersect_notDEgenes_picChip.gff3
wc -l intersect_notDEgenes_picChip.gff3

9438 intersect_notDEgenes_picChip.gff3


wc -l DEgenes.gff3
wc -l intersect_DEgenes_picChip.gff3
wc -l notDEgenes.gff3
wc -l intersect_notDEgenes_picChip.gff3

162 DEgenes.gff3
77 intersect_DEgenes_picChip.gff3
21330 notDEgenes.gff3
9438 intersect_notDEgenes_picChip.gff3


tail -n2 DEgenes.gff3 variant.vcf

==> DEgenes.gff3 <==
9	havana	gene	133098121	133163914	.	-	.	ID=gene:ENSG00000285245;Name=AL162417.1;biotype=protein_coding;description=novel protein;gene_id=ENSG00000285245;logic_name=havana;version=1
X	ensembl_havana	gene	71107404	71112108	.	-	.	ID=gene:ENSG00000147168;Name=IL2RG;biotype=protein_coding;description=interleukin 2 receptor subunit gamma [Source:HGNC Symbol%3BAcc:HGNC:6010];gene_id=ENSG00000147168;logic_name=ensembl_havana_gene;version=12

==> variant.vcf <==
Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1


bedtools flank -i DEgenes.gff3 -g chrs.len -l 2000 -r 0 -s \
   > flank2kDEgenes.gff3
head -n2 flank2kDEgenes.gff3

1	ensembl_havana	gene	33079104	33081103	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16
1	ensembl_havana	gene	71047809	71049808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20


bedtools intersect -a variant.vcf -b flank2kDEgenes.gff3 -wa -u \
    > intersect_flank2kDEgenes_variant.txt
head -n 2 intersect_flank2kDEgenes_variant.txt
echo "-----"
wc -l intersect_flank2kDEgenes_variant.txt

1	33079702	rs10712676	GA	G	.	.	RS=10712676;RSPOS=33079703;dbSNPBuildID=137;SSR=0;SAO=0;VP=0x0501000a0005170126000200;GENEINFO=AZIN2:113451|LOC105378635:105378635;WGT=1;VC=DIV;SLO;INT;R5;ASP;VLD;G5A;G5;GNO;KGPhase3;CAF=0.8706,0.1294;COMMON=1;TOPMED=0.96872610856269113,0.03127389143730886
1	74197393	rs201749320	TTC	T	.	.	RS=201749320;RSPOS=74197394;dbSNPBuildID=137;SSR=0;SAO=0;VP=0x0500000a000504003e000200;GENEINFO=LRRIQ3:127255|FPGT-TNNI3K:100526835|FPGT:8790;WGT=1;VC=DIV;INT;R5;ASP;VLD;KGPhase1;KGPhase3;CAF=0.9958,0.004193;COMMON=1;TOPMED=0.99698967889908256,0.00301032110091743
-----
405 intersect_flank2kDEgenes_variant.txt


bedtools intersect -a flank2kDEgenes.gff3 -b variant.vcf -c \
   > intersect_flanck2kDEgenes_n_variant.txt
head -n 2 intersect_flanck2kDEgenes_n_variant.txt

1	ensembl_havana	gene	33079104	33081103	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16	1
1	ensembl_havana	gene	71047809	71049808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20	0


tail -n2 DEgenes.gff3 variant.vcf picChip.bed

==> DEgenes.gff3 <==
9	havana	gene	133098121	133163914	.	-	.	ID=gene:ENSG00000285245;Name=AL162417.1;biotype=protein_coding;description=novel protein;gene_id=ENSG00000285245;logic_name=havana;version=1
X	ensembl_havana	gene	71107404	71112108	.	-	.	ID=gene:ENSG00000147168;Name=IL2RG;biotype=protein_coding;description=interleukin 2 receptor subunit gamma [Source:HGNC Symbol%3BAcc:HGNC:6010];gene_id=ENSG00000147168;logic_name=ensembl_havana_gene;version=12

==> variant.vcf <==
Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1

==> picChip.bed <==
18	78005736	78005857	region_52421
18	78016442	78016675	region_52422


bedtools intersect -a picChip.bed -b variant.vcf -u > picVariant.bed


head -n 5 picVariant.bed

22	16846630	16870710	region_2
22	17070620	17114004	region_4
22	17128021	17136091	region_5
22	17147545	17173488	region_6
22	17192673	17206732	region_7


sort -k1,1 -k2,2n picVariant.bed > picVariant_sorted.bed


bedtools closest -a picVariant_sorted.bed -b DEgenes.gff3 \
   > DEgenes_closest_picVariant.bed


bedtools closest -a picVariant_sorted.bed -b DEgenes.gff3 -s \
   > DEgenes_closest_picVariant.bed


wc -l DEgenes_closest_picVariant.bed

28080 DEgenes_closest_picVariant.bed


awk 'BEGIN {OFS=FS="\t"} $3 == "gene" {print}' ".DEgenes_all.gff3" \
   > DEgenes.gff3


awk -F '\t' 'BEGIN{s=0}{s+=$NF}END{print s}' \
   intersect_flanck2kDEgenes_n_variant.txt

405


bedtools intersect -a hsGRCh38.genes.gff3 -b DEgenes.gff3 \
   -v -f 1 -F 1 -s -wa > notDEgenes.gff3
wc -l notDEgenes.gff3

21492 notDEgenes.gff3

Ratios	avec pics	sans pic	total
gene DE	77	162-77	162
gene non DE	9438	21330-9438	21330
total			21492

Ratios	avec pics	sans pic	total
gene DE	47.53%	52.47%	162
gene non DE	44.24%	55.76%	21330
total			21492

Croisement des données¶

Claire Toffano-Nioche, I2BC, Paris-Saclay¶

Pauline Francois, Anses, Lyon¶

Selon les ressources de Matthias Zytnicki, INRAE, Toulouse¶

et toute la team Roscoff¶

Objectifs du cours¶

Croisement de données¶

Qu’est-ce c'est ?¶

À quel moment est-ce valide ?¶

À quel moment est-ce douteux ?¶

Avant de commencer¶

Accès aux données du TP¶

Problème¶

Question scientifique¶

Données¶

Données¶

Protocole envisagé¶

A. Extraire les intervalles génomiques des gènes différentiellement exprimés (DE)¶

B. Comparer les intervalles génomiques des gènes DE avec les régions H3K4me3 (ie. l'emplacement des pics de chip-seq)¶

C. Compter le nombre de chevauchements entre les gènes DE et les pics¶

D. Trouver les intervalles génomiques des gènes non-différentiellement exprimés¶

E. Comparer ces intervalles génomiques avec les régions H3K4me3¶

F. Compter le nombre de chevauchements entre les gènes non DE et les pics¶

G. Comparer les nombres de chevauchements¶

Bonus n°1¶

Question scientifique¶

Données¶

Protocole envisagé¶

Bonus n°2¶

Question scientifique¶

Données¶

Protocole envisagé¶

Trouver les pics qui contiennent une mutation¶

Trouver le gène le plus proche de chaque région précédemment trouvée¶

Bonus n°3¶

Devine la commande¶

Awk¶

Alternative à grep -v¶