# Afficher le chemin
pwd

/shared/ifbstor1/projects/2422_ebaii_n1/cours_commun/TP_croisement

# Se déplacer dans le dossier data
cd data
# Lister son contenu
ls

DEgenes.txt  chrs.len  hsGRCh38.genes.gff3  picChip.bed  variant.vcf

# Afficher les deux premières lignes de tous les fichiers
head -n 2 *

==> DEgenes.txt <==
ENSG00000004846
ENSG00000005981

==> chrs.len <==
1	248956422
10	133797422

==> hsGRCh38.genes.gff3 <==
1	ensembl_havana	gene	65419	71585	.	+	.	ID=gene:ENSG00000186092;Name=OR4F5;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 5 [Source:HGNC Symbol%3BAcc:HGNC:14825];gene_id=ENSG00000186092;logic_name=ensembl_havana_gene;version=6
1	ensembl_havana	gene	450703	451697	.	-	.	ID=gene:ENSG00000284733;Name=OR4F29;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 29 [Source:HGNC Symbol%3BAcc:HGNC:31275];gene_id=ENSG00000284733;logic_name=ensembl_havana_gene;version=1

==> picChip.bed <==
22	16192349	16192565	region_1
22	16846630	16870710	region_2

==> variant.vcf <==
##fileformat=VCFv4.0
##fileDate=20180418

# Afficher les deux dernières lignes du fichier variant.vcf
tail -n 2 variant.vcf

Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1

# Charger les outils
module load bedtools/2.30.0 bc/1.07.1

# Trois premières lignes des fichiers listés
head -n 3 DEgenes.txt picChip.bed hsGRCh38.genes.gff3

==> DEgenes.txt <==
ENSG00000004846
ENSG00000005981
ENSG00000006747

==> picChip.bed <==
22	16192349	16192565	region_1
22	16846630	16870710	region_2
22	17067019	17067283	region_3

==> hsGRCh38.genes.gff3 <==
1	ensembl_havana	gene	65419	71585	.	+	.	ID=gene:ENSG00000186092;Name=OR4F5;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 5 [Source:HGNC Symbol%3BAcc:HGNC:14825];gene_id=ENSG00000186092;logic_name=ensembl_havana_gene;version=6
1	ensembl_havana	gene	450703	451697	.	-	.	ID=gene:ENSG00000284733;Name=OR4F29;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 29 [Source:HGNC Symbol%3BAcc:HGNC:31275];gene_id=ENSG00000284733;logic_name=ensembl_havana_gene;version=1
1	ensembl_havana	gene	685679	686673	.	-	.	ID=gene:ENSG00000284662;Name=OR4F16;biotype=protein_coding;description=olfactory receptor family 4 subfamily F member 16 [Source:HGNC Symbol%3BAcc:HGNC:15079];gene_id=ENSG00000284662;logic_name=ensembl_havana_gene;version=1

# Rechercher les gènes contenu dans le fichier txt dans le fichier gff3
grep -f DEgenes.txt hsGRCh38.genes.gff3 > DEgenes.gff3

# Compter le nombre de ligne de chacun des fichiers
wc -l DEgenes.txt
wc -l DEgenes.gff3
wc -l hsGRCh38.genes.gff3

162 DEgenes.txt
162 DEgenes.gff3
21492 hsGRCh38.genes.gff3

# Afficher les 5 premières lignes du fichier
head -n 5 DEgenes.gff3

1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16
1	ensembl_havana	gene	70852353	71047808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20
1	ensembl_havana	gene	74198235	74544393	.	+	.	ID=gene:ENSG00000259030;Name=FPGT-TNNI3K;biotype=protein_coding;description=FPGT-TNNI3K readthrough [Source:HGNC Symbol%3BAcc:HGNC:42952];gene_id=ENSG00000259030;logic_name=ensembl_havana_gene;version=7
1	ensembl_havana	gene	111722064	111755824	.	-	.	ID=gene:ENSG00000284755;Name=AL049557.1;biotype=protein_coding;description=inka box actin regulator 2 [Source:NCBI gene%3BAcc:55924];gene_id=ENSG00000284755;logic_name=ensembl_havana_gene;version=1
1	ensembl_havana	gene	147756199	147773362	.	-	.	ID=gene:ENSG00000265107;Name=GJA5;biotype=protein_coding;description=gap junction protein alpha 5 [Source:HGNC Symbol%3BAcc:HGNC:4279];gene_id=ENSG00000265107;logic_name=ensembl_havana_gene;version=2

# Intersection du fichier A et du fichier B
bedtools intersect -a DEgenes.gff3 -b picChip.bed \
-wa -u > intersect_DEgenes_picChip.gff3

# Comptage des lignes
wc -l intersect_DEgenes_picChip.gff3

77 intersect_DEgenes_picChip.gff3

# Recherche inversée du contenu du fichier dans le gff3
grep -v -f DEgenes.txt hsGRCh38.genes.gff3 > notDEgenes.gff3
# Comptage des lignes
wc -l notDEgenes.gff3

21330 notDEgenes.gff3

# Nouvel intersect mais avec le fichier de gène non DE
bedtools intersect -a notDEgenes.gff3 -b picChip.bed \
-wa -u > intersect_notDEgenes_picChip.gff3
# Comptage des lignes
wc -l intersect_notDEgenes_picChip.gff3

9438 intersect_notDEgenes_picChip.gff3

# Comptage des lignes de tous les fichiers
wc -l DEgenes.gff3
wc -l intersect_DEgenes_picChip.gff3
wc -l notDEgenes.gff3
wc -l intersect_notDEgenes_picChip.gff3

162 DEgenes.gff3
77 intersect_DEgenes_picChip.gff3
21330 notDEgenes.gff3
9438 intersect_notDEgenes_picChip.gff3

# Visualisation de la fin des fichiers
tail -n2 DEgenes.gff3 variant.vcf chrs.len

==> DEgenes.gff3 <==
9	havana	gene	133098121	133163914	.	-	.	ID=gene:ENSG00000285245;Name=AL162417.1;biotype=protein_coding;description=novel protein;gene_id=ENSG00000285245;logic_name=havana;version=1
X	ensembl_havana	gene	71107404	71112108	.	-	.	ID=gene:ENSG00000147168;Name=IL2RG;biotype=protein_coding;description=interleukin 2 receptor subunit gamma [Source:HGNC Symbol%3BAcc:HGNC:6010];gene_id=ENSG00000147168;logic_name=ensembl_havana_gene;version=12

==> variant.vcf <==
Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1

==> chrs.len <==
KI270392.1	971
KI270394.1	970

# Recherche de régions flanquantes
bedtools flank -i DEgenes.gff3 -g chrs.len \
-l 2000 -r 0 -s > flank2kDEgenes.gff3
# Visualisation des trois premières lignes
head -n3 flank2kDEgenes.gff3

1	ensembl_havana	gene	33079104	33081103	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16
1	ensembl_havana	gene	71047809	71049808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20
1	ensembl_havana	gene	74196235	74198234	.	+	.	ID=gene:ENSG00000259030;Name=FPGT-TNNI3K;biotype=protein_coding;description=FPGT-TNNI3K readthrough [Source:HGNC Symbol%3BAcc:HGNC:42952];gene_id=ENSG00000259030;logic_name=ensembl_havana_gene;version=7

# Nouvelle intersection
bedtools intersect -a variant.vcf -b flank2kDEgenes.gff3 \
-wa -u > intersect_flank2kDEgenes_variant.txt
# Visualisation des 5 premières lignes
head -n 5 intersect_flank2kDEgenes_variant.txt

1	33079702	rs10712676	GA	G	.	.	RS=10712676;RSPOS=33079703;dbSNPBuildID=137;SSR=0;SAO=0;VP=0x0501000a0005170126000200;GENEINFO=AZIN2:113451|LOC105378635:105378635;WGT=1;VC=DIV;SLO;INT;R5;ASP;VLD;G5A;G5;GNO;KGPhase3;CAF=0.8706,0.1294;COMMON=1;TOPMED=0.96872610856269113,0.03127389143730886
1	74197393	rs201749320	TTC	T	.	.	RS=201749320;RSPOS=74197394;dbSNPBuildID=137;SSR=0;SAO=0;VP=0x0500000a000504003e000200;GENEINFO=LRRIQ3:127255|FPGT-TNNI3K:100526835|FPGT:8790;WGT=1;VC=DIV;INT;R5;ASP;VLD;KGPhase1;KGPhase3;CAF=0.9958,0.004193;COMMON=1;TOPMED=0.99698967889908256,0.00301032110091743
1	147773875	rs72546659	C	CT	.	.	RS=72546659;RSPOS=147773875;dbSNPBuildID=130;SSR=0;SAO=0;VP=0x0501100a000504003e000200;GENEINFO=GJA5:2702|LOC102723321:102723321;WGT=1;VC=DIV;TPA;SLO;INT;R5;ASP;VLD;KGPhase1;KGPhase3;CAF=0.9968,0.003195;COMMON=1;TOPMED=0.99143890163098878,0.00856109836901121
1	147775166	rs10641806	A	AAT	.	.	RS=10641806;RSPOS=147775166;dbSNPBuildID=135;SSR=0;SAO=0;VP=0x0500000a000515003e000200;GENEINFO=GJA5:2702|LOC102723321:102723321;WGT=1;VC=DIV;INT;R5;ASP;VLD;G5;KGPhase1;KGPhase3;CAF=0.05811,0.9419;COMMON=1
1	173918736	rs577103838	G	GGAGGCA	.	.	RS=577103838;RSPOS=173918736;dbSNPBuildID=142;SSR=0;SAO=0;VP=0x050000020005040026000200;GENEINFO=SERPINC1:462;WGT=1;VC=DIV;R5;ASP;VLD;KGPhase3;CAF=0.9988,0.001198;COMMON=1;TOPMED=0.99892488532110091,0.00107511467889908

# Comptage des lignes
wc -l intersect_flank2kDEgenes_variant.txt

405 intersect_flank2kDEgenes_variant.txt

# Nouvelle intersection avec comptage
bedtools intersect -a flank2kDEgenes.gff3 -b variant.vcf \
-c > intersect_flanck2kDEgenes_n_variant.txt
# Visualisation des 5 premières lignes
head -n 5 intersect_flanck2kDEgenes_n_variant.txt

1	ensembl_havana	gene	33079104	33081103	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16	1
1	ensembl_havana	gene	71047809	71049808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20	0
1	ensembl_havana	gene	74196235	74198234	.	+	.	ID=gene:ENSG00000259030;Name=FPGT-TNNI3K;biotype=protein_coding;description=FPGT-TNNI3K readthrough [Source:HGNC Symbol%3BAcc:HGNC:42952];gene_id=ENSG00000259030;logic_name=ensembl_havana_gene;version=7	1
1	ensembl_havana	gene	111755825	111757824	.	-	.	ID=gene:ENSG00000284755;Name=AL049557.1;biotype=protein_coding;description=inka box actin regulator 2 [Source:NCBI gene%3BAcc:55924];gene_id=ENSG00000284755;logic_name=ensembl_havana_gene;version=1	0
1	ensembl_havana	gene	147773363	147775362	.	-	.	ID=gene:ENSG00000265107;Name=GJA5;biotype=protein_coding;description=gap junction protein alpha 5 [Source:HGNC Symbol%3BAcc:HGNC:4279];gene_id=ENSG00000265107;logic_name=ensembl_havana_gene;version=2	2

# Visualisation des 2 dernières lignes
tail -n2 DEgenes.gff3 variant.vcf picChip.bed

==> DEgenes.gff3 <==
9	havana	gene	133098121	133163914	.	-	.	ID=gene:ENSG00000285245;Name=AL162417.1;biotype=protein_coding;description=novel protein;gene_id=ENSG00000285245;logic_name=havana;version=1
X	ensembl_havana	gene	71107404	71112108	.	-	.	ID=gene:ENSG00000147168;Name=IL2RG;biotype=protein_coding;description=interleukin 2 receptor subunit gamma [Source:HGNC Symbol%3BAcc:HGNC:6010];gene_id=ENSG00000147168;logic_name=ensembl_havana_gene;version=12

==> variant.vcf <==
Y	26614668	rs376925794	TC	T	.	.	RS=376925794;RSPOS=26614671;dbSNPBuildID=138;SSR=0;SAO=0;VP=0x050000000005000002000200;WGT=1;VC=DIV;ASP;CAF=0.9968,0.003244;COMMON=1
Y	26624486	rs771929773	T	TA	.	.	RS=771929773;RSPOS=26624486;dbSNPBuildID=144;SSR=0;SAO=0;VP=0x050000000005040024000200;WGT=1;VC=DIV;ASP;VLD;KGPhase3;CAF=0.9968,0.003244;COMMON=1

==> picChip.bed <==
18	78005736	78005857	region_52421
18	78016442	78016675	region_52422

# Nouvelle intersection
bedtools intersect -a picChip.bed -b variant.vcf  -u > picVariant.bed

## L'option -u permet de garder l'ensemble de l'information des pics 
# sans ajouter celle des variants

# Visualisation des 5 premières lignes
head -n 5 picVariant.bed

22	16846630	16870710	region_2
22	17070620	17114004	region_4
22	17128021	17136091	region_5
22	17147545	17173488	region_6
22	17192673	17206732	region_7

# Tri selon les colonnes 1 et 2 (2 en ordre numérique)
sort -k1,1 -k2,2n picVariant.bed > picVariant_sorted.bed

# Recherche des gènes les plus proches des pics
bedtools closest -a picVariant_sorted.bed \
-b DEgenes.gff3 > DEgenes_closest_picVariant.bed

# Comptage des lignes
wc -l picVariant_sorted.bed DEgenes_closest_picVariant.bed

  28080 picVariant_sorted.bed
  28088 DEgenes_closest_picVariant.bed
  56168 total

# Visualisation des deux premières lignes
head -n2 DEgenes_closest_picVariant.bed

1	713056	713670	region_8999	1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16
1	760194	766425	region_9005	1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16

# Recherche des gènes les plus proches 
bedtools closest -a picVariant_sorted.bed \
-b DEgenes.gff3 -D b > DEgenes_closest_picVariant_distance.bed

# Visualisation des deux premières lignes
head -n2 DEgenes_closest_picVariant_distance.bed

1	713056	713670	region_8999	1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16	-32367434
1	760194	766425	region_9005	1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16	-32314679

# Recherche des gènes les plus proches et dans la zone définie entre [-2000; +2000]
bedtools closest -a picVariant_sorted.bed \
-b DEgenes.gff3 -D b | \
awk 'BEGIN{FS="\t"}{if($14>=-2000 && $14<=2000){print $0}}' \
> DEgenes_closest_picVariant_borne2000.bed

# Afficher les deux premières lignes
head -n2 DEgenes_closest_picVariant_borne2000.bed

1	33112919	33119940	region_10192	1	ensembl_havana	gene	33081104	33120530	.	+	.	ID=gene:ENSG00000142920;Name=AZIN2;biotype=protein_coding;description=antizyme inhibitor 2 [Source:HGNC Symbol%3BAcc:HGNC:29957];gene_id=ENSG00000142920;logic_name=ensembl_havana_gene;version=16	0
1	70875092	70879897	region_11035	1	ensembl_havana	gene	70852353	71047808	.	-	.	ID=gene:ENSG00000050628;Name=PTGER3;biotype=protein_coding;description=prostaglandin E receptor 3 [Source:HGNC Symbol%3BAcc:HGNC:9595];gene_id=ENSG00000050628;logic_name=ensembl_havana_gene;version=20	0

# Recherche des gènes les plus proches et dans la zone définie entre [-2000; 0[
bedtools closest -a picVariant_sorted.bed \
-b DEgenes.gff3 -D b | \
awk 'BEGIN{FS="\t"}{if($14>=-2000 && $14<0){print $0}}' \
> DEgenes_closest_picVariant_amont_gene_DE.bed

# Affichage des fichiers
cat DEgenes_closest_picVariant_amont_gene_DE.bed

10	71202570	71212017	region_4870	10	ensembl_havana	gene	71212570	71302864	.	+	.	ID=gene:ENSG00000107731;Name=UNC5B;biotype=protein_coding;description=unc-5 netrin receptor B [Source:HGNC Symbol%3BAcc:HGNC:12568];gene_id=ENSG00000107731;logic_name=ensembl_havana_gene;version=12	-553
10	71210834	71211813	region_4871	10	ensembl_havana	gene	71212570	71302864	.	+	.	ID=gene:ENSG00000107731;Name=UNC5B;biotype=protein_coding;description=unc-5 netrin receptor B [Source:HGNC Symbol%3BAcc:HGNC:12568];gene_id=ENSG00000107731;logic_name=ensembl_havana_gene;version=12	-757
14	77500630	77515764	region_50749	14	ensembl_havana	gene	77474394	77498850	.	-	.	ID=gene:ENSG00000100593;Name=ISM2;biotype=protein_coding;description=isthmin 2 [Source:HGNC Symbol%3BAcc:HGNC:23176];gene_id=ENSG00000100593;logic_name=ensembl_havana_gene;version=17	-1781

# Intersection inversée
bedtools intersect -a hsGRCh38.genes.gff3 -b DEgenes.gff3 \
-v -f 1 -F 1 -s -wa > notDEgenes.gff3
# Comptage des lignes
wc -l notDEgenes.gff3

21330 notDEgenes.gff3

Ratios	avec pics	sans pic	total
gene DE	47.53%	52.47%	162
gene non DE	44.24%	55.76%	21330
total			21492

Croisement des données¶

Claire Toffano-Nioche, I2BC, Paris-Saclay¶

Pauline Francois, Anses, Lyon¶

Selon les ressources de Matthias Zytnicki, INRAE, Toulouse¶

et toute la team Roscoff¶

Objectifs du cours¶

Croisement de données¶

Qu’est-ce c'est ?¶

À quel moment est-ce valide ?¶

À quel moment est-ce douteux ?¶

Données disponibles¶

Avant de commencer¶

Accès aux données du TP¶

Problème¶

Question scientifique¶

Données¶

Protocole envisagé¶

A. Extraire les intervalles génomiques des gènes différentiellement exprimés (DE)¶

B. Comparer les intervalles génomiques des gènes DE avec les régions H3K4me3 (ie. l'emplacement des pics de chip-seq)¶

C. Compter le nombre de chevauchements entre les gènes DE et les pics¶

D. Trouver les intervalles génomiques des gènes non-différentiellement exprimés¶

E. Comparer ces intervalles génomiques avec les régions H3K4me3¶

F. Compter le nombre de chevauchements entre les gènes non DE et les pics¶

G. Comparer les nombres de chevauchements¶

Bonus n°1¶

Question scientifique¶

Données¶

Protocole envisagé¶

Bonus n°2¶

Question scientifique¶

Données¶

Protocole envisagé¶

Trouver les pics qui contiennent une mutation¶

Trouver le gène le plus proche de chaque région précédemment trouvée¶

Bonus n°3¶

Devine la commande¶

Alternative à grep -v¶