# Se rendre dans le répertoire chip-seq
cd chip-seq/

# Créer le dossier bed
mkdir bed
# Se rendre dans le dossier bed
cd bed

# Télécharger le fichier
wget https://zenodo.org/record/5716151/files/hg38_exons.bed.gz

--2024-11-13 21:23:06--  https://zenodo.org/record/5716151/files/hg38_exons.bed.gz
Resolving zenodo.org (zenodo.org)... 188.185.79.172, 188.184.98.238, 188.184.103.159, ...
Connecting to zenodo.org (zenodo.org)|188.185.79.172|:443... connected.
HTTP request sent, awaiting response... 301 MOVED PERMANENTLY
Location: /records/5716151/files/hg38_exons.bed.gz [following]
--2024-11-13 21:23:06--  https://zenodo.org/records/5716151/files/hg38_exons.bed.gz
Reusing existing connection to zenodo.org:443.
HTTP request sent, awaiting response... 200 OK
Length: 8838009 (8.4M) [application/octet-stream]
Saving to: ‘hg38_exons.bed.gz’

hg38_exons.bed.gz   100%[===================>]   8.43M  40.3MB/s    in 0.2s    

2024-11-13 21:23:07 (40.3 MB/s) - ‘hg38_exons.bed.gz’ saved [8838009/8838009]

# Afficher le type du fichier hg38_exons.bed.gz
file hg38_exons.bed.gz

hg38_exons.bed.gz: gzip compressed data, was "hg38_exons.bed", last modified: Tue Nov 20 10:29:21 2018, from Unix, original size modulo 2^32 84636376

# Décompression du fichier hg38_exons.bed.gz
gunzip hg38_exons.bed.gz

# Listing du dossier
ls -l

total 65604
-rw-rw----+ 1 pfrancois pfrancois 84636376 Nov 13 21:23 hg38_exons.bed

# Type du fichier
file hg38_exons.bed

hg38_exons.bed: ASCII text

# Affiche les 10 premières lignes du fichier
head hg38_exons.bed

chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+

# Affiche les 10 dernières lignes du fichier
tail hg38_exons.bed

chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9911653	9911962	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+

# Copier le fichier 05_short.bed qui se trouve deux crans en arrière
cp ../../05_short.bed .

# Afficher tout le fichier
cat 05_short.bed

chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-

# Compter le nombre de lignes
wc -l hg38_exons.bed 05_short.bed

 1261870 hg38_exons.bed
      20 05_short.bed
 1261890 total

# On extrait la colonne 1
cut -f1 05_short.bed
# On ajoute un echo qui affiche quelques pointillés pour séparer visuellement nos deux sorties
echo "-------"
# Puis les colonnes à partir de la 4
cut -f4- 05_short.bed

chr1
chr1
chr1
chr1
chr1
chr1
chr1
chrY
chr1
chr1
chrY
chrY
chrY
chrY
chrY
chrY
chrY
chrY
chr1
chr1
-------
AC118553.2|ENST00000638792|protein_coding	.	+
AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
AC118553.2|ENST00000639037|protein_coding	.	+
AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
SLC35A3|ENST00000370153|protein_coding	.	+
SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
TTTY23|ENST00000452889|lincRNA	.	+
TTTY23|ENST00000452889|lincRNA	.	+
RNU6-1318P|ENST00000365389|snRNA	.	-
RNU6-1318P|ENST00000365389|snRNA	.	-

# Tri selon la colonne 4
sort -k4,4 05_short.bed

chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+

# Tri selon les colonnes 1 et 2 (2 en ordre numérique)
sort -k1,1 -k2,2n 05_short.bed

chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+

# Affiche les 5 premières lignes du fichier
tail -n5 05_short.bed

chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-

# Afficher les lignes de façon unique
uniq 05_short.bed

chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-

# Afficher les lignes de façon unique en comptant le nombre d'itérations condensées
uniq -c 05_short.bed

      1 chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000638968|nonsense_mediated_decay	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000639040|nonsense_mediated_decay	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000639171|nonsense_mediated_decay	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000640238|nonsense_mediated_decay	.	+
      1 chr1	100007033	100007156	AC118553.2|ENST00000640357|nonsense_mediated_decay	.	+
      1 chrY	9907662	9908139	TSPY13P|ENST00000338964|unprocessed_pseudogene	.	-
      1 chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+
      1 chr1	100007033	100007156	SLC35A3|ENST00000370155|nonsense_mediated_decay	.	+
      1 chrY	9951552	9951661	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9952122	9952198	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9957439	9957552	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9958418	9958529	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9958609	9958698	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9959111	9959423	RBMY2OP|ENST00000447105|unprocessed_pseudogene	.	+
      1 chrY	9910797	9910854	TTTY23|ENST00000452889|lincRNA	.	+
      1 chrY	9910967	9911113	TTTY23|ENST00000452889|lincRNA	.	+
      2 chr1	100000636	100000739	RNU6-1318P|ENST00000365389|snRNA	.	-

# Recherche le motif "protein"
grep "protein" 05_short.bed

chr1	100007033	100007156	AC118553.2|ENST00000638792|protein_coding	.	+
chr1	100007033	100007156	AC118553.2|ENST00000639037|protein_coding	.	+
chr1	100007033	100007156	SLC35A3|ENST00000370153|protein_coding	.	+

# Savoir combien de ligne contient le motif "protein"
grep -c "protein" 05_short.bed

3

# Définir le nombre de fichier d'un dossier sans les compter à la main
ls | wc -l

2

# Afficher une liste d'information non redondante
cut -f1 hg38_exons.bed | sort | uniq

chr1
chr10
chr11
chr12
chr13
chr14
chr15
chr16
chr17
chr18
chr19
chr2
chr20
chr21
chr22
chr3
chr4
chr5
chr6
chr7
chr8
chr9
chrX
chrY

# Afficher une liste d'information non redondante avec l'information du nombre d'itérations
cut -f1 hg38_exons.bed | sort | uniq -c

 117347 chr1
  46414 chr10
  75294 chr11
  72970 chr12
  20371 chr13
  43618 chr14
  47068 chr15
  60375 chr16
  77950 chr17
  22378 chr18
  73716 chr19
  97092 chr2
  28097 chr20
  14332 chr21
  27854 chr22
  80596 chr3
  49351 chr4
  55719 chr5
  56433 chr6
  60961 chr7
  45192 chr8
  45468 chr9
  39510 chrX
   3764 chrY

# Déterminer le nombre de gène unique sur le chromosome 22 dans le fichier
grep "chr22" hg38_exons.bed | grep "protein_coding" | cut -f4 | \
sort | uniq | wc -l > nb_gene.txt

Manipuler des fichiers¶

Equipe pédagogique : P. François, M. Genete, C. Toffano-Nioche, E. Jacquemet, G. Le Corguillé, J. Seiler, D. Puthier, T. Denecker et tout le staff¶

Format de fichier¶

Télécharger un fichier¶

Décompresser un fichier¶

N.B. : Un fichier compressé est beaucoup plus petit qu'un fichier non compressé. D'où leur nom. Rare sont les fichiers zippés par plaisir. Avant de les décompresser, assurez vous que cela soit nécessaire. Beaucoup d'outils acceptent les fichiers compressés en entrée.¶

Visualiser un fichier¶

Compter les lignes d'un fichier¶

Extraire une colonne¶

Trier un fichier¶

Retirer des doublons d'un fichier¶

Attention¶

Le ctrl + f de la ligne de commande¶

Mais en mieux¶

Redirections¶

The end¶