Comparaison des versions

Légende

  • Ces lignes ont été ajoutées. Ce mot a été ajouté.
  • Ces lignes ont été supprimées. Ce mot a été supprimé.
  • La mise en forme a été modifiée.
Commentaire: Enhanced SPAdes section

...

Rcorrector est disponible sur les serveurs du M5. Pour accéder à l'aide, faites :

run_rcorrector.pl

Les principales options de Rcorrector sont décrites ci-dessous. 

run_rcorrector.pl -s <seqfiles> -k <taille du kmer> -t <nombre de thread> -maxcorK <correction maximal> [-od <dossier output>]

...

  • "cor": indiquant que la séquence a été corrigée
  • "unfixable_error": qui signifie que Rcorrector n'a pas pu corrriger les erreurs au sein de la séquence du read.
  • "l: m: h:" désignant respectivement le plus petit, le median et le plus grand nombre de kmer au sein de la séquence du read correspondant.

Lighter

Lighter [42] est un autre outil de correction d'erreurs de séquençage WGS également basé sur les kmers. Toutefois, Lighter utilise l'échantillonage des kmers et non leurs occurences pour corriger les reads. Lighter présente l'avantage d'être extrêmement rapide

...

SPAdes (St. Petersburg genome assembler) [43] est un assembleur de génome bactérien, écrit en python, qui fonctionne avec les données Illumina, IonTorrent, nanopore Oxford Nanopore et PacBio. Outre l'assemblage, le pipeline de SPAdes propose également plusieurs autres modules dont la correction de reads.
SPAdes  SPAdes utilise un algorithme original basé sur les graphes de de Bruijn pairés (PDBG) [54] avec plusieurs ajustements pour rendre l'algorithme plus praticable en présence d'erreurs au sein des reads. La résolution de la séquence circulaire CATCAGATAGGA par cet algorithme pourrait ressembler à la figure suivante. 

Image AddedDe Bruijn graphe vs PDBGImage Removed

SPAdes prends comme input, les reads pairés ou non-pairés (Illumina, 454, PacBio, Oxford Nanopore) en format fasta ou fastq. Le programme est installé sur les serveurs du M5SENS.

Il faut tout Pour utilise ce programme, il faut d'abord charger le module avant toute tentative d'exécution.

module load spades-3.15.4

Pour accéder à l'aide, utilisez ensuite :

...

  • [input] : Fichier fastq des reads pairés ou non-pairés.

    • --pe#-1 <reads pairés forward> : spécifie le fichier fastq contenant les reads forward pour les librairies paired-end. Le # est un chiffre entre [1-9] qui désigne le numéro de la librairie
    • --pe#-2 <reads pairés reverse> : spécifie le fichier fastq contenant les reads reverse pour les librairies paired-end. Utilisez le même numéro de librairie lorsqu'il s'agit de données de la même expérience.
    • --s# <reads non-pairés> : spécifie le fichier fastq contenant les reads non-pairés.


  • [option du pipeline] : Il s'agit des options reliées à l'exécution du pipeline.

    • --only-error-correction : n'exécuter que le module de correction d'erreurs. L'assemblage n'est donc pas effectué.
    • --only-assembler : ne faire que l'assemblage. Le module de correction n'est donc pas exécuté. Cette option est généralement utilisée si les lectures sont corrigées avec un autre outil (ex. Rcorrector ou Lighter). 
    • --careful : réduit au maximum le nombre de mismatches et d'indel courts. Cette option demande un temps d'exécution plus long.
    • --continue : permet de continuer à partir du checkpoint le plus récent lorsque l'éxécution précédente a été coupée.
  • [options avancées] : utilisation de paramètres plus avancés.

    • -t <threads> : spécifiez le nombre de threads à utiliser
    • --cov-cutoff <float> : seuil minimum requis pour la couverture.
    • -k <int, int, int> : liste d'entiers impairs, en ordre croissant, correspondant à la taille des kmers. La taille maximale est fixée à 127.
    • -m <int> : limite de la mémoire à utiliser par SPAdes en gb (250 par défaut). Si cette value est fixée, SPAdes arrêtera l'exécution dès que la mémoire utilisée dépasse la limite fixée.
  • -o <répertoire de sortie> : répertoire de sauvegarde des outputs de SPAdes.

Les outputs de SPAdes se trouvent tous dans le dossier spécifié. La liste non-exhaustive suivante représente quelques uns des fichiers outputs de SPAdes :

...

  • before_rr.fasta

...

  • : contient

...

  • les

...

  • contigs

...

  • avant

...

  • résolution

...

  • du

...

  • graphe

...

  • d'assemblage.

...

  • contigs.fasta

...

  • : contient

...

  • les

...

  • contigs

...

  • .
  • scaffolds.fasta

...

  • : contient

...

  • les

...

  • scaffolds

...

  • .
  • assembly_graph.fastg

...

  • : contient

...

  • le

...

  • graphe

...

  • d'assemblage

...

  • de

...

  • SPAdes

...

  • en

...

  • format

...

  • FASTG. Il est possible de visualiser ce graph avec Bandage.
  • contigs.paths

...

  • : contient

...

  • les

...

  • chemins

...

  • présents

...

  • dans

...

  • le

...

  • graphe

...

  • d'assemblage

...

  • des

...

  • contigs

...

  • .
  • scaffolds.paths

...

  • : contient

...

  • les

...

  • chemins

...

  • présents

...

  • dans

...

  • le

...

  • graphe

...

  • d'assemblage

...

  • des

...

  • scaffolds

...

  • params.txt

...

  • : information

...

  • sur

...

  • les

...

  • paramètres

...

  • de

...

  • SPAdes

...

  • utilisés

...

  • au

...

  • cours

...

  • de

...

  • l'éxécution

...

  • spades.log

...

  • : SPAdes

...

  • log

...

  • dataset.info

...

  • : fichier

...

  • de

...

  • configutation

...

  • interne

...

  • K<##>/

...

  • : dossier

...

  • contenant

...

  • les

...

  • fichiers

...

  • correspondant

...

  • à

...

  • l'éxécution

...

  • avec

...

  • comme

...

  • longueur

...

  • de

...

  • kmer

...

  • <##>

Explication de l'entête des

...

fichiers contigs.fasta

...

 et scaffolds.fasta

Les entêtes des fichiers fasta en output sont de la forme suivante : >NODE_7_length_217965_cov_40.4652_ID_4150. Le 7 désigne le numéro du noeud au sein du graphe (correspond à un contig ou un scaffold). 217965 désigne la longueur de la séquence, 40.4652 la couverture des kmers et 4150 l'ID unique associé au noeud.

...