Assemblage parallèle de génomes à partir de séquences Illumina très courtes en paires.
Sébastien Boisvert, François Laviolette, Mario Marchand, et Jacques Corbeil.
12ème journée annuelle de la recherche, 27 mai 2010, Université Laval.

Thème

Génomique et expression génique

Titre

Assemblage parallèle de génomes à partir de séquences Illumina très courtes en paires.

Résumé

OBJECTIF : Tous les organismes vivants encodent leur fonctionnement dans un génome. Chez les bactéries, ce génome est fait d'ADN double-brin, et a une longueur de quelques centaines de milliers de paires de nucléotides à quelques millions. Par exemple, Mycoplasma agalactiae PG2, un pathogène chez les petits ruminants, a un génome de 877438 nucléotides, alors que Pseudomonas aeruginosa PAO1, un agent pathogène important en santé humaine, a un génome composé de 6264404 nucléotides. Par opposition, un génome humain contient 23 paires de chromosomes, pour un total d'environ 2 X 3 Gpb. Décoder les génomes permet de guider la découverte de nouvelles cibles thérapeutiques: les protéines encodées dans les génomes. Illumina, une compagnie de biotechnologie, offre une technologie qui permet d'obtenir des millions de paires de séquences digitales, lesquelles correspondent aux extrémités de fragments d'ADN de longueur connue provenant d'un génome, pour environ 4000 $. L'analyse bioinformatique de ces données est cependant un défi nécessitant les algorithmes adéquats et les structures de données appropriées.

MÉTHODES : Nous avons développé Ray (http://denovoassembler.sf.net/), un logiciel qui calcule en parallèle avec plusieurs ordinateurs la séquence d'un génome à partir de millions de paires de séquences digitales obtenues avec le Illumina Genome Analyzer. Nous avons testé Ray sur plusieurs ensembles de données, et avons utilisé le superordinateur de l'Université Laval.

RÉSULTATS : Pour la bactérie modèle Escherichia coli K-12 MG1655, nous avons obtenu un génome réparti en 148 séquences couvrant le génome à 98.1% avec aucune séquence erronée à partir de 21.9 millions de paires de séquences (fragments de 215 +/- 20 nucléotides) de 36 nucléotides. Le temps d'exécution est de moins de 30 minutes à l'aide de 28 processeurs AMD Opteron.

CONCLUSION : L'obtention de séquences digitales avec la technologie de séquençage d'ADN Illumina et l'analyse subséquente avec l'assembleur parallèle Ray permet de décoder un génome bactérien pour quelques milliers de dollars.


Back