Date limite: 8 avril 2011
Journée annuelle de la recherche, Faculté de médecine, Université Laval
7 juin 2011

ASSEMBLAGE DE NOVO DE GÉNOMES HUMAINS EN QUELQUES HEURES

BOISVERT, SÉBASTIEN 1,2; Laviolette, François 3; Corbeil, Jacques 1,2

1 Département de médecine moléculaire, Université Laval, Québec, Québec, Canada
2 Centre de recherche en infectiologie, Centre hospitalier universitaire de Québec, Pavillon CHUL, Québec, Québec, Canada
3 Département d'informatique et de génie logiciel, Université Laval, Québec, Québec, Canada

OBJECTIF:

La disponibilité des technologies de séquençage de l'ADN à haut débit a révolutionné les sciences génomiques. Les millions de courtes séquences obtenues peuvent être alignées sur la séquence de référence du génome humain afin d'obtenir une liste de polymorphismes d'un seul nucléotide pour un individu. Cependant, les variations structurales (délétions, insertions, duplications en tandem ou entrelacées, inversions & translocations) jouent également un rôle dans la variation phénotypique. L'assemblage de novo consiste à assembler les millions de courtes séquences en séquences contiguës sans utiliser une référence. Un assemblage de novo permet d'obtenir, en théorie, toutes les variations structurales, mais les outils permettant ce type d'analyses sont en intense développement.

MÉTHODES:

Nous avons développé un assembleur de novo de génomes appelé Ray. Celui-ci est massivement parallèle -- tout comme les technologies de séquençage actuelles. Cet assembleur utilise l'interface de passage de messages afin de grouper plusieurs ordinateurs pour obtenir un superordinateur.

RÉSULTATS:

L'approche appelée ALLPATHS-LG du Broad Institute of MIT and Harvard nécessite 3 semaines pour assembler un génome humain. Avec notre approche appelée Ray, 6 milliards de courtes séquences de 75 nucléotides ont été assemblées en un génome humain en 11 heures en utilisant le colosse -- le superordinateur de l'Université Laval.

CONCLUSION:

L'assemblage de novo de génomes humains est très prometteur puisqu'il permet de découvrir une panoplie de variations structurales. Notre prochaine étape est d'utiliser des librairies en paires avec des grandes distances pour traverser les séquences répétées. Logiciel disponible: http://denovoassembler.sf.net

REMERCIEMENTS

SB est boursier au doctorat des IRSC. FL est financé par le CRSNG. JC est financé par les IRSC et a une chaire de recherche du Canada. Nous remercions Calcul Canada et le CLUMEQ pour les ressources de calcul.

RÉFÉRENCES

Données: http://www.ncbi.nlm.nih.gov/sra/SRA010766
Alkan, Coe & Eichler (2011) Nature Reviews Genetics doi:10.1038/nrg2958
Batzer & Deininger (2002) Nature Reviews Genetics doi:10.1038/nrg798
Boisvert et al. (2010) J. Comp. Biol. doi:10.1089/cmb.2009.0238
Boisvert et al. (2011) RECOMB Satellite Workshop on Massively Parallel Sequencing
Shendure & Ji (2008) Nature Biotechnology doi:10.1038/nbt1486

Mon Jun 6 13:47:32 EDT 2011
Back