ДОКЛАДЫ АКАДЕМИИ НАУК
ВЫСШЕЙ ШКОЛЫ РОССИЙСКОЙ ФЕДЕРАЦИИ

ISSN: 1727-2769
English | Русский

Последний выпуск
№1(34)
январь - март 2017

Параллельный алгоритм фильтрации повторов в данных NGS ILLUMINA

Выпуск № 4 (33) октябрь-декабрь 2016
Авторы:

Цыбин Александр Николаевич,
Шаров Вадим Витальевич,
Путинцева Юлия Андреевна,
Феранчук Сергей Ильич,
Кузьмин Дмитрий Александрович
DOI: http://dx.doi.org/10.17212/1727-2769-2016-4-99-110
Аннотация
В статье рассматривается подход предобработки фрагментов (ридов), полученных по NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. Основная идея — фильтрация ридов от повторяющихся элементов, не используемых в белковом анализе данных. Разработан параллельный вероятностный алгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. Реализация алгоритма направлена на достижение максимального быстродействия. Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн. пар нуклеотидных оснований (п.н.о.). Сборка генома осуществлялась геномным ассемблером SPAdes. Верификация проводилась методом выравнивания ридов РНК на полученную сборку. В результате работы программы достигнуто значительное (более 20%) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0.005%, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза.
Ключевые слова: параллельный алгоритм, кластеризация, биоинформатика, повторы, фильтрация, ассемблирование генома, Illumina, SPAdes, Abyss

Список литературы
  1. The whole de novo genome sequencing and assembly of Siberian larch (Larix sibirica Ledeb.) and Siberian pine (Pinus sibirica Du Tour.) / N.V. Oreshkova, Yu.A. Putintseva, D.A. Kuzmin, V.V. Sharov, V.V. Biryukov, S.V. Makolov, K.O. Deych, A.A. Ibe, E.A. Shilkina, K.V. Krutovsky // The 3rd International Conference "Plant Genetics, Genomics, Bioinformatics and Biotechnology" PlantGen 2015: Abstract book. – Novosibirsk, 2015. – P. 37.
  2. Compeau P.E.C., Pevzner P.A., Tesler G. How to apply de Bruijn graphs to genome assembly [Electronic resource] // Jorunal of Nature Biotechnology. – 2011. – Vol. 29, N 11. – Available at: http://www.nature.com/nbt/journal/v29/n11/full/nbt.2023.html (accessed: 09.01.2017).
  3. Геномный ассемблер SPAdes [Электронный ресурс]. – URL: http://bioinf.spbau.ru/ru/spades (дата обращения: 09.01.2017).
  4. ABySS – Canada’s Michael Smith Genome Sciences Centre [Electronic resource]. – Available at: http://www.bcgsc.ca/platform/bioinfo/software/abyss (accessed: 09.01.2017).
  5. What is FASTA format? [Electronic resource]. – Available at: http://zhanglab.ccmb.med.umich.edu/FASTA/ (accessed: 09.01.2017).
  6. Maumus F., Quesneville H. Deep investigation of Arabidopsis thaliana junk DNA reveals a continuum between repetitive elements and genomic dark matter [Electronic resource] // PloS One. – 2014. – Vol. 9 (4). – Available at: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0094101 (accessed: 09.01.2017).
  7. Программный комплекс фильтрации повторяющихся последовательностей (рипитов) в ридах NGS Illumina: a.c. № 2015619173 Российская Федерация / А.Н. Цыбин, Д.А. Кузьмин, С.И. Феранчук, Ю.А. Путинцева; заявитель и правообладатель ФГАОУ ВПО «Сибирский федеральный университет» (СФУ). – Заявл. 01.07.2015; опубл. 26.08.2015.