ДОКЛАДЫ АКАДЕМИИ НАУК
ВЫСШЕЙ ШКОЛЫ РОССИЙСКОЙ ФЕДЕРАЦИИ

ISSN: 1727-2769
English | Русский

Последний выпуск
№1(34)
январь - март 2017

Параллельный алгоритм фильтрации повторов в данных NGS ILLUMINA

Выпуск № 4 (33) октябрь-декабрь 2016
Авторы:

Цыбин Александр Николаевич
родился в 1994 году, магистрант, кафедра высокопроизводительных вычислений, СФУ. Область научных интересов: высокопроизводительные вычисления в задачах биоинформатики.
Шаров Вадим Витальевич
родился в 1992 году, научный сотрудник, НОЦ геномных исследований, СФУ. Область научных интересов: биоинформатика. Опубликовано 6 научных работ.
Путинцева Юлия Андреевна
родилась в 1985 году, научный сотрудник, Лаборатория лесоведения и почвоведения, Институт леса им. В.Н. Сукачева СО РАН. Область научных интересов: геномика, биоин-форматика, системная биология. Опубликованы 32 научные работы.
Феранчук Сергей Ильич
родился в 1968 году, канд. физ.-мат. наук, научный сотрудник, научно-образовательный центр геномных исследований, Сибирский Федеральный университет, доцент; кафедра информатики, Иркутский национальный исследовательский технический университет. Опубликовано 25 научных работ. Область интересов: геномика, биоинформатика.
Кузьмин Дмитрий Александрович
родился в 1968 году, канд. техн. наук, заведующий кафедрой «Высокопроизводительные вычисления» в Сибирском Федеральном университете. Область научных интересов: суперкомпьютеры, высокопроизводительные вычисления. Опубликовано 30 научных работ. (Адрес: 660113, Российская Федерация, Красноярск, ул. Карбышева, 18. E-mail: dkuzmin@sfu-kras.ru).
DOI: http://dx.doi.org/10.17212/1727-2769-2016-4-99-110
Ключевые слова: параллельный алгоритм, кластеризация, биоинформатика, повторы, фильтрация, ассемблирование генома, Illumina, SPAdes, Abyss
Аннотация
В статье рассматривается подход предобработки фрагментов (ридов), полученных по NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. Основная идея — фильтрация ридов от повторяющихся элементов, не используемых в белковом анализе данных. Разработан параллельный вероятностный алгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. Реализация алгоритма направлена на достижение максимального быстродействия. Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн. пар нуклеотидных оснований (п.н.о.). Сборка генома осуществлялась геномным ассемблером SPAdes. Верификация проводилась методом выравнивания ридов РНК на полученную сборку. В результате работы программы достигнуто значительное (более 20%) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0.005%, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза.
Список литературы
  1. The whole de novo genome sequencing and assembly of Siberian larch (Larix sibirica Ledeb.) and Siberian pine (Pinus sibirica Du Tour.) / N.V. Oreshkova, Yu.A. Putintseva, D.A. Kuzmin, V.V. Sharov, V.V. Biryukov, S.V. Makolov, K.O. Deych, A.A. Ibe, E.A. Shilkina, K.V. Krutovsky // The 3rd International Conference "Plant Genetics, Genomics, Bioinformatics and Biotechnology" PlantGen 2015: Abstract book. – Novosibirsk, 2015. – P. 37.
  2. Compeau P.E.C., Pevzner P.A., Tesler G. How to apply de Bruijn graphs to genome assembly [Electronic resource] // Jorunal of Nature Biotechnology. – 2011. – Vol. 29, N 11. – Available at: http://www.nature.com/nbt/journal/v29/n11/full/nbt.2023.html (accessed: 09.01.2017).
  3. Геномный ассемблер SPAdes [Электронный ресурс]. – URL: http://bioinf.spbau.ru/ru/spades (дата обращения: 09.01.2017).
  4. ABySS – Canada’s Michael Smith Genome Sciences Centre [Electronic resource]. – Available at: http://www.bcgsc.ca/platform/bioinfo/software/abyss (accessed: 09.01.2017).
  5. What is FASTA format? [Electronic resource]. – Available at: http://zhanglab.ccmb.med.umich.edu/FASTA/ (accessed: 09.01.2017).
  6. Maumus F., Quesneville H. Deep investigation of Arabidopsis thaliana junk DNA reveals a continuum between repetitive elements and genomic dark matter [Electronic resource] // PloS One. – 2014. – Vol. 9 (4). – Available at: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0094101 (accessed: 09.01.2017).
  7. Программный комплекс фильтрации повторяющихся последовательностей (рипитов) в ридах NGS Illumina: a.c. № 2015619173 Российская Федерация / А.Н. Цыбин, Д.А. Кузьмин, С.И. Феранчук, Ю.А. Путинцева; заявитель и правообладатель ФГАОУ ВПО «Сибирский федеральный университет» (СФУ). – Заявл. 01.07.2015; опубл. 26.08.2015.
УДК: УДК 004.421