Доклады АН ВШ РФ

Параллельный алгоритм фильтрации повторов в данных NGS ILLUMINA

Выпуск № 4 (33) октябрь-декабрь 2016

Авторы:

Цыбин Александр Николаевич ,

Шаров Вадим Витальевич ,

Путинцева Юлия Андреевна ,

Феранчук Сергей Ильич ,

Кузьмин Дмитрий Александрович ,

DOI: http://dx.doi.org/10.17212/1727-2769-2016-4-99-110

Скачать полный текст

Аннотация
Авторы
Список литературы
Статистика

Аннотация
В статье рассматривается подход предобработки фрагментов (ридов), полученных по NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. Основная идея — фильтрация ридов от повторяющихся элементов, не используемых в белковом анализе данных. Разработан параллельный вероятностный алгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. Реализация алгоритма направлена на достижение максимального быстродействия. Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн. пар нуклеотидных оснований (п.н.о.). Сборка генома осуществлялась геномным ассемблером SPAdes. Верификация проводилась методом выравнивания ридов РНК на полученную сборку. В результате работы программы достигнуто значительное (более 20%) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0.005%, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза.

Ключевые слова: параллельный алгоритм, кластеризация, биоинформатика, повторы, фильтрация, ассемблирование генома, Illumina, SPAdes, Abyss

Цыбин Александр Николаевич
родился в 1994 году, магистрант, кафедра высокопроизводительных вычислений, СФУ. Область научных интересов: высокопроизводительные вычисления в задачах биоинформатики.
Orcid:

Шаров Вадим Витальевич
родился в 1992 году, научный сотрудник, НОЦ геномных исследований, СФУ. Область научных интересов: биоинформатика. Опубликовано 6 научных работ.
Orcid:

Путинцева Юлия Андреевна
родилась в 1985 году, научный сотрудник, Лаборатория лесоведения и почвоведения, Институт леса им. В.Н. Сукачева СО РАН. Область научных интересов: геномика, биоин-форматика, системная биология. Опубликованы 32 научные работы.
Orcid:

Феранчук Сергей Ильич
родился в 1968 году, канд. физ.-мат. наук, научный сотрудник, научно-образовательный центр геномных исследований, Сибирский Федеральный университет, доцент; кафедра информатики, Иркутский национальный исследовательский технический университет. Опубликовано 25 научных работ. Область интересов: геномика, биоинформатика.
Orcid:

Кузьмин Дмитрий Александрович
родился в 1968 году, канд. техн. наук, заведующий кафедрой «Высокопроизводительные вычисления» в Сибирском Федеральном университете. Область научных интересов: суперкомпьютеры, высокопроизводительные вычисления. Опубликовано 30 научных работ. (Адрес: 660113, Российская Федерация, Красноярск, ул. Карбышева,
• E-mail: ).
dkuzmin@sfu-kras.ru
Orcid:

Список литературы

The whole de novo genome sequencing and assembly of Siberian larch (Larix sibirica Ledeb.) and Siberian pine (Pinus sibirica Du Tour.) / N.V. Oreshkova, Yu.A. Putintseva, D.A. Kuzmin, V.V. Sharov, V.V. Biryukov, S.V. Makolov, K.O. Deych, A.A. Ibe, E.A. Shilkina, K.V. Krutovsky // The 3^rd International Conference "Plant Genetics, Genomics, Bioinformatics and Biotechnology" PlantGen 2015: Abstract book. – Novosibirsk, 2015. – P. 37.
Compeau P.E.C., Pevzner P.A., Tesler G. How to apply de Bruijn graphs to genome assembly [Electronic resource] // Jorunal of Nature Biotechnology. – 2011. – Vol. 29, N 11. – Available at: http://www.nature.com/nbt/journal/v29/n11/full/nbt.2023.html (accessed: 09.01.2017).
Геномный ассемблер SPAdes [Электронный ресурс]. – URL: http://bioinf.spbau.ru/ru/spades (дата обращения: 09.01.2017).
ABySS – Canada’s Michael Smith Genome Sciences Centre [Electronic resource]. – Available at: http://www.bcgsc.ca/platform/bioinfo/software/abyss (accessed: 09.01.2017).
What is FASTA format? [Electronic resource]. – Available at: http://zhanglab.ccmb.med.umich.edu/FASTA/ (accessed: 09.01.2017).
Maumus F., Quesneville H. Deep investigation of Arabidopsis thaliana junk DNA reveals a continuum between repetitive elements and genomic dark matter [Electronic resource] // PloS One. – 2014. – Vol. 9 (4). – Available at: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0094101 (accessed: 09.01.2017).
Программный комплекс фильтрации повторяющихся последовательностей (рипитов) в ридах NGS Illumina: a.c. № 2015619173 Российская Федерация / А.Н. Цыбин, Д.А. Кузьмин, С.И. Феранчук, Ю.А. Путинцева; заявитель и правообладатель ФГАОУ ВПО «Сибирский федеральный университет» (СФУ). – Заявл. 01.07.2015; опубл. 26.08.2015.

Просмотров аннотации: 2895
Скачиваний полного текста: 2043
Просмотров интерактивной версии: 0

ДОКЛАДЫ АКАДЕМИИ НАУК ВЫСШЕЙ ШКОЛЫ РОССИЙСКОЙ ФЕДЕРАЦИИ

Параллельный алгоритм фильтрации повторов в данных NGS ILLUMINA

ДОКЛАДЫ АКАДЕМИИ НАУК
ВЫСШЕЙ ШКОЛЫ РОССИЙСКОЙ ФЕДЕРАЦИИ