Аннотация
В статье рассматривается подход предобработки фрагментов (ридов), полученных по NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. Основная идея — фильтрация ридов от повторяющихся элементов, не используемых в белковом анализе данных. Разработан параллельный вероятностный алгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. Реализация алгоритма направлена на достижение максимального быстродействия. Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн. пар нуклеотидных оснований (п.н.о.). Сборка генома осуществлялась геномным ассемблером SPAdes. Верификация проводилась методом выравнивания ридов РНК на полученную сборку. В результате работы программы достигнуто значительное (более 20%) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0.005%, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза.
Ключевые слова: параллельный алгоритм, кластеризация, биоинформатика, повторы, фильтрация, ассемблирование генома, Illumina, SPAdes, Abyss