Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№2(94) Апрель - Июнь 2024

Мультисерверный подход к высокопроизводительному вычислению молекулярных дескрипторов

Выпуск № 1 (58) Январь - Март 2015
Авторы:

С.Р. ГАРСИА-ДЖАКАС,
T.В. АВДЕЕНКО
DOI: http://dx.doi.org/10.17212/1814-1196-2015-1-148-160
Аннотация
Настоящая статья описывает новый модуль программного обеспечения QuBiLS-MIDAS для распределенного вычисления 3D мультилинейных алгебраических молекулярных дескрипторов. Программа QuBiLS-MIDAS первоначально имела следующие особенности: многоядерные вычисления, режим пакетной обработки, модуль очистки данных, возможности пользовательской конфигурации дескрипторов, полная кросс-платформность. Основной мотивацией для разработки нового модуля явилась вычислительная сложность, с которой столкнулись разработчики программы при вычислении дескрипторов на больших наборах данных. Для выполнения этой задачи была разработана мультисерверная вычислительная платформа

T-arenal, которая предназначена для организаций, имеющих множество рабочих станций, связанных через локальную сеть,  без выделения ресурсов, специально предназначенных для вычислительных задач. Составляющую front-end платформы T-arenal формирует графический пользовательский интерфейс. Эта новая система развернута на 337 рабочих станциях, принадлежащих вычислительным лабораториям Университета информационных наук г. Гавана, Куба, и идеально интегрируется с программным обеспечением QuBiLS-MIDAS. Система T-arenal была конфигурирована с корневым сервером и тремя серверами запроса, каждый с равным количеством клиентов (рабочих станций). Для иллюстрации применимости платформы

T-arenal были проведены тесты производительности над набором данных, содержащим 15 000 соединений. При этом получено 52- и 60-кратное снижение времени обработки соответственно для 2-линейных и 3-линейных индексов. Таким образом, можно констатировать, что программное обеспечение T-arenal при использовании распределенных вычислений представляет собой эффективную стратегию для выполнения высокоскоростных расчетов 3D мультилинейных дескрипторов.
Ключевые слова: хемоинформатика, распределенная вычислительная система, мультисерверная архитектура, платформа распределенных задач, молекулярные дескрипторы, параллельные вычисления, графический пользовательский интерфейс, клиент-серверная архитектура

Список литературы
1. Brown F.K. Chapter 35. Chemoinformatics: what is it and how does it impact drug disco-very // Annual Reports in Medicinal Chemistry. – 1998. – Vol. 33. – P. 375–384. – doi: 10.1016/S0065-7743(08)61100-8.

2. Todeschini R., Consonni V. Molecular descriptors for chemoinformatics. Vol. 1: Alphabetical listing. – 1st ed. – Weinheim: Wiley-VCH, 2009. – 967 p.

3. DRAGON, v 6.0 / Milano chemometrics and QSAR research group. – Milano, Italy, 2010.

4. Mold(2), molecular descriptors from 2D structures for chemoinformatics and toxicoinformatics / H. Hong, Q. Xie, W. Ge, F. Qian, H. Fang, L. Shi, Z. Su, R. Perkins, W. Tong // Journal of Chemical Information and Modeling. – 2008. – Vol. 48, iss. 7. – P. 1337–1344. – doi: 10.1021/ci800038f.

5. Blue Desk. – Tübingen, Germany: University of Tübingen, 2008.

6. Liu K., Feng J., Young S.S. Power MV:  A software environment for molecular viewing, descriptor generation, data analysis and hit evaluation // Journal of Chemical Information and Mo-deling. – 2005. – Vol. 45, iss. 2. – P. 515–522. – doi: 10.1021/ci049847v.

7. Yap C.W. PaDEL-descriptor: an open source software to calculate molecular descriptors and fingerprints // Journal of Computational Chemistry. – 2011. – Vol. 32, iss. 7. – P. 1466–1474. – doi: 10.1002/jcc.21707.

8. QuBiLS-MIDAS: a parallel free-software for molecular descriptors computation based on multilinear algebraic maps / C.R. García-Jacas, Y. Marrero-Ponce, L. Acevedo-Martínez, S.J. Ba-rigye, J.R. Valdés-Martiní, E. Contreras-Torres // Journal of Computational Chemistry. – 2014. – Vol. 35, iss. 18. – P. 1395–1409. – doi: 10.1002/jcc.23640.

9. N-linear algebraic maps for chemical structure codification: a suitable generalization for atom-pair approaches? / C.R. García-Jacas, Y. Marrero-Ponce, S.J. Barigye, J.R. Valdés-Martiní, O.M. Rivera-Borroto, J.O. Verbel // Current Drug Metabolism. – 2014. – Vol. 15, iss. 4. – P. 441–469. – doi: 10.2174/1389200215666140605124506.

10. Anderson D.P. BOINC: a system for public-resource computing and storage // Fifth IEEE/ACM International Workshop on Grid Computing, 8 November 2004: Proceedings. – Pittsburgh, USA, 2004. – P. 4–10. – doi: 10.1109/GRID.2004.14.

11. Labs of the World, unite!!! / W. Cirne, F. Brasileiro, N. Andrade, L. Costa, A. Andrade, R. Novaes, M. Mowbray / Journal of Grid Computing. – 2006. – Vol. 4, iss. 3. – P. 225–246. – doi: 10.1007/s10723-006-9040-x.

12. Lam C. Hadoop in action. – Greenwich, Connecticut, USA: Manning Publications, 2010. – 336 p.

13. Distributed Java platform with programmable MIMD capabilities / T. Keane, R. Allen, T.J. Naughton, J. McInerney, J. Waldron // Scientific Engineering for Distributed Java Applications: International Workshop, FIDJI 2002, Luxembourg, November 28–29, 2002. – Revised Papers. – Berlin; Heidelberg: Springer, 2003. – P. 122–131. – (Lecture Notes in Computer Science; vol. 2604). – doi: 10.1007/3-540-36520-6_11.

14. Keane T.M., Naughton T.J. DSEARCH: sensitive database searching using distributed computing // Bioinformatics. – 2005. – Vol. 21, iss. 8. – P. 1705–1706. – doi:10.1093/bioinfor-matics/bti163.

15. Livny M., Melman M. Load balancing in homogeneous broadcast distributed systems // ACM SIGMETRICS Performance Evaluation Review. 1982. Vol. 11, iss. 1. P. 4755. – doi: 10.1145/1010631.801689.

16. Pitt E., McNiff K. Java.rmi: The Remote method invocation guide. – Boston, Massachusetts, USA: Addison-Wesley Longman, 2001. – 320 p.

 
Просмотров: 3032