Системы анализа и обработки данных

Технология идентификации ключевых особенностей в последовательностях API-вызовов вредоносных программ

Выпуск № 3 (83) Июль - Сентябрь 2021

Авторы:

Воронин Владимир Викторович,

Морозов Алексей Владимирович

DOI: http://dx.doi.org/10.17212/2782-2001-2021-3-37-52

Скачать полный текст

Аннотация
Авторы
Список литературы

Аннотация

Сегодня с компьютерной безопасностью так или иначе сталкивается практически каждый. Для обеспечения контроля угроз безопасности вредоносного программного обеспечения (ПО) используют антивирусные программы.

Обычные способы обнаружения вредоносного ПО уже недостаточно эффективны,

в настоящее время для этих целей стали применять нейронные сети и технологию поведенческого анализа. Анализ поведения программ – сложная задача, так как не существует четкой последовательности действий, исполнив которые можно точно идентифицировать программу как вредоносную. Кроме того, такие программы используют меры противодействия подобному обнаружению, например, зашумление последовательности своей работы бессмысленными действиями. Существует также проблема однозначной идентификации класса вредоносного ПО вследствие того, что вредоносные программы могут использовать схожие методы и при этом относиться к разным классам. В таком случае принадлежность вредоносных программ можно фиксировать, используя комплексные методы. В настоящей работе предлагается использовать методы NLP, такие как word embedding, и LDA применительно к задачам анализа последовательностей API вызовов вредоносного ПО с целью установления наличия семантических зависимостей и оценки эффективности применения данных методов.

Полученные результаты свидетельствуют о реальной возможности выделения ключевых особенностей поведения вредоносных программ. Применение этих особенностей в тексте работы для сканирования вредоносного программного обеспечения помогает обнаружить, например, попытки зашумления API-последовательностей, что само по себе может говорить о попытке сокрытия вредоносных целей исполнения программы или дать возможность выполнить классификацию вредоносных программ с использованием взаимозависимых совокупностей отдельных частей последовательности. Применяемая в настоящей работе технология в перспективе позволит существенно улучшить технологию обнаружения и идентификации вредоносных программ.

Ключевые слова: векторное представление слов, обработка естественного языка, API-вызовы, вредоносное ПО, латентное размещение Дирихле, n-граммы, тематическое моделирование, кластеризация

Авторы:

Воронин Владимир Викторович
680035, РФ, г. Хабаровск, ул. Тихоокеанская, 136, Тихоокеанский государственный университет, 004183vvv@mail.ru

Морозов Алексей Владимирович
680035, РФ, г. Хабаровск, ул. Тихоокеанская, 136, Тихоокеанский государственный университет, 2014102127@pnu.edu.ru

Список литературы

1. Воронин В.В., Морозов А.В. Методика контроля угроз безопасности вредоносного программного обеспечения // Информатика и системы управления. – 2020. – № 3 (65). – С. 3–13.

2. Bender E.M. 100 things you always wanted to know about semantics & pragmatics but were afraid to ask. – Melbourne, 2018. – URL: http://faculty.washington.edu/ebender/papers/Bender-ACL2018-tutorial.pdf (accessed: 30.08.2021).

3. A neural probabilistic language model / Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin // Journal of Machine Learning Research. – 2003. – Vol. 3. – P. 1137–1155.

4. Neural network methods for natural language processing / Y. Goldberg, G. Hirst, Y. Liu, M. Zhang // Computational Linguistics. – 2018. – Vol. 44. – P.193–195.

5. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. – arXiv: 1301.3781v3 [cs.CL]. – 2013.

6. Hinton G., Roweis S. Stochastic neighbor embedding // Proceedings of the 15th International Conference on Neural Information Processing Systems. – Cambridge, MA: MIT Press, 2002. – P. 857–864.

7. Alammar J. The illustrated Word2vec. – 2019. – URL: https://jalammar.github.io/illustrated-word2vec/ (accessed: 30.08.2021).

8. Воронин В.В., Морозов А.В. Методы NLP в задачах анализа последовательностей API вызовов // Информационные технологии XXI века. – Хабаровск: Изд-во ТОГУ, 2021. – С. 100–104.

9. Maaten L. van der., Hinton G. Visualizing data using t-SNE // Journal of Machine Learning Research. – 2008. – Vol. 9. – P. 2579–2605.

10. Wattenberg M., Viégas F., Johnson I. How to use t-SNE effectively // Distill. – 2016. – DOI: 10.23915/distill.00002.

11. Sunny Srinidhi. Understanding word N-grams and N-gram probability in natural language processing. – 2019. – URL: https://towardsdatascience.com/understanding-word-n-grams-and-n-gram-probability-in-natural-language-processing-9d9eef0fa058 (accessed: 30.08.2021).

12. Bouma G. Normalized (pointwise) mutual information in collocation extraction // Biennial GSCL Conference. – Tübingen, 2009. – P. 31–40.

13. Милославский Е.С. Семантический анализ текста, как средство лучшего понимания смысла // Интеллектуальные технологии и средства реабилитации и абилитации людей с ограниченными возможностями (ИТСР-2018): труды III международной конференции. – М., 2018. – С. 255–258.

14. Боровых К.О., Плотников А.В. Семантический анализ текстов на примере интернет-запросов // Российский экономический интернет-журнал. – 2018. – № 2. – С. 1–14.

15. Попов М.Ю. Компьютерная обработка текста: визуализация семантической структуры и реферирование // Известия Волгоградского государственного технического университета. – 2004. – № 5. – С. 66–70.

16. Исмагулов Т.С., Канева О.Н. Методы тематического моделирования текстов на естественном языке // Информационный бюллетень ОМГТУ и ИМ СО РАН в области математики и информатики. – Омск, 2019. – Т. 3, № 1. – С. 108–111.

17. Захарова А.А., Махныткина О.В. Кластеризация текстовых документов с учетом семантической информации // Альманах научных работ молодых ученых Университета ИТМО. – СПб., 2020. – Т. 3. – С. 90–93.

Для цитирования:

Воронин В.В., Морозов А.В. Технология идентификации ключевых особенностей в последовательностях API-вызовов вредоносных программ // Системы анализа и обработки данных. – 2021. – № 3 (83). – С. 37–52. – DOI: 10.17212/2782-2001-2021-3-37-52.

For citation:

Voronin V.V., Morozov A.V. Tekhnologiya identifikatsii klyuchevykh osobennostei v posledo-vatel'nostyakh API-vyzovov vredonosnykh programm [Technology of key features identification in malware API calls sequences]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2021, no. 3 (83), pp. 37–52. DOI: 10.17212/2782-2001-2021-3-37-52.

Просмотров: 538

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

Технология идентификации ключевых особенностей в последовательностях API-вызовов вредоносных программ