Безопасность цифровых технологий

БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ

English | Русский

Последний выпуск
№3(114) Июль - Сентябрь 2024

Алгоритмы и методы кластеризации данных в анализе журналов событий информационной безопасности

Выпуск № 1 (104) Январь - Март 2022
Авторы:

Сидорова Диана Николаевна,
Пивкин Евгений Николаевич
DOI: http://dx.doi.org/10.17212/2782-2230-2022-1-41-60
Аннотация

Файлы журналов регистрации событий безопасности дают представление о состоянии инфосистем и возможности находить аномалии в поведении пользователей, а также диагностировать происшествия кибербезопасности. В работе рассмотрены существующие журналы событий (журналы событий приложений, систем, безопасности). Следует отметить, что автоматический анализ данных журналов событий осложнен, так как они содержат большое количество неструктурированных данных, которые собираются из разных источников. Поэтому в настоящей статье представлена и описана проблема анализа журналов событий информационной безопасности. Для решения проблемы анализа журналов безопасности были рассмотрены новые и не особо изученные методы и алгоритмы кластеризации данных, как Randomforest («случайный лес»), инкрементальная кластеризация, алгоритм Iterative Partitioning Log Mining (IPLoM) – итеративный анализ журналов секционирования. Алгоритм Randomforest создает деревья решений для выборок данных, после чего делается прогноз по каждой выборке и с помощью голосования выбирается наилучшее решение. Такой метод сокращает переобучение путем усреднения показателей. Также алгоритм применяется в таких типах задач, как регрессия и классификация. Инкрементальная кластеризация определяет кластеры как группы объектов, которые принадлежат одному классу или концепту. Когда кластеры определяются, то они могут перекрываться, поэтому допускается степень «размытости для выборок», которые лежат на границах разных кластеров. Алгоритм итеративного анализа журналов секционирования использует уникальные характеристики сообщений журналов для их итеративного разделения, что способствует эффективному извлечению типов сообщений.


Ключевые слова: алгоритмы, методы, кластеризация данных, информационная безопасность, «случайный лес», инкрементальная кластеризация, итеративный анализ журнала секционирования, журналы событий

Список литературы

1.?Королев М.А. Статистический словарь. – М.: Финансы и статистика, 1989. – 623 с.

2.?Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования: курс лекций. – М.: МГУ, 2007.

3.?Jain A., Murty M., Flynn P. Data clustering: a review // ACM Computing Surveys. – 1999. – Vol. 31, iss 3. – P. 264–323.

4.?Котов А., Красильников Н. Кластеризация данных. – СПб.: СПбГУ ИТМО, 2006.

5.?Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с.

6.?Прикладная статистика: классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1989. – 607 с.

7.?MachineLearning.Ru. Информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. – URL: www.machinelearning.ru (дата обращения: 04.03.2022).

8.?Чубукова И.А. Курс лекций «DataMining» / Интернет-университет информационных технологий. – URL: www.intuit.ru/department/database/

datamining (дата обращения: 04.03.2022).

9.?Farid D.M., Rahman M.Z., Rahman C.M. Adaptive intrusion detection based on boosting and naïve Bayesian classifier // International Journal of Computer Applications. – 2011. – Vol. 24 (3). – P. 12–19.

10.?Лепский А.Е., Броневич А.Г. Математические методы распознавания образов: курс лекций. – Таганрог, 2009. – URL: https://lepskiy.ucoz.ru/Posobie/

MMPR_.pdf (дата обращения: 04.03.2022).

11.?Интуит. Национальный открытый университет. Лекция 9: Методы классификации и прогнозирования. Деревья решений. – URL: http://www.intuit.ru/studies/courses/6/6/lecture/174 (дата обращения: 14.03.2022).

12.?Круглов В.В., Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети. – М.: Физматлит, 2001. – 224 с.

13.?Воронцов К.В. Лекции по искусственным нейронным сетям. – 2007, 21 декабря. – URL: http://www.ccas.ru/voron/download/NeuralNets.pdf (дата обращения: 04.03.2022).

14.?Барский А.Б. Нейронные сети: распознавание, управление, принятие решений. – М.: Финансы и статистика, 2004. – 176 с.

15.?Панченко Т.В. Генетические алгоритмы / под ред. Ю.Ю. Тарасевича. – Астрахань: Астраханский университет, 2007. – 87 с.

16.?CompoWiki. Журнал событий. – URL: https://wiki.compowiki.info/

ЖурналСобытий (дата обращения: 04.03.2022).

17.?Журналы событий Windows. – URL: https://eventlogxp.com/rus/

essentials/windowseventlog.html (дата обращения: 04.03.2022).

18.?Журнал регистрации событий информационной безопасности. – URL: https://safe-surf.ru/glossary/ru/849/ (дата обращения: 04.03.2022).

19.?Makanju A., Zincir-Heywood A.N., Milios E.E. Clustering event logs using iterative partitioning // KDD '09: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – ACM, 2009. – P. 1255–1264. – DOI: 10.1145/1557019.1557154.

20.?On vulnerability and security log analysis: a systematic literature review on recent trends / J. Svacina, J. Raffety, C. Woodahl, B. Stone, T. Cerny, M. Bures, D. Shin, K. Frajtak, P. Tisnovsky // RACS '20: Proceedings of the International Conference on Research in Adaptive and Convergent Systems. – ACM, 2020. – P. 175–180. – DOI: 10.1145/3400286.3418261.

21.?Process mining and hierarchical clustering to help intrusion alert visualization / S.C. de Alvarenga, S. Barbon, R.S. Miani, M. Cukier, B.B. Zarpelão // Computers and Security. – 2018. – Vol. 73. – P. 474–491. – DOI: 10.1016/j.cose.2017.11.021.

22.?Alaba A., Maitanmi S., Ajayi O. An ensemble of classification techniques for Intrusion detection systems // International Journal of Computer Science and Information Security. – 2019. – Vol. 17, N 11. – P. 24–33.

23.?Chauhan A., Mishra G., Kumar G. Survey on data mining techniques in intrusion detection // International Journal of Scientific and Engineering Research. – 2011. – Vol. 2, iss. 7. – P. 1–4.

24.?A multi-level intrusion detection method for abnormal network behavior / S.-Y. Ji, S. Choi, B.-K. Jeong, D.H. Jeong // Journal of Network and Computer Applications. – 2016. – Vol. 62. – P. 9–17.

25.?Onan A., Korukoglu S., Bulut H. A multiobjective weighted voting ensemble classifier based on differential evolution algorithm for text sentiment classification // Expert Systems with Applications. – 2016. – Vol. 62. – P. 1–16. – DOI: 10.1016/j.eswa.2016.06.005.

26.?Implementation of naïve Bayes classification method for predicting purchase / F. Harahap, A.Y.N. Harahap, E. Ekadiansyah, R.N. Sari, R. Adawiyah, C.B. Harahap // 2018 6th International Conference on Cyber and IT Service Management (CITSM). – Parapat, Indonesia, 2018. – P. 1–5. – DOI: 10.1109/CITSM.2018.8674324.

27.?Deep Learning techniques for traffic speed forecasting with side information / P. Farajiparvar, N. Hoseinzadeh, L.D. Han, A. Hedayatipour // 2020 IEEE Green Energy and Smart Systems Conference (IGESSC). – Long Beach, CA, 2020.?– P. 1–5. – DOI: 10.1109/IGESSC50231.2020.9285132.

28.?Aklani S.A. Metode fuzzy logic untuk evaluasi kinerja pelayanan perawat (Studi Kasus: RSIA Siti Hawa Padang) // Edik Informatika. – 2014. – Vol. 1, N 1. – P. 35–43.

29.?Recognition of driving postures by contourlet transform and random forests / C.H. Zhao, B.L. Zhang, J. He, J. Lian // IET Intelligent Transport Systems. – 2012.?– Vol. 6 (2). – P. 161–168.

30.?Probst P., Wright M.N., Boulesteix A.-L. Hyperparameters and tuning strategies for random forest // WIREs Data Mining and Knowledge Discovery. – 2019.?– Vol. 9. – P. e1301.

31.?Applying a random forest method approach to model travel mode choice behavior / L. Cheng, X. Chen, J. De Vos, X. Lai, F. Witlox // Travel Behaviour and Society. – 2019. – Vol. 14. – P. 1–10.

32.?GIS-based landslide susceptibility evaluation using a novel hybrid integration approach of bivariate statistical based random forest method / W. Chen, X. Xie, J. Peng, H. Shahabi, H. Hong, D.T. Bui, Z. Duan, S. Li, A-X. Zhu // Catena. – 2018. – Vol. 164. – P. 135–149.

33.?Identifying core driving factors of urban land use change from global land cover products and POI data using the random forest method / H. Wu, A. Lin, X. Xing, D. Song, Y. Li // International Journal of Applied Earth Observation and Geoinformation. – 2021. – Vol. 103. – P. 102475.

34.?Cai Y., Lin H., Zhang M. Mapping paddy rice by the object-based random forest method using time series Sentinel-1/Sentinel-2 data // Advances in Space Research. – 2019. – Vol. 64 (11). – P. 2233–2244.

35.?Prediction of consumer behaviour using random forest algorithm / H. Valecha, A. Varma, I. Khare, A. Sachdeva, M. Goyal // 2018 5th IEEE Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering (UPCON). – Gorakhpur, India, 2018. – P. 1–6. – DOI: 10.1109/UPCON.2018.8597070.

36.?Кутуков Д.С. Применение методов кластеризации для обработки новостного потока // Технические науки: проблемы и перспективы: материалы I Международной научной конференции. – СПб.: Реноме, 2011. – С. 77–83. – URL: https://moluch.ru/conf/tech/archive/2/207/ (дата обращения: 09.03.2022).

37.?Kailing K., Kriegel H.-P., Kröger P. Density-connected subspace clustering for high-dimensional data // Proceedings of the 4th SIAM International Conference on Data Mining (SDM). – Philadelphia, PA, 2004. – P. 246–257.

38.?Braun R.K., Kaneshiro R. Exploiting topic pragmatics for new event detection in TDT-2004 // DARPA Topic Detection and Tracking Workshop. – Gaithersburg, 2004.

39.?Peters M., Zaki M.J. Click: clustering categorical data using K-partite maximal cliques / Computer Science Department Rensselaer Polytechnic Institute. – Troy, NY, 2004. – 31 p.

40.?Clustering uncertain data based on probability distribution similarity / B. Jiang, J. Pei, Y. Tao., X. Lin // IEEE Transactions on Knowledge and Data Engineering. – 2013. – Vol. 25 (4). – P. 751–763. – DOI: 10.1109/TKDE.2011.221.

41.?Makanju A., Zincir-Heywood A.N., Milios E.E. A lightweight algorithm for message type extraction in system application logs // IEEE Transactions on Knowledge and Data Engineering. – 2012. – Vol. 24 (11). – P. 1921–1936. – DOI: 10.1109/TKDE.2011.138.

42.?Makanju A., Zincir-Heywood A.N., Milios E.E. Clustering event logs using iterative partitioning // ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 09). – ACM, 2009. – P. 1255–1263.

43.?Oliner A., Ganapathi A., Xu W. Advances and challenges in log analysis: logs contain a wealth of information for help in managing systems // ACM Queue. – 2011. – Vol. 9 (12). – DOI: 10.1145/2076796.2082137.

44.?Best practices for incident response. – 2020, September 3. – URL: https://www.securitymagazine.com/articles/93235-best-practices-for-incident-response (accessed: 09.03.2022).

45.?Operational-log analysis for big data systems: challenges and solutions / A. Miranskyy, A. Hamou-Lhadj, E. Cialini, A. Larsson // IEEE Software. – 2016. – Vol. 33 (2). – P. 52–59. – DOI: 10.1109/MS.2016.33.

46.?HDFS Architecture / The Apache Software Foundation. – URL: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html (accessed: 09.03.2022).

47.?Brownlee J. A tour of machine learning algorithms. – 2019, August 12. – URL: https://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ (accessed: 09.03.2022).

Благодарности. Финансирование

Авторы выражают глубокую благодарность д-ру техн. наук, профессору Белову Виктору Матвеевичу за ценные советы и замечания, высказанные при работе над статьей.

Для цитирования:

Сидорова Д.Н., Пивкин Е.Н. Алгоритмы и методы кластеризации данных в анализе журналов событий информационной безопасности // Безопасность цифровых технологий. – 2022. – № 1 (104). – С. 41–60. – DOI: 10.17212/2782-2230-2022-1-41-60.

For citation:

Sidorova D.N., Pivkin E.N. Algoritmy i metody klasterizatsii dannykh v analize zhurnalov sobytii informatsionnoi bezopasnosti [Algorithms and methods of data clustering in the analysis of information security event logs]. Bezopasnost' tsifrovykh tekhnologii = Digital Technology Security, 2022, no. 1 (104), pp. 41–60. DOI: 10.17212/2782-2230-2022-1-41-60.

Просмотров: 733