В статье на различных примерах демонстрируются и обсуждаются возможности проверки гипотез и применения информационных мер для выявления и оценки силы связи номинативных признаков в задачах классификации при анализе информационной безопасности. Основной вид представления исходных данных в этой шкале – это таблица сопряженности номинативных признаков или таблица «объект–признак», из которой могут быть получены частоты совпадения категорий признаков и, собственно, таблица сопряженности. По этой таблице несложно проверить гипотезу о независимости или однородности признаков. Рассмотрен альтернативный подход к этому анализу на основе статистики Кульбака, представляющей собой среднюю различающую информацию в пользу гипотезы о зависимости признаков. В частных случаях практический интерес представляет гипотеза о симметрии квадратных таблиц, которая также может быть проверена на основе информационных мер и критериев. Показан пример обработки дихотомических данных типа «да?–?нет» по критерию Кокрена. В работе обсуждаются пути измерения силы связи признаков и различные информационные характеристики в виде относительного уменьшения энтропии одного признака при известном другом или в виде средневзвешенного количества информации, приходящегося на различные категории признака. Эти меры полезны для сравнительного анализа признаков в задачах принятия решений. Используются показатель информативности Шеннона, дивергенция Кульбака–Лейблера, Дженсена–Шеннона и мера попарного различения классов эффективности защиты по законам распределения соответствующих им категорий признака. Последовательно сопоставляются классические процедуры проверки гипотез и подходы на основе информационных характеристик. Рассмотренные в работе методы и примеры охватывают многие актуальные задачи информационной безопасности, ассоциированные с номинативными признаками.
1.?Закс Л. Статистическое оценивание. – М.: Статистика, 1976. – 599 с. 2.?Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. – М.: Наука, 1976. – 736 с. 3.?Кульбак С. Теория информации и статистика. – М.: Наука, 1967. – 408 с. 4.?Крутохвостов Д.С., Хиценко В.Е. Парольная и непрерывная аутентификация по клавиатурному почерку средствами математической статистики // Вопросы кибербезопасности. – 2017. – № 5 (24). – С. 91–99. 5.?Рунион Р. Справочник по непараметрической статистике. – М.: Финансы и статистика, 1982. – 200 с. 6.?Бююль А., Цёфель П. SPSS: искусство обработки информации. – СПб.: Диасофт, 2002. – 602 с. 7.?Миркин Б.Г. Анализ качественных признаков и структур. – М.: Статистика, 1980. – 320 с. 8.?Хиценко В.Е. Математическая статистика для мониторинга информационной безопасности. Непараметрические методы статистики в примерах и задачах. – Saarbrücken: Lap Lambert Academic Publishing, 2013. – 208 с. 9.?Гублер Е.В. Вычислительные методы анализа и распознавания патологических процессов. – Л.: Медицина, 1978. – 294 с. 10.?Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. – 2009. – № 1 (6). – С. 69–80. 11.?Салахутдиновa К.И., Лебедевa И.С., Кривцова И.Е. Подход к выбору информативного признака в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. – 2018. – Т. 18, № 2. – С. 278–285. 12.?Коржук В.М. Модель и метод идентификации атак сетевого уровня на беспроводные сенсорные сети на основе поведенческого анализа: дис. … канд. техн. наук: 05.13.19. – СПб., 2019. – 206 с. 13.?Быкова В.В., Катаева А.В. Методы и средства анализа информативности признаков при обработке медицинских данных // Программные продукты и системы. – 2016. – № 2. – С. 172–178. 14.?Informativeness of genetic markers for inference of ancestry / N.A. Ro-senberg, L.M. Li, R. Ward, J.K. Pritchard // American Journal of Human Gene-tics.?– 2003. – Vol. 73 (6). – P. 1402–1422. 15.?Kullback S., Leibler R.A. On information and sufficiency // Annals of Mathematical Statistics. – 1951. – Vol. 22 (1). – P. 79–86. 16.?Lin J. Divergence measures based on the Shannon entropy // IEEE Transactions on Information Theory. – 1991. – Vol. 37, N 1. – P. 145–151. 17.?Nielsen F., Nock R. Total Jensen divergences: definition, properties and clustering // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – South Brisbane, QLD, Australia, 2015. – P. 2016–2020. 18.?Брюховецкий А.А. Модель обнаружения аномальных данных на основе информационного критерия // Дневник науки. – 2021. – № 4. – URL: www.dnevniknauki.ru/images/publications/2021/4/technics/Bryukhovetskiy.pdf (дата обращения: 09.03.2022). 19.?Burnham K.P., Anderson D.R. Kullback–Leibler information as a basis for strong inference in ecological studies // Wildlife Research. – 2001. – Vol. 28 (2). – P. 111–119. 20.?Do M.N. Fast approximation of Kullback–Leibler distance for dependence trees and hidden Markov models // IEEE Signal Processing Letters. – 2003. – Vol. 10, N 4. – P. 115–118.
Хиценко В.Е., Федотов Н.А. Возможности анализа номинативных признаков в задачах информационной безопасности // Безопасность цифровых технологий. – 2022. – № 1 (104). – С. 61–84. – DOI: 10.17212/2782-2230-2022-1-61-84.
Khitsenko V.E., Fedotov N.A. Vozmozhnosti analiza nominativnykh priznakov v zadachakh informatsionnoi bezopasnosti [Possibilities of analysis of nominative signs in tasks of information security]. Bezopasnost' tsifrovykh tekhnologii = Digital Technology Security, 2022, no. 1 (104), pp. 61–84. DOI: 10.17212/2782-2230-2022-1-61-84.