Аннотация
Для решения ряда задач анализа текстов, особенно криптографических, необходимы известные значения определенных частотных характеристик текстов на естественном языке.
В статье приведены результаты измерений в зависимости от объемов для русскоязычных текстов полноты использования букв алфавита, частоты и места в частотном упорядочивании пробела и двух следующих за ним букв, индекса совпадения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что единственным знаком в русскоязычных текстах, который может быть идентифицирован по частоте встречаемости в тексте, является знак пробела. Получена оценка случаев, когда пробел находится не на первом месте в частотном упорядочивании знаков текста. Показано, что измерение частоты встречаемости не позволяет ответить на вопрос о наличии или отсутствии знака пробела в тексте.
Показано, что даже при малых объемах русскоязычных текстов в них используются практически все буквы алфавита. Наряду с индексом совпадения и другими характеристиками полученные значения использования букв языка в текстах различного объема могут быть использованы для отделения русскоязычных текстов от текстов на других языках. Определено среднее значение индекса совпадения для текстов, в которых используется только 31 буква русского алфавита в одном регистре, а также доверительные интервалы для различных объемов текстов, для которых не менее 95 % значений индекса для русскоязычных текстов будут находиться внутри данных интервалов.
Ключевые слова: выборка, тексты, буквы, частота встречаемости, аппроксимация, идентификация, индекс совпадения, стандартное отклонение.
Список литературы
1. Соснина Е.П. Введение в прикладную лингвистику. – Ульяновск: Изд-во: УлГТУ, 2012.
2. Sidorov G. Syntactic dependency based N-grams in rule based automatic English as second language grammar correction // International Journal of Computational Linguistics and Applications. – 2013. – Vol. 4, N 2. – P. 169–188.
3. Syntactic N-grams as machine learning features for natural language processing / G. Sidorov, F. Velasquez, E. Stamatatos, A. Gelbukh, L. Chanona-Hernández // Expert Systems with Applications. – 2013. – Vol. 41, N 3. – P. 853–860.
4. Нокель М.А. Метод учета структуры биграмм в тематических моделях // Вестник ВГУ. Серия: Системный анализ и информационные технологии. – 2014. – № 4. – С. 89–97.
5. Васильев Е.М., Жданова Д.В. Диахроническое исследование энтропии графем русского письма // Вестник Воронежского государственного технического университета. – 2010. – Т. 6, № 4. – С. 138–140.
6. Васильев Е.М., Гусев К.Ю. Анализ избыточности русскоязычного текста // Вестник Воронежского государственного технического университета. – 2010. – Т. 6, № 8. – С. 101–104.
7. Губарев В.В. Введение в теоретическую информатику. – Новосибирск: Изд-во НГТУ, 2014. – 420 с.
8. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). – М.: Азбуковник, 2009. – 923 с.
9. Жданов О.Н., Куденкова И.А. Криптоанализ классических шифров. – Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. М.Ф. Решетнева, 2008. – 107 с.
10. Котов Ю.А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. – 2016. – № 1 (44). – С. 181–197.
11. Котов Ю.А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. – 2017. – № 1 (50). – С. 190–208.
12. Развитие криптографических методов и средств защиты информации / Л.К. Бабенко, Е.А. Ищукова, Е.А. Маро, И.Д. Сидоров, П.П. Кравченко // Известия ЮФУ. Технические науки. – 2012. – № 4. – С. 40–50.
13. Бабенко Л.К., Ищукова Е.А. Анализ симметричных криптосистем // Известия ЮФУ. Технические науки. – 2012. – № 12. – С. 136–147.
14. Введение в теоретико-числовые методы криптографии / М.М. Глухов, И.А. Круглов, А.Б. Пичкур, А.В. Черtмушкин. – СПб.: Лань, 2011. – 400 с.
15. Минеев М.П., Чубариков В.Н. Лекции по арифметическим вопросам криптографии. – М.: Попечительский совет Механико-математического факультета МГУ им. М.В. Ломоносова, 2010. – 186 с.
16. SambasivaRao Baragada, Satyanarayana Reddy P. A survey of cryptanalytic works based on Genetic Algorithms // International Journal of Emerging Trends & Technology in Computer Science. – 2013. – Vol. 2, iss. 5. – P. 18–22.
17. Amrit Pal Singh, Pal S.K., Bhatia M.P.S. The firefly algorithm and application in cryptanalysis of monoalphabetic substitution ciphers // American Journal of Computer Science and Engineering Survey. – 2013. – Vol. 1, N 1. – P. 33–52.
18. Морозенко В.В., Плешкова И.Ю. О применении генетического алгоритма для криптоанализа шифра Тритемия–Белазо–Виженера // Современные проблемы науки и образования. – 2014. – № 2. – С. 1–11.
19. Aditi Bhateja, Shailender Kumar, Ashok K. Bhateja. Cryptanalysis of vigenere cipher using particle swarm optimization with Markov chain random walk // International Journal on Computer Science and Engineering. – 2013. – Vol. 5, no. 5. – P. 422–429.
20. Mohan M., Kavitha Devi M.K., Jeevan Prakash V. Security analysis and modification of classical encryption scheme // Indian Journal of Science and Technology. – 2015. – Vol. 8, no. 8. – P. 542–548.