Системы анализа и обработки данных

Значения некоторых униграммных характеристик русскоязычных текстов

Выпуск № 2 (67) Апрель - Июнь 2017

Авторы:

А.Ж. Абденов,

Ю.А. Котов,

О.В. Санина

DOI: http://dx.doi.org/10.17212/1814-1196-2017-2-146-162

Скачать полный текст

Аннотация
Авторы
Список литературы

Аннотация
Для решения ряда задач анализа текстов, особенно криптографических, необходимы известные значения определенных частотных характеристик текстов на естественном языке.

В статье приведены результаты измерений в зависимости от объемов для русскоязычных текстов полноты использования букв алфавита, частоты и места в частотном упорядочивании пробела и двух следующих за ним букв, индекса совпадения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что единственным знаком в русскоязычных текстах, который может быть идентифицирован по частоте встречаемости в тексте, является знак пробела. Получена оценка случаев, когда пробел находится не на первом месте в частотном упорядочивании знаков текста. Показано, что измерение частоты встречаемости не позволяет ответить на вопрос о наличии или отсутствии знака пробела в тексте.

Показано, что даже при малых объемах русскоязычных текстов в них используются практически все буквы алфавита. Наряду с индексом совпадения и другими характеристиками полученные значения использования букв языка в текстах различного объема могут быть использованы для отделения русскоязычных текстов от текстов на других языках. Определено среднее значение индекса совпадения для текстов, в которых используется только 31 буква русского алфавита в одном регистре, а также доверительные интервалы для различных объемов текстов, для которых не менее 95 % значений индекса для русскоязычных текстов будут находиться внутри данных интервалов.

Ключевые слова: выборка, тексты, буквы, частота встречаемости, аппроксимация, идентификация, индекс совпадения, стандартное отклонение.

Авторы:

А.Ж. Абденов
010000, Казахстан, г. Астана, ул.Сатлаева, 2, Евразийский национальный университет им.Л.Н.Гумилева, доктор технических наук, профессор кафедры информационных систем. Е-mail: amirlan21@gmail.com

Ю.А. Котов
630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, кандидат физико-математических наук, доцент кафедры защиты информации. Е-mail: kotov@corp.nstu.ru

О.В. Санина
630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, студент 4-го курса, направление «Информационная безопасность». Е-mail: lyalysa@gmail.com

Список литературы
1. Соснина Е.П. Введение в прикладную лингвистику. – Ульяновск: Изд-во: УлГТУ, 2012.

2. Sidorov G. Syntactic dependency based N-grams in rule based automatic English as second language grammar correction // International Journal of Computational Linguistics and Applications. – 2013. – Vol. 4, N 2. – P. 169–188.

3. Syntactic N-grams as machine learning features for natural language processing / G. Sidorov, F. Velasquez, E. Stamatatos, A. Gelbukh, L. Chanona-Hernández // Expert Systems with Applications. – 2013. – Vol. 41, N 3. – P. 853–860.

4. Нокель М.А. Метод учета структуры биграмм в тематических моделях // Вестник ВГУ. Серия: Системный анализ и информационные технологии. – 2014. – № 4. – С. 89–97.

5. Васильев Е.М., Жданова Д.В. Диахроническое исследование энтропии графем русского письма // Вестник Воронежского государственного технического университета. – 2010. – Т. 6, № 4. – С. 138–140.

6. Васильев Е.М., Гусев К.Ю. Анализ избыточности русскоязычного текста // Вестник Воронежского государственного технического университета. – 2010. – Т. 6, № 8. – С. 101–104.

7. Губарев В.В. Введение в теоретическую информатику. – Новосибирск: Изд-во НГТУ, 2014. – 420 с.

8. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). – М.: Азбуковник, 2009. – 923 с.

9. Жданов О.Н., Куденкова И.А. Криптоанализ классических шифров. – Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. М.Ф. Решетнева, 2008. – 107 с.

10. Котов Ю.А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. – 2016. – № 1 (44). – С. 181–197.

11. Котов Ю.А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. – 2017. – № 1 (50). – С. 190–208.

12. Развитие криптографических методов и средств защиты информации / Л.К. Бабенко, Е.А. Ищукова, Е.А. Маро, И.Д. Сидоров, П.П. Кравченко // Известия ЮФУ. Технические науки. – 2012. – № 4. – С. 40–50.

13. Бабенко Л.К., Ищукова Е.А. Анализ симметричных криптосистем // Известия ЮФУ. Технические науки. – 2012. – № 12. – С. 136–147.

14. Введение в теоретико-числовые методы криптографии / М.М. Глухов, И.А. Круглов, А.Б. Пичкур, А.В. Черtмушкин. – СПб.: Лань, 2011. – 400 с.

15. Минеев М.П., Чубариков В.Н. Лекции по арифметическим вопросам криптографии. – М.: Попечительский совет Механико-математического факультета МГУ им. М.В. Ломоносова, 2010. – 186 с.

16. SambasivaRao Baragada, Satyanarayana Reddy P. A survey of cryptanalytic works based on Genetic Algorithms // International Journal of Emerging Trends & Technology in Computer Science. – 2013. – Vol. 2, iss. 5. – P. 18–22.

17. Amrit Pal Singh, Pal S.K., Bhatia M.P.S. The firefly algorithm and application in cryptanalysis of monoalphabetic substitution ciphers // American Journal of Computer Science and Engineering Survey. – 2013. – Vol. 1, N 1. – P. 33–52.

18. Морозенко В.В., Плешкова И.Ю. О применении генетического алгоритма для криптоанализа шифра Тритемия–Белазо–Виженера // Современные проблемы науки и образования. – 2014. – № 2. – С. 1–11.

19. Aditi Bhateja, Shailender Kumar, Ashok K. Bhateja. Cryptanalysis of vigenere cipher using particle swarm optimization with Markov chain random walk // International Journal on Computer Science and Engineering. – 2013. – Vol. 5, no. 5. – P. 422–429.

20. Mohan M., Kavitha Devi M.K., Jeevan Prakash V. Security analysis and modification of classical encryption scheme // Indian Journal of Science and Technology. – 2015. – Vol. 8, no. 8. – P. 542–548.

Просмотров: 2501

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

Значения некоторых униграммных характеристик русскоязычных текстов