БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ

English | Русский

Последний выпуск
№1(100) Январь - Март 2020

ФОРМИРОВАНИЕ ПСЕВДОСЛУЧАЙНЫХ ТЕКСТОВ НА ОСНОВЕ ЧАСТОТНЫХ ХАРАКТЕРИСТИК ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА

Выпуск № 1-2 (97) Январь - Июнь 2020
Авторы:

Котов Юрий Алексеевич,
Санина Ольга Валерьевна
DOI: http://dx.doi.org/10.17212/2307-6879-2020-1-2-113-126
Аннотация

В статье обсуждается вопрос генерации псевдослучайных текстов на основе частотных характеристик текстов естественного языка. Для генерации рассмотрены частотные характеристики и их значения для текстов на английском и русском языках: распределение униграмм и биграмм по частоте появления в тексте, распределение слов по длине. Предложен алгоритм генерации псевдослучайных текстов на основе данных частотных характеристик. Дана экспериментальная оценка сгенерированных текстов по алгоритму идентификации языка текста.


Ключевые слова: псевдослучайный текст; униграмма; биграмма; распределение Пуассона

Список литературы

  1. 1. Building a Chatbot with Serverless Computing / M. Yan, P. Castro, P. Cheng, V. Ishakian // Proceedings of the 1st International Workshop on Mashups of Things and APIs, Trento, Italy, December 2016. – P. 1-4. doi: 10.1145/3007203.3007217


Для цитирования:

Котов Ю.А., Санина О.В. Формирование псевдослучайных текстов на основе ча-стотных характеристик текстов естественного языка // Сборник научных трудов НГТУ. – 2020 – № 1–2 (97). – С. 113–126. – DOI: 10.17212/2307-6879-2020-1-2-113-126.

For citation:

Kotov Yu.A., Sanina O.V. Formirovanie psevdosluchainykh tekstov na osnove chastotnykh kharakteristik tekstov estestvennogo yazyka [Generating pseudo-random texts based on the frequency characteristics of texts in natural languages]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Transaction of scientific papers of the Novosibirsk state technical university, 2020, no. 1–2 (97), pp. 113–126. DOI: 10.17212/2307-6879-2020-1-2-113-126.

Просмотров: 183