В статье обсуждается вопрос генерации псевдослучайных текстов на основе частотных характеристик текстов естественного языка. Для генерации рассмотрены частотные характеристики и их значения для текстов на английском и русском языках: распределение униграмм и биграмм по частоте появления в тексте, распределение слов по длине. Предложен алгоритм генерации псевдослучайных текстов на основе данных частотных характеристик. Дана экспериментальная оценка сгенерированных текстов по алгоритму идентификации языка текста.
1. Building a Chatbot with Serverless Computing / M. Yan, P. Castro, P. Cheng, V. Ishakian // Proceedings of the 1st International Workshop on Mashups of Things and APIs, Trento, Italy, December 2016. – P. 1-4. doi: 10.1145/3007203.3007217
Котов Ю.А., Санина О.В. Формирование псевдослучайных текстов на основе ча-стотных характеристик текстов естественного языка // Сборник научных трудов НГТУ. – 2020 – № 1–2 (97). – С. 113–126. – DOI: 10.17212/2307-6879-2020-1-2-113-126.
Kotov Yu.A., Sanina O.V. Formirovanie psevdosluchainykh tekstov na osnove chastotnykh kharakteristik tekstov estestvennogo yazyka [Generating pseudo-random texts based on the frequency characteristics of texts in natural languages]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Transaction of scientific papers of the Novosibirsk state technical university, 2020, no. 1–2 (97), pp. 113–126. DOI: 10.17212/2307-6879-2020-1-2-113-126.