На примере модельной коллекции таджикских литературных произведений изучается задача о возможности определения авторства фрагмента текста минимального размера, извлеченного из коллекции. Рассматривается модельная коллекция текстов таджикского языка, составленная из произведений классической поэзии и современной прозы на кириллической графике. Каждому произведению сопоставлен цифровой портрет – распределения частотностей символьных биграмм. Для решения проблемы идентификации авторов текстов биграммы вполне приемлемы как количественные характеристики. В качестве инструмента реализации задачи используется γ-классификатор, позволяющий по частотности элементов алфавитно-буквенных биграмм с достаточно высокой степенью эффективности идентифицировать авторов текстовой информации. Математическая модель γ-классификатора представляется в виде триады. Ее первым компонентом является цифровой портрет (ЦП) текста – распределение в тексте частотности буквенных биграмм; вторым компонентом служит формула для вычисления расстояний между ЦП текстов и третьим – алгоритм машинного обучения. Настройка алгоритма, использующего таблицу парных расстояний между всеми произведениями модельной коллекции, заключалась в определении оптимального значения вещественного параметра γ, для которого минимизируется ошибка нарушения гипотезы «однородности». Также установлено, что с помощью γ-классификатора по цифровому портрету удается идентифицировать авторов произведений на таджикском языке. Путем применения метрического классификатора и методом ближайшего (по расстоянию) соседа удалось идентифицировать авторов убывающих по размерам последовательности текстовых фрагментов от величины в 7000 слов (40000 символов) вплоть до 20 слов (100 символов). Определен минимальный объем выборки слов или символов для распознавания автора таджикского текста. Описаны результаты экспериментов с минимальным объемом выборки слов (символов) для распознавания автора текста.
Косимов А.А. О распознавании автора текстового фрагмента на основе частотности буквенных биграмм // Системы анализа и обработки данных. – 2022. – № 1 (85). – С. 73–82. – DOI: 10.17212/2782-2001-2022-1-73-82.
Kosimov A.A. O raspoznavanii avtora tekstovogo fragmenta na osnove chastotnosti bukvennykh bigramm [On the recognition of the author of a text fragment based on the frequency of alphabetic bigrams]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2022, no. 1 (85), pp. 73–82. DOI: 10.17212/2782-2001-2022-1-73-82.