Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№1(97) Январь - Март 2025

О распознавании автора текстового фрагмента на основе частотности буквенных биграмм

Выпуск № 1 (85) Январь - Март 2022
Авторы:

Косимов Абдунаби Абдурауфович
DOI: http://dx.doi.org/10.17212/2782-2001-2022-1-73-82
Аннотация

На примере модельной коллекции таджикских литературных произведений изучается задача о возможности определения авторства фрагмента текста минимального размера, извлеченного из коллекции. Рассматривается модельная коллекция текстов таджикского языка, составленная из произведений классической поэзии и современной прозы на кириллической графике. Каждому произведению сопоставлен цифровой портрет – распределения частотностей символьных биграмм. Для решения проблемы идентификации авторов текстов биграммы вполне приемлемы как количественные характеристики. В качестве инструмента реализации задачи используется γ-классификатор, позволяющий по частотности элементов алфавитно-буквенных биграмм с достаточно высокой степенью эффективности идентифицировать авторов текстовой информации. Математическая модель γ-классификатора представляется в виде триады. Ее первым компонентом является цифровой портрет (ЦП) текста – распределение в тексте частотности буквенных биграмм; вторым компонентом служит формула для вычисления расстояний между ЦП текстов и третьим – алгоритм машинного обучения. Настройка алгоритма, использующего таблицу парных расстояний между всеми произведениями модельной коллекции, заключалась в определении оптимального значения вещественного параметра γ, для которого минимизируется ошибка нарушения гипотезы «однородности». Также установлено, что с помощью γ-классификатора по цифровому портрету удается идентифицировать авторов произведений на таджикском языке. Путем применения метрического классификатора и методом ближайшего (по расстоянию) соседа удалось идентифицировать авторов убывающих по размерам последовательности текстовых фрагментов от величины в 7000 слов (40000 символов) вплоть до 20 слов (100 символов). Определен минимальный объем выборки слов или символов для распознавания автора таджикского текста. Описаны результаты экспериментов с минимальным объемом выборки слов (символов) для распознавания автора текста.


Ключевые слова: текст, фрагмент, символ, слова, биграмм, цифровой портрет текста, частотность, ближайший сосед, классификатор, идентификация
Для цитирования:

Косимов А.А. О распознавании автора текстового фрагмента на основе частотности буквенных биграмм // Системы анализа и обработки данных. – 2022. – № 1 (85). – С. 73–82. – DOI: 10.17212/2782-2001-2022-1-73-82.

For citation:

Kosimov A.A. O raspoznavanii avtora tekstovogo fragmenta na osnove chastotnosti bukvennykh bigramm [On the recognition of the author of a text fragment based on the frequency of alphabetic bigrams]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2022, no. 1 (85), pp. 73–82. DOI: 10.17212/2782-2001-2022-1-73-82.

Просмотров: 590