Системы анализа и обработки данных

О распознавании автора текстового фрагмента на основе частотности буквенных биграмм

Выпуск № 1 (85) Январь - Март 2022

Авторы:

Косимов Абдунаби Абдурауфович ,

DOI: http://dx.doi.org/10.17212/2782-2001-2022-1-73-82

Скачать полный текст

Аннотация
Авторы
Список литературы
Статистика

Аннотация

На примере модельной коллекции таджикских литературных произведений изучается задача о возможности определения авторства фрагмента текста минимального размера, извлеченного из коллекции. Рассматривается модельная коллекция текстов таджикского языка, составленная из произведений классической поэзии и современной прозы на кириллической графике. Каждому произведению сопоставлен цифровой портрет – распределения частотностей символьных биграмм. Для решения проблемы идентификации авторов текстов биграммы вполне приемлемы как количественные характеристики. В качестве инструмента реализации задачи используется γ-классификатор, позволяющий по частотности элементов алфавитно-буквенных биграмм с достаточно высокой степенью эффективности идентифицировать авторов текстовой информации. Математическая модель γ-классификатора представляется в виде триады. Ее первым компонентом является цифровой портрет (ЦП) текста – распределение в тексте частотности буквенных биграмм; вторым компонентом служит формула для вычисления расстояний между ЦП текстов и третьим – алгоритм машинного обучения. Настройка алгоритма, использующего таблицу парных расстояний между всеми произведениями модельной коллекции, заключалась в определении оптимального значения вещественного параметра γ, для которого минимизируется ошибка нарушения гипотезы «однородности». Также установлено, что с помощью γ-классификатора по цифровому портрету удается идентифицировать авторов произведений на таджикском языке. Путем применения метрического классификатора и методом ближайшего (по расстоянию) соседа удалось идентифицировать авторов убывающих по размерам последовательности текстовых фрагментов от величины в 7000 слов (40000 символов) вплоть до 20 слов (100 символов). Определен минимальный объем выборки слов или символов для распознавания автора таджикского текста. Описаны результаты экспериментов с минимальным объемом выборки слов (символов) для распознавания автора текста.

Ключевые слова: текст, фрагмент, символ, слова, биграмм, цифровой портрет текста, частотность, ближайший сосед, классификатор, идентификация

Косимов Абдунаби Абдурауфович
734042, г. Душанбе, пр. Акад. Раджабовых, 10, Таджикский технический университет имени академика М.С. Осими,
abdunabi_kbtut@mail.ru
Orcid: 0000-0003-3427-9348

Список литературы

1. Усманов З.Д. Классификатор дискретных случайных величин // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 7–8. – С. 291–300.

2. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 9. – С. 392–397.

3. Косимов А.А., Рахмонов Ф.А. О распознавании автора текста на основе частотности буквенных биграмм // Конференсияи илми-амалии омузгорон, мухаккикони чавон, докторантон PhD, магистрантон ва донишчуён бахшида ба эълон гардидани солхои 2019–2021 “Солхои рушди дехот, сайёхи ва хунархои мардуми", солхои 2020–2040 “Бистсолаи омузиш ва рушди фанхои табиатшиноси, дакик ва риёзи дар сохаи илму маориф”, Рузи илми точик ва 30-солагии Истиклолияти давлатии Чумхурии Точикистон, ДПДТТХ ба номи М.С. Осими. – Хучанд, 2020. – 11 с.

4. Косимов А.А. О минимальном объеме текста, необходимого для распознавания его автора // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 9. – С. 398–401.

5. О распознавании автора текста на основе частотности буквенных униграмм / А.А. Косимов, Р.Ш. Умарализода, А.А. Хасанов, Ш.С. Саидов // Конференсияи чумхуриявии илми-амалии “Илм – асоси рушди инноватсиони”, Донишгохи техникии Точикистон ба номи академик М.С. Осими, 27–28 апрели соли 2021. – Душанбе, 2021. – С. 322–326.

6. Воронцов К.В. Математические методы обучения по прецедентам. – URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения: 11.02.2022).

7. Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических методов прогнозирования): учебное пособие. – М.: ВМК МГУ им. М.В. Ломоносова, 2010. – 278 с.

8. Каримов А.А. О цифровом портрете текстовой информации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 7–10.

9. Каюмов М.М. О цифровом портрете текстовой информации, основанном на частотности знаков пунктуации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 20–23.

10. Каюмов М.М. О распознавании автора текста на основе частотности αβ-кодов словоформ // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 29–36.

11. Ашурова Ш.Н. Оценка эффективности использования словесных биграмм при идентификации текста // Роль ИКТ в инновационном развитии экономики Республики Таджикистан: материалы международной научно-практической конференции. – Душанбе: Бахманруд, 2017. – С. 292–297.

12. Ашурова Ш.Н. Оценка эффективности использования словесных триграмм при идентификации текста // Вестник Технологического университета Таджикистана. – 2017. – № 4 (31). – С. 51–58.

13. Ашурова Ш.Н., Тошхуджаев Х.А. О распознавании автора текста на основе частотности словесных биграмм // Политехнический вестник. Серия: интеллект, инновации, инвестиции. – 2020. – 2(50). – С. 57–61.

14. Бахтеев К.С. О применимости укороченных цифровых портретов для идентификации автора текста // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 25–28.

15. Бахтеев К.С. О распознавании авторства по усеченным цифровым портретам текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. – 2018. – № 4 (173). – C. 82–92.

16. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. – Томск: В-Спектр, 2011. – 188 с.

Просмотров аннотации: 599
Скачиваний полного текста: 443
Просмотров интерактивной версии: 0

Для цитирования:

Косимов А.А. О распознавании автора текстового фрагмента на основе частотности буквенных биграмм // Системы анализа и обработки данных. – 2022. – № 1 (85). – С. 73–82. – DOI: 10.17212/2782-2001-2022-1-73-82.

For citation:

Kosimov A.A. O raspoznavanii avtora tekstovogo fragmenta na osnove chastotnosti bukvennykh bigramm [On the recognition of the author of a text fragment based on the frequency of alphabetic bigrams]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2022, no. 1 (85), pp. 73–82. DOI: 10.17212/2782-2001-2022-1-73-82.

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

О распознавании автора текстового фрагмента на основе частотности буквенных биграмм