Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№2(94) Апрель - Июнь 2024

Тестирование гамма-классификатора, настроенного на распознавание языков произведений на основе латинского алфавита

Выпуск № 2 (82) Апрель - Июнь 2021
Авторы:

Усманов Зафар Джураевич,
Косимов Абдунаби Абдурауфович
DOI: http://dx.doi.org/10.17212/2782-2001-2021-2-83-94
Аннотация

В статье на примере модельной коллекции из десяти текстов на пяти языках (английском, немецком, испанском, итальянском и французском) с использованием латинской графики устанавливается применимость g-классификатора для автоматического распознавания языка произведения на основе частотности общих 26 латинских алфавитных букв. Математическая модель g-классификатора представляется в виде триады. Ее первым компонентом является цифровой портрет (ЦП) текста – распределение в тексте частотности буквенных униграмм; вторым компонентом служит формула для вычисления расстояний между ЦП текстов и третьим – алгоритм машинного обучения, реализующий гипотезу «однородности» произведений, написанных на одном языке, и «неоднородности» произведений, написанных на разных языках. Настройка алгоритма, использующего таблицу парных расстояний между всеми произведениями модельной коллекции, заключалась в определении оптимального значения вещественного параметра g, для которого минимизируется ошибка нарушения гипотезы «однородности». Обученный на текстах модельной коллекции g-классификатор показал высокую, 100 %-ю точность в распознавании языков произведений. Для тестирования классификатора были выбраны дополнительно шесть случайных текстов, из которых пять на тех же языках, что и тексты модельной коллекции. Методом ближайшего (по расстоянию) соседа все новые тексты подтвердили свою однородность с соответствующими парами одноязычных произведений. Шестой текст на румынском языке показал свою неоднородность по отношению ко всем элементам коллекции. Вместе с тем проявил близость по минимальным расстояниям, прежде всего, к двум текстам на испанском языке и затем и к двум произведениям на итальянском языке.


Ключевые слова: текст, язык, латинская графика, алфавит, частотность униграмм, цифровой портрет текста, гипотеза однородности, классификатор, обучение, распознавание языков, тестирование классификатора, оценка эффективности

Список литературы

1. Список латинских букв // Википедия. – URL: https://ru.wikipedia.org/wiki/Список_латинских_букв (дата обращения: 03.05.2021).



2. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 9. – С. 392–397.



3. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста // Доклады Академии наук Республики Таджикистан. – 2016. – Т. 59, № 3–4. – C. 114–119.



4. Косимов А.А. Оценка эффективности использования биграмм при идентификации текста // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 5–6. – C. 224–229.



5. Косимов А.А. Оценка эффективности использования триграмм при идентификации текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. – 2017. – № 1 (166). – С. 51–57.



6. Каримов А.А. О цифровом портрете текстовой информации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 7–10.



7. Каюмов М.М. О цифровом портрете текстовой информации, основанном на частотности знаков пунктуации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 20–23.



8. Каюмов М.М. О распознавании автора текста на основе частотности αβ-кодов словоформ // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 29–36.



9. Ашурова Ш.Н. Оценка эффективности использования словесных биграмм при идентификации текста // Материалы международной научно-практической конференции ТУТ «Роль ИКТ в инновационном развитии экономики Республики Таджикистан». – Душанбе: Ба?манр?д, 2017. – С. 292–297.



10. Ашурова Ш.Н. Оценка эффективности использования словесных триграмм при идентификации текста // Вестник Технологического университета Таджикистана. – 2017. – № 4 (31). – С. 51–58.



11. Ашурова Ш.Н., Тошхуджаев Х.А. О распознавании автора текста на основе частотности словесных биграмм // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 57–61.



12. Бахтеев К.С. О применимости укороченных цифровых портретов для идентификации автора текста // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 25–28.



13. Бахтеев К.С. О распознавании авторства по усеченным цифровым портретам текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. – 2018. – № 4 (173). – C. 82–92.



14. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. – Томск: В-Спектр, 2011. – 188 с.



15. Воронцов К.В. Математические методы обучения по прецедентам. – URL: http://www.ccas.ru/voron (дата обращения: 03.05.2021).



16. Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических методов прогнозирования): учебное пособие. – М.: ВМК МГУ им. М.В. Ломоносова, 2010. – 278 с.

Для цитирования:

Усманов З.Д., Косимов А.А. Тестирование γ-классификатора, настроенного на распознавание языков произведений на основе латинского алфавита // Системы анализа и обработки данных. – 2021. – № 2 (82). – С. 83–94. – DOI: 10.17212/2782-2001-2021-2-83-94.

For citation:

Usmanov Z.D., Kosimov A.A. Testirovanie γ-klassifikatora, nastroennogo na raspoznavanie yazykov proizvedenii na osnove latinskogo alfavita [Testing the γ-classifier adapted to recognize the languages of works based on the Latin alphabet]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2021, no. 2 (82), pp. 83–94. DOI: 10.17212/2782-2001-2021-2-83-94.

Просмотров: 781