Системы анализа и обработки данных

Тестирование гамма-классификатора, настроенного на распознавание языков произведений на основе латинского алфавита

Выпуск № 2 (82) Апрель - Июнь 2021

Авторы:

Усманов Зафар Джураевич,

Косимов Абдунаби Абдурауфович

DOI: http://dx.doi.org/10.17212/2782-2001-2021-2-83-94

Скачать полный текст

Аннотация
Авторы
Список литературы

Аннотация

В статье на примере модельной коллекции из десяти текстов на пяти языках (английском, немецком, испанском, итальянском и французском) с использованием латинской графики устанавливается применимость g-классификатора для автоматического распознавания языка произведения на основе частотности общих 26 латинских алфавитных букв. Математическая модель g-классификатора представляется в виде триады. Ее первым компонентом является цифровой портрет (ЦП) текста – распределение в тексте частотности буквенных униграмм; вторым компонентом служит формула для вычисления расстояний между ЦП текстов и третьим – алгоритм машинного обучения, реализующий гипотезу «однородности» произведений, написанных на одном языке, и «неоднородности» произведений, написанных на разных языках. Настройка алгоритма, использующего таблицу парных расстояний между всеми произведениями модельной коллекции, заключалась в определении оптимального значения вещественного параметра g, для которого минимизируется ошибка нарушения гипотезы «однородности». Обученный на текстах модельной коллекции g-классификатор показал высокую, 100 %-ю точность в распознавании языков произведений. Для тестирования классификатора были выбраны дополнительно шесть случайных текстов, из которых пять на тех же языках, что и тексты модельной коллекции. Методом ближайшего (по расстоянию) соседа все новые тексты подтвердили свою однородность с соответствующими парами одноязычных произведений. Шестой текст на румынском языке показал свою неоднородность по отношению ко всем элементам коллекции. Вместе с тем проявил близость по минимальным расстояниям, прежде всего, к двум текстам на испанском языке и затем и к двум произведениям на итальянском языке.

Ключевые слова: текст, язык, латинская графика, алфавит, частотность униграмм, цифровой портрет текста, гипотеза однородности, классификатор, обучение, распознавание языков, тестирование классификатора, оценка эффективности

Авторы:

Усманов Зафар Джураевич
734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт ма-тематики им. А. Джураева НАН РТ, zafar-usmanov@rambler.ru

Косимов Абдунаби Абдурауфович
734042, г. Душанбе, пр. Акад. Раджабовых, 10, Таджикский технический универ-ситет имени академика М.С. Осими, abdunabi_kbtut@mail.ru

Список литературы

1. Список латинских букв // Википедия. – URL: https://ru.wikipedia.org/wiki/Список_латинских_букв (дата обращения: 03.05.2021).

2. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 9. – С. 392–397.

3. Усманов З.Д., Косимов А.А. О распознавании авторства таджикского текста // Доклады Академии наук Республики Таджикистан. – 2016. – Т. 59, № 3–4. – C. 114–119.

4. Косимов А.А. Оценка эффективности использования биграмм при идентификации текста // Доклады Академии наук Республики Таджикистан. – 2017. – Т. 60, № 5–6. – C. 224–229.

5. Косимов А.А. Оценка эффективности использования триграмм при идентификации текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. – 2017. – № 1 (166). – С. 51–57.

6. Каримов А.А. О цифровом портрете текстовой информации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 7–10.

7. Каюмов М.М. О цифровом портрете текстовой информации, основанном на частотности знаков пунктуации // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2019. – № 1 (45). – С. 20–23.

8. Каюмов М.М. О распознавании автора текста на основе частотности αβ-кодов словоформ // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 29–36.

9. Ашурова Ш.Н. Оценка эффективности использования словесных биграмм при идентификации текста // Материалы международной научно-практической конференции ТУТ «Роль ИКТ в инновационном развитии экономики Республики Таджикистан». – Душанбе: Ба?манр?д, 2017. – С. 292–297.

10. Ашурова Ш.Н. Оценка эффективности использования словесных триграмм при идентификации текста // Вестник Технологического университета Таджикистана. – 2017. – № 4 (31). – С. 51–58.

11. Ашурова Ш.Н., Тошхуджаев Х.А. О распознавании автора текста на основе частотности словесных биграмм // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 57–61.

12. Бахтеев К.С. О применимости укороченных цифровых портретов для идентификации автора текста // Политехнический вестник. Серия: Интеллект. Инновации. Инвестиции. – 2020. – № 2 (50). – С. 25–28.

13. Бахтеев К.С. О распознавании авторства по усеченным цифровым портретам текста // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. – 2018. – № 4 (173). – C. 82–92.

14. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. – Томск: В-Спектр, 2011. – 188 с.

15. Воронцов К.В. Математические методы обучения по прецедентам. – URL: http://www.ccas.ru/voron (дата обращения: 03.05.2021).

16. Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических методов прогнозирования): учебное пособие. – М.: ВМК МГУ им. М.В. Ломоносова, 2010. – 278 с.

Для цитирования:

Усманов З.Д., Косимов А.А. Тестирование γ-классификатора, настроенного на распознавание языков произведений на основе латинского алфавита // Системы анализа и обработки данных. – 2021. – № 2 (82). – С. 83–94. – DOI: 10.17212/2782-2001-2021-2-83-94.

For citation:

Usmanov Z.D., Kosimov A.A. Testirovanie γ-klassifikatora, nastroennogo na raspoznavanie yazykov proizvedenii na osnove latinskogo alfavita [Testing the γ-classifier adapted to recognize the languages of works based on the Latin alphabet]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2021, no. 2 (82), pp. 83–94. DOI: 10.17212/2782-2001-2021-2-83-94.

Просмотров: 652

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

Тестирование гамма-классификатора, настроенного на распознавание языков произведений на основе латинского алфавита