Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№1(101) Январь - Март 2026

Разработка системы автоматического распознавания типа документа по прикрепленному сообщению в СЭД

Выпуск № 1 (101) Январь - Март 2026
Авторы:

Моргунов Александр Владимирович ,
DOI: http://dx.doi.org/10.17212/2782-2001-2026-1-59-70
Аннотация

Проект направлен на создание автоматической системы, основанной на типовых документах, включающей документооборот и использующей методы машинного обучения и трансформерные нейронные сети. Основная цель разработки заключается в повышении качества и скорости обработки документации, снижении нагрузки на сотрудников и предотвращении ошибок, возникающих при индивидуальном подходе, для достижения которой поставлена задача по реализации комплексной архитектуры, включающая предобработку данных, дообучение моделей, а также измерение точности результатов по метрикам «точность» и «F1-мера», что позволяет объективно измерять эффективность метода.



Ключевой формулой системы является применение современных языковых моделей на основе BERT и трансформерного соединения, ориентированного на контекстный анализ текста. Использование моделей GPT обеспечивает возможность адаптации решений под различные форматы документов и специфику единого документооборота. Формирование эмбеддингов осуществляется с учетом позиционных признаков обработки механизмом многоголового внимания, что обеспечивает получение контекстных представлений и последующую классификацию категории документа [1–3].



Предложенная система позволяет анализировать не только текстовое правило, но и такие параметры, как метаданные, стиль оформления и структурные элементы, которые повышают точность определения типа файлов при их использовании пользователями. Автоматизация данного процесса позволяет сократить время на регистрацию документов в СЭД, минимизировать возможные человеческие ошибки, обеспечить соответствие нормам организации и повысить

эффективность управления информационными потоками.



Полученные результаты демонстрируют высокую перспективность применения трансформерных технологий в задачах интеллектуальной обработки документов и подтверждения возможности расширения функционала системы для управления крупными корпоративными и значимыми платформами.



 



 


Ключевые слова: распознавание документов, машинное обучение, трансформерные нейронные сети, автоматизация документооборота, классификационные тексты, предобработка данных, классификация документов, надежность, математическая модель, квадратичная модель, BERT, GPT, цифровой документооборот
Моргунов Александр Владимирович
630102, г. Новосибирск, ул. Кирова, 86, Сибирский государственный университет телекоммуникаций и информатики
all122001@mail.ru
Orcid:

Список литературы

Бурков А. Машинное обучение без лишних слов. – СПб.: Питер, 2020. – 192 с.



Жерон О. Прикладное машинное обучение с помощью Scikit-Learn, Keras и Tensor Flow: концепции, инструменты и техники для создания интеллектуальных систем. – СПб.: Диалектика, 2020. – 1040 с.



Рашка С., Мирджалили В. Python и машинное обучение: машинное и глубокое обучение с использованием Python, Scikit-Learn и TensorFlow. – СПб.: Диалектика, 2020. – 948 с.



Грас Д. Data Science. Наука о данных с нуля. – 2-е изд. – СПб.: БХВ-Петербург, 2021. – 416 с.



Уатт Дж., Борхани Р., Катсаггелос А. Машинное обучение: основы, алгоритмы и практика применения. – СПб.: БХВ-Петербург, 2022. – 640 с.



Чжен Э., Казари А. Машинное обучение. Конструирование признаков: принципы и техники для аналитиков. – М.: Бомбора, 2022. – 240 с.



Плас Дж. В. Python для сложных задач: наука о данных и машинное обучение / пер. с англ. И. Пальти. – СПб.: Питер, 2018. – 576 с.



Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python: руководство для специалистов по работе с данными. – СПб.: Альфа-книга, 2017. – 480 с.



Дейтел П., Дейтел Х. Python: Искусственный интеллект, большие данные и облачные вычисления. – СПб.: Питер, 2020. – 864 с.



Харрисон М. Машинное обучение: карманный справочник: краткое руководство по методам структурированного машинного обучения на Python. – СПб.: Диалектика, 2020. – 320 с.



Элбон К. Машинное обучение с использованием Руthon. Сборник рецептов. – СПб.: БХВ-Петербург, 2019. – 384 с.



Шалев-Шварц Ш., Бен-Давид Ш. Идеи машинного обучения: от теории к алгоритмам. – М.: ДМК Пресс, 2019. – 436 с.



Deisenroth M.P., Faisal A.A., Ong Ch.S. Mathematics for machine learning. – Cambridge: Cambridge University Press, 2020. – 398 р.



Фофанов О.Б. Алгоритмы и структуры данных: учебное пособие / Томский политехнический университет. – Томск: Изд-во ТПУ, 2014. – 126 с.



Алгоритмы. Построение и анализ / Т. Кормен, К. Штайн, Р. Ривест, Ч. Лейзерсон. – М.: Диалектика, 2019. – 1324 с.



Кормен Т. Алгоритмы: вводный курс. – М.: Вильямс, 2014. – 208 с.



Бабичев С.Л. Лекции по алгоритмам и структурам данных. – М.: МАКС Пресс, 2019. – 344 с.

Просмотров аннотации: 7
Скачиваний полного текста: 4
Просмотров интерактивной версии: 0
Для цитирования:

Моргунов А.В. Разработка системы автоматического распознавания типа документа по прикрепленному сообщению в СЭД // Системы анализа и обработки данных. – 2026. – № 1 (101).?– С. 59–70. – DOI: 10.17212/2782-2001-2026-1-59-70.

For citation:

Morgunov A.V. Razrabotka sistemy avtomaticheskogo raspoznavaniya tipa dokumenta po prikreplennomu soobshcheniyu v SED [Development of a system for automatic document type recognition based on attached messages in an EDMS]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2026, no. 1 (101), pp. 59–70. DOI: 10.17212/2782-2001-2026-1-59-70.