Проект направлен на создание автоматической системы, основанной на типовых документах, включающей документооборот и использующей методы машинного обучения и трансформерные нейронные сети. Основная цель разработки заключается в повышении качества и скорости обработки документации, снижении нагрузки на сотрудников и предотвращении ошибок, возникающих при индивидуальном подходе, для достижения которой поставлена задача по реализации комплексной архитектуры, включающая предобработку данных, дообучение моделей, а также измерение точности результатов по метрикам «точность» и «F1-мера», что позволяет объективно измерять эффективность метода.
Ключевой формулой системы является применение современных языковых моделей на основе BERT и трансформерного соединения, ориентированного на контекстный анализ текста. Использование моделей GPT обеспечивает возможность адаптации решений под различные форматы документов и специфику единого документооборота. Формирование эмбеддингов осуществляется с учетом позиционных признаков обработки механизмом многоголового внимания, что обеспечивает получение контекстных представлений и последующую классификацию категории документа [1–3].
Предложенная система позволяет анализировать не только текстовое правило, но и такие параметры, как метаданные, стиль оформления и структурные элементы, которые повышают точность определения типа файлов при их использовании пользователями. Автоматизация данного процесса позволяет сократить время на регистрацию документов в СЭД, минимизировать возможные человеческие ошибки, обеспечить соответствие нормам организации и повысить
эффективность управления информационными потоками.
Полученные результаты демонстрируют высокую перспективность применения трансформерных технологий в задачах интеллектуальной обработки документов и подтверждения возможности расширения функционала системы для управления крупными корпоративными и значимыми платформами.
Бурков А. Машинное обучение без лишних слов. – СПб.: Питер, 2020. – 192 с.
Жерон О. Прикладное машинное обучение с помощью Scikit-Learn, Keras и Tensor Flow: концепции, инструменты и техники для создания интеллектуальных систем. – СПб.: Диалектика, 2020. – 1040 с.
Рашка С., Мирджалили В. Python и машинное обучение: машинное и глубокое обучение с использованием Python, Scikit-Learn и TensorFlow. – СПб.: Диалектика, 2020. – 948 с.
Грас Д. Data Science. Наука о данных с нуля. – 2-е изд. – СПб.: БХВ-Петербург, 2021. – 416 с.
Уатт Дж., Борхани Р., Катсаггелос А. Машинное обучение: основы, алгоритмы и практика применения. – СПб.: БХВ-Петербург, 2022. – 640 с.
Чжен Э., Казари А. Машинное обучение. Конструирование признаков: принципы и техники для аналитиков. – М.: Бомбора, 2022. – 240 с.
Плас Дж. В. Python для сложных задач: наука о данных и машинное обучение / пер. с англ. И. Пальти. – СПб.: Питер, 2018. – 576 с.
Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python: руководство для специалистов по работе с данными. – СПб.: Альфа-книга, 2017. – 480 с.
Дейтел П., Дейтел Х. Python: Искусственный интеллект, большие данные и облачные вычисления. – СПб.: Питер, 2020. – 864 с.
Харрисон М. Машинное обучение: карманный справочник: краткое руководство по методам структурированного машинного обучения на Python. – СПб.: Диалектика, 2020. – 320 с.
Элбон К. Машинное обучение с использованием Руthon. Сборник рецептов. – СПб.: БХВ-Петербург, 2019. – 384 с.
Шалев-Шварц Ш., Бен-Давид Ш. Идеи машинного обучения: от теории к алгоритмам. – М.: ДМК Пресс, 2019. – 436 с.
Deisenroth M.P., Faisal A.A., Ong Ch.S. Mathematics for machine learning. – Cambridge: Cambridge University Press, 2020. – 398 р.
Фофанов О.Б. Алгоритмы и структуры данных: учебное пособие / Томский политехнический университет. – Томск: Изд-во ТПУ, 2014. – 126 с.
Алгоритмы. Построение и анализ / Т. Кормен, К. Штайн, Р. Ривест, Ч. Лейзерсон. – М.: Диалектика, 2019. – 1324 с.
Кормен Т. Алгоритмы: вводный курс. – М.: Вильямс, 2014. – 208 с.
Бабичев С.Л. Лекции по алгоритмам и структурам данных. – М.: МАКС Пресс, 2019. – 344 с.
Моргунов А.В. Разработка системы автоматического распознавания типа документа по прикрепленному сообщению в СЭД // Системы анализа и обработки данных. – 2026. – № 1 (101).?– С. 59–70. – DOI: 10.17212/2782-2001-2026-1-59-70.
Morgunov A.V. Razrabotka sistemy avtomaticheskogo raspoznavaniya tipa dokumenta po prikreplennomu soobshcheniyu v SED [Development of a system for automatic document type recognition based on attached messages in an EDMS]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2026, no. 1 (101), pp. 59–70. DOI: 10.17212/2782-2001-2026-1-59-70.