Настоящая работа посвящена разработке системы автоматизированной проверки договоров и проблемам, возникшим в процессе ее реализации. Актуальность исследования заключается в решении задач оптимизации работы экспертов по проверке договоров.
В рамках исследования выделены ключевые проблемы в данной области: 1) отсутствие стандартизированной системы оценки рисков, что затрудняет принятие решений для лиц, принимающих решения; 2) недостаток открытых данных для обучения системы, ограничивающих ее способность эффективно выявлять ошибки и правильно интерпретировать юридические термины; 3) недостаточный контроль за процессом при использовании крупных языковых моделей, которые, несмотря на мощные аналитические возможности, не всегда могут гарантировать точность и согласованность выводов; 4) отсутствие учета контекста и семантической вариативности в юридических текстах затрудняет точную классификацию и выявление ошибок, особенно в случаях, когда одинаковые юридические термины или фразы могут иметь разные значения
в зависимости от контекста.
По результатам исследования были получены: 1) авторская система классификации рисков юридических ошибок, основанная на теории нечетких множеств; 2) алгоритмы функционирования системы проверки юридических документов; 3) методы генерации данных для дообучения моделей BERT и корректировки моделей GPT.
Кроме того, в статье предложено использование комбинированного подхода с применением моделей GPT и BERT (полимодельная система) для оптимизации процесса: модель GPT обрабатывает текст и находит ошибки на основе заранее заданных подсказок, а модель BERT используется для присвоения ошибкам уровня риска и контроля над результатами работы модели GPT и обеспечивает более надежный и последовательный анализ.
Также акцентируется внимание на необходимости создания открытых датасетов с договорами, основанными на российском праве. Создание таких ресурсов не только улучшит качество обучения систем искусственного интеллекта, но и повысит доступность и прозрачность информации для исследователей и практиков в области права. Это станет важным шагом к совершен-ствованию автоматизированного анализа юридических документов и увеличению общей правовой уверенности при их использовании.
1. 2023 Legal Technology Report: for In-house Legal Professionals. – Association of Corporate Counsel, 2023. – URL: https://www.acc.com/sites/default/files/2023-05/ACC_LegalTech-Report23_Final.pdf (accessed: 24.02.2025).
2. Rissland E.L. Artificial intelligence and law: stepping stones to a model of legal reasoning // The Yale Law Journal. – 1990. – Vol. 99 (8). – P. 1957–1981. – DOI: 10.2307/796679.
3. Соловьев И.П. Изучение логического программирования на примере задач искусственного интеллекта // Компьютерные инструменты в образовании. – 1998. – № 6. – URL: https://cyberleninka.ru/article/n/izuchenie-logicheskogo-programmirovaniya-na-primere-zadach-iskusstvennogo-intellekta (дата обращения: 03.03.2025).
4. Jaffar J., Lassez J.-L., Maher M.J. Comments on “general failure of logic programs” // The Journal of Logic Programming. – 1986. – Vol. 3 (2). – P. 115–118. – DOI: 10.1016/0743-1066(86)90018-X.
5. Leith P. The rise and fall of the legal expert system† // International Review of Law, Computers & Technology. – 2016. – Vol. 30 (3). – P. 94–106. – DOI: 10.1080/13600869.2016.1232465.
6. Loevinger L. Jurimetrics: the methodology of legal inquiry // Law and Contemporary Problems. – 1963. – Vol. 28. – P. 5–35. – URL: https://scholarship.law.duke.edu/lcp/vol28/iss1/2 (accessed: 03.03.2025).
7. Genesereth M. Computational law: the cop in the backseat. White Paper. – CodeX: The Stanford Center for Legal, 2015.
8. Eken G. Using natural language processing for automated construction contract review during risk assessment at the bidding stage. Ph.D. Doctoral Program. – Middle East Technical University, 2022.
9. Construction contract risk identification based on knowledge-augmented language models / S. Wong, C. Zheng, X. Su, Y.Tang // Computers in Industry. – 2024. – Vol. 157–158. – P. 104082. – DOI: 10.1016/j.compind.2024.104082.
10. Moon S., Lee G., Chi S. Automated system for construction specification review using natural language processing // Advanced Engineering Informatics. – 2022. – Vol. 51. – P. 101495. – DOI: 10.1016/j.aei.2021.101495.
11. Shuai B., Caldas C.H. A case-based rag methodology to analyze contract risks for construction projects // SSRN Electronic Journal. – 2024. – DOI: 10.2139/ssrn.4946907.
12. Hassan F. ul, Le T. Computer-assisted separation of design-build contract requirements to support subcontract drafting // Automation in Construction. – 2021. – Vol. 122. – P. 103479. – DOI: 10.1016/j.autcon.2020.103479.
13. Kanapala A., Pal S., Pamula R. Text summarization from legal documents: a survey // Artificial Intelligence Review. – 2019. – Vol. 51 (3). – P. 371–402. – DOI: 10.1007/s10462-017-9566-2.
14. Dyevre A. Text-mining for lawyers: how machine learning techniques can advance our understanding of legal discourse // SSRN Electronic Journal. – 2020. – DOI: 10.2139/ssrn.3734430.
15. Bansal N., Sharma A., Singh R.K. A review on the application of deep learning in legal domain // IFIP International Conference on Artificial Intelligence Applications and Innovations. – 2019. – Vol. 559. – P. 374–381. – DOI: 10.1007/978-3-030-19823-7_31.
16. Method and system for suggesting revisions to an electronic document: Patent US2019/0303435 A1. – URL: https://patents.google.com/patent/US20190303435A1/en (accessed: 03.03.2025).
17. Systems, methods and software for processing phrases and clauses in legal documents: Patent US8788523B2. – URL: https://patents.google.com/patent/US8788523B2/en (accessed: 03.03.2025).
18. Systems, methods, and computer program products for slot normalization of text data: Patent US10614157B1. – URL: https://patents.google.com/patent/US10614157B1/en (accessed: 03.03.2025).
19. Eisenberg M. Mistake in contract law // California Law Review. – 2003. – Vol. 91 (6). – P. 1573. – DOI: 10.2307/3481399.
20. Спесивцев А.В. Нечетко-возможностный подход к формализации и использованию экспертных знаний для оценивания состояний сложных объектов // Известия вузов. Приборостроение. – 2020. – Т. 63, № 11. – С. 985–994. – DOI: 10.17586/0021-3454-2020-63-11-985-994.
21. Результаты опроса по квалификации юридической значимости ошибок в лицензионных договорах на ПО. – URL: https://docs.google.com/spreadsheets/d/1TzE8BlL8BT9TpURq61Ouca3RZOyeYlSqQ_7ZZ2CVUno/edit? (дата обращения: 14.02.2024).
22. CUAD: an expert-annotated NLP dataset for legal contract review / D. Hendrycks, C. Burns, A. Chen, S. Ball. – 2021. – DOI: 10.48550/arxiv.2103.06268.
23. Park J., Cardie C. A corpus of erulemaking user comments for measuring evaluability of arguments // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. – European Language Resources Association (ELRA), 2018. – P. 1623–1628.
24. Unsupervised alignment of privacy policies using hidden Markov models / R. Ramanath, F. Liu, N. Sadeh, N.A. Smith // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. – Association for Computational Linguistics, 2014. – Vol. 2. – P. 605–610. – DOI: 10.3115/v1/P14-2099.
25. Question answering for privacy policies: combining computational and legal perspectives / A. Ravichander, A.W. Black, S. Wilson, T. Norton, N. Sadeh // Conference on Empirical Methods in Natural Language Processing, Hong Kong, November 2019. – DOI: 10.48550/arxiv.1911.00841.
26. Koreeda Y., Manning C.D. ContractNLI: a dataset for document-level natural language inference for contracts // Conference on Empirical Methods in Natural Language Processing. – 2021. – DOI: 10.48550/arxiv.2110.01799.
27. The black box problem revisited. Real and imaginary challenges for automated legal decision making / B. Brozek, M. Furman, M. Jakubiec, B. Kucharzyk // Artificial Intelligence and Law. – 2024. – Vol. 32 (2). – P. 427–440. – DOI: 10.1007/s10506-023-09356-9.
28. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions / L. Huang, W. Yu, W. Ma, W. Zhong, Z. Feng, H. Wang, Q. Chen, W. Peng, X. Feng, B. Qin, T. Liu // ACM Transactions on Information Systems. – 2025. – Vol. 43 (2). – P. 1–55. – DOI: 10.1145/3703155.
29. Alignment faking in large language models / R. Greenblatt, C. Denison, B. Wright, et al. – 2024. – DOI: 10.48550/arxiv.2412.14093.
30. Understanding the role of temperature in diverse question generation by GPT-4 / A. Agarwal, K. Mittal, A. Doyle, P. Sridhar, Z. Wan, J.A. Doughty, J. Savelka, M. Sakr // Proceedings of the 55th ACM Technical Symposium on Computer Science Education (SIGCSE 2024). Vol. 2. – Association for Computing Machinery, 2024. – P. 1550–1551. – DOI: 10.1145/3626253.3635608.
Котов А.А. Проблемы разработки систем автоматизированной проверки договоров //
Системы анализа и обработки данных. – 2025. – № 1 (97). – С. 27–48. – DOI: 10.17212/2782-2001-2025-1-27-48.
Kotov A.A. Problemy razrabotki sistem avtomatizirovannoi proverki dogovorov [Problems of developing automated contract verification systems]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2025, no. 1 (97), pp. 27–48. DOI: 10.17212/2782-2001-2025-1-27-48.