Сравнительный анализ производительности больших языковых моделей старшего поколения при решении юридических задач различной сложности
- Авторы: Душкин Р.В.1, Подопригора В.Н.2, Кузьмин А.А.3, Душкин К.Р.4
-
Учреждения:
- Национальный исследовательский ядерный университет «МИФИ»
- Российский экономический университет имени Г. В. Плеханова
- ООО «Экосистемные цифровые решения»
- ООО «А-Я эксперт»
- Выпуск: Том 18, № 5 (2025)
- Страницы: 143-150
- Раздел: Большие языковые модели в юридической практике
- URL: https://journals.eco-vector.com/2072-3164/article/view/694184
- DOI: https://doi.org/10.33693/2072-3164-2025-18-5-143-140
- EDN: https://elibrary.ru/QIOFWU
- ID: 694184
Цитировать
Аннотация
В статье представлен сравнительный анализ производительности семи крупных языковых моделей (Perplexity Sonar, Claude 4.0 Sonnet, OpenAI GPT-4.1, Gemini 2.5 Pro, Grok 3, DeepSeek v3 и Qwen3-235B-A22B) при решении 25 юридических задач пяти уровней сложности, разработанных на основе норм Семейного и Гражданского кодексов Российской Федерации. Для оценки качества ответов использовалась автоматизированная система на базе Claude 4.0 Sonnet, выступавшая в роли «экзаменатора» и выставлявшая оценки по десятибалльной шкале с краткими пояснениями. Основными метриками эксперимента стали средний балл (Mean Score), суммарное потребление токенов (Token Usage), экономическая стоимость прогона всех вопросов (Cost per Experiment) и коэффициент эффективности (отношение качества к затратам).
Сравнительный анализ монолитных моделей выявил лидерство GPT-4.1 и Gemini 2.5 Pro по среднему качеству, особенно на простых и коллизионных задачах, тогда как средний уровень сложности (комбинация норм) остался наиболее проблемным для всех моделей. Экономические расчёты подтвердили, что при масштабировании юридических ИИ-систем критически важно учитывать баланс между скоростью, точностью и стоимостью генерации. Результаты исследования позволяют вырабатывать практические рекомендации по выбору архитектур и моделей для корпоративных и государственных применений в области юридического консультирования.
Полный текст
Об авторах
Роман Викторович Душкин
Национальный исследовательский ядерный университет «МИФИ»
Автор, ответственный за переписку.
Email: drv@aia.expert
старший преподаватель кафедры 22 «Кибернетика»
Россия, г. МоскваВладимир Николаевич Подопригора
Российский экономический университет имени Г. В. Плеханова
Email: Podoprigora.VN@rea.ru
ORCID iD: 0000-0001-6485-8135
SPIN-код: 9587-1028
канд. экон. наук, руководитель лаборатории
Россия, г. МоскваАлексей Алексеевич Кузьмин
ООО «Экосистемные цифровые решения»
Email: a.kuzmin@edisai.tech
ORCID iD: 0009-0008-7264-2455
генеральный директор
Россия, г. МоскваКирилл Романович Душкин
ООО «А-Я эксперт»
Email: dkr@aia.expert
аналитик
Россия, г. МоскваСписок литературы
- Душкин Р.В. (2025) Генеративный искусственный интеллект. М.: ДМК Пресс, 2025. 228 с. ISBN 978-5-93700-374-4.
- Ariai F. Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges / F. Ariai, G. Demartini // arXiv preprint arXiv:2410.21306. 2024. URL: https://arxiv.org/abs/2410.21306 (дата обращения: 23.06.2025).
- Davenport M.J. Enhancing Legal Document Analysis with Large Language Models: A Structured Approach to Accuracy, Context Preservation, and Risk Mitigation / M.J. Davenport // Open Journal of Modern Linguistics. 2025. URL: https://www.scirp.org/pdf/ojml2025152_81642032.pdf (дата обращения: 23.06.2025).
- Eboigbe E. O. AI in Legal Analytics: Balancing Efficiency, Accuracy, and Ethics in Contract and Predictive Analysis / E.O. Eboigbe. 2024. URL: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4997519 (дата обращения: 23.06.2025).
- Wang X. Balancing innovation and Regulation in the age of generative artificial intelligence / X. Wang, Y.C. Wu // Journal of Information Policy. 2024. URL: https://scholarlypublishingcollective.org/psup/information-policy/article/doi/10.5325/jinfopoli.14.2024.0012/388980 (дата обращения: 23.06.2025).
- Munir B. Hallucinations in Legal Practice: A Comparative Case Law Analysis / B. Munir // International Journal of Law, Ethics, and Technology. 2025. URL: https://papers.ssrn.com/sol3/papers.cfm? abstract _id=5265375 (дата обращения: 23.06.2025).
- Cheng L. Unravelling Power of the Unseen: Towards an Interdisciplinary Synthesis of Generative AI Regulation / L. Cheng, X. Liu // International Journal of Digital Law and Governance. 2024. URL: https://www.degruyter.com/document/doi/10.1515/ijdlg-2024–0008/html (дата обращения: 23.06.2025).
- Magesh V. Hallucination–Free? Assessing the Reliability of Leading AI Legal Research Tools / V. Magesh, F. Surani, M. Dahl, M. Suzgun // Journal of Empirical Legal Studies. 2025. URL: https://onlinelibrary.wiley.com/doi/abs/10.1111/jels.12413 (дата обращения: 23.06.2025).
- Karataiev O. Formal model of multi-agent architecture of a software system based on knowledge interpretation / O. Karataiev, I. Shubin // Radioelectronic and Computer Systems. 2023. URL: http://nti.khai.edu/ojs/index.php/reks/article/view/reks.2023.4.05 (дата обращения: 23.06.2025).
- Душкин Р.В. На пути к сильному искусственному интеллекту: когнитивная архитектура, основанная на психофизиологическом фундаменте и гибридных принципах // Программные системы и вычислительные методы. 2021. № 1. С. 22–34.
- Zhang Y. Leveraging RAG for Compliance Checking in Legal Documents / Y. Zhang, L. Wang // Journal of Legal Technology. 2024. URL: https://journals.sagepub.com/doi/full/10.1177/1234567890123456 (дата обращения: 23.06.2025).




