Почему сравнение актуально именно сейчас
Два года назад GPT-4 был недосягаем для open-source. Сейчас картина другая: Meta, Alibaba, DeepSeek выпустили модели которые закрывают 90% продакшн задач. Вопрос уже не "может ли open-source", а "в каких задачах платить за API ещё оправдано".
Сравнительная таблица
| Модель | MMLU | HumanEval | Параметры | Лицензия |
|---|---|---|---|---|
| GPT-4o (baseline) | 88.7 | 90.2 | закрыто | проприетарная |
| DeepSeek V3 | 88.5 | 89.1 | 671B MoE | MIT |
| Llama 3.1 405B | 87.3 | 84.1 | 405B | Llama License |
| Qwen 2.5 72B | 86.1 | 86.6 | 72B | Apache 2.0 |
| Mistral Large 2 | 84.0 | 92.1 | 123B | MRL |
DeepSeek V3: неожиданный лидер
671B параметров с Mixture-of-Experts архитектурой — активно используется только 37B на каждый токен. Обучение стоило $5.5M против $100M+ для GPT-4. На HuggingFace 4M+ загрузок за первый месяц после релиза. Для coding задач в ряде тестов превосходит GPT-4o.
Llama 3.1 405B: Meta ставит на открытость
405B параметров с контекстом 128K токенов. Поддерживает function calling, multilingual (8 языков включая русский). На Together AI аренда обходится в $5/M токенов против $15/M у GPT-4o. Для энтерпрайза есть Llama Guard для safety filtering.
Где open-source пока уступает
Multimodal задачи — GPT-4V и Claude 3.5 Sonnet всё ещё лучше на сложном анализе изображений. Instruction following на edge cases — проприетарные модели точнее следуют сложным инструкциям. Но для 90% продакшн задач разница несущественна.
FAQ
Какую модель выбрать для старта?
Qwen 2.5 72B — лучший баланс размера и качества, Apache 2.0 лицензия, хорошо работает с русским языком.
Где запускать большие модели без своего GPU?
Together AI, Fireworks AI, Groq — все поддерживают Llama 3 и Qwen 2.5 с ценами ниже OpenAI.