Зачем запускать LLM локально
Три причины: данные не покидают машину (compliance), нет latency на API вызовы, нет платы за токены. В 2026 году модели сжались: Llama 3 8B в 4-bit quantization весит 4.7 GB и работает на любом MacBook M-серии или ноутбуке с 16 GB RAM.
Установка за одну команду
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — скачать installer с ollama.com
# После установки
ollama serve # запускает сервер на localhost:11434
Запуск моделей
# Llama 3 8B — баланс скорости и качества
ollama run llama3
# Mistral 7B — отличен для кода
ollama run mistral
# Gemma 2 9B — Google, сильный reasoning
ollama run gemma2
# Qwen 2.5 Coder — лучший для кода среди малых моделей
ollama run qwen2.5-coder
OpenAI-совместимый API
Ollama поднимает REST API полностью совместимый с OpenAI. Любой код с openai Python SDK работает без изменений — меняешь только base_url.
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama', # любая строка
)
response = client.chat.completions.create(
model='llama3',
messages=[{'role': 'user', 'content': 'Привет'}]
)
print(response.choices[0].message.content)
Интеграция с VS Code и Cursor
В Continue (расширение VS Code) в settings.json указываешь provider ollama и model llama3. Cursor поддерживает Ollama через Custom API с base URL http://localhost:11434/v1. Autocomplete работает полностью оффлайн.
Benchmark на разном железе
| Железо | Модель | Токенов/сек | RAM |
|---|---|---|---|
| MacBook M3 Pro 18GB | Llama 3 8B Q4 | 35 | 6.2 GB |
| MacBook M3 Pro 18GB | Mistral 7B Q4 | 38 | 5.1 GB |
| RTX 4090 24GB | Llama 3 70B Q4 | 48 | 21 GB |
| CPU Intel i7-13700 | Llama 3 8B Q4 | 8 | 6.2 GB |
FAQ
Можно ли запустить Ollama в Docker?
Да. docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama. GPU поддержка через nvidia-container-toolkit.
Какую модель выбрать для кода?
qwen2.5-coder:7b — лучший результат на HumanEval среди моделей до 10B параметров в 2026. Для 32B+ — deepseek-coder-v2.