Ollama 2026: запуск LLM локально на MacBook, Linux и Windows

TL;DR: Ollama — самый простой способ запустить LLM локально в 2026. Одна команда, OpenAI-совместимый API на localhost:11434, 100+ моделей из коробки. MacBook M3 тянет Llama 3 8B со скоростью 35 токенов/сек.

Зачем запускать LLM локально

Три причины: данные не покидают машину (compliance), нет latency на API вызовы, нет платы за токены. В 2026 году модели сжались: Llama 3 8B в 4-bit quantization весит 4.7 GB и работает на любом MacBook M-серии или ноутбуке с 16 GB RAM.

Установка за одну команду

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — скачать installer с ollama.com
# После установки
ollama serve  # запускает сервер на localhost:11434

Запуск моделей

# Llama 3 8B — баланс скорости и качества
ollama run llama3

# Mistral 7B — отличен для кода
ollama run mistral

# Gemma 2 9B — Google, сильный reasoning
ollama run gemma2

# Qwen 2.5 Coder — лучший для кода среди малых моделей
ollama run qwen2.5-coder

OpenAI-совместимый API

Ollama поднимает REST API полностью совместимый с OpenAI. Любой код с openai Python SDK работает без изменений — меняешь только base_url.

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama',  # любая строка
)

response = client.chat.completions.create(
    model='llama3',
    messages=[{'role': 'user', 'content': 'Привет'}]
)
print(response.choices[0].message.content)

Интеграция с VS Code и Cursor

В Continue (расширение VS Code) в settings.json указываешь provider ollama и model llama3. Cursor поддерживает Ollama через Custom API с base URL http://localhost:11434/v1. Autocomplete работает полностью оффлайн.

Benchmark на разном железе

Железо	Модель	Токенов/сек	RAM
MacBook M3 Pro 18GB	Llama 3 8B Q4	35	6.2 GB
MacBook M3 Pro 18GB	Mistral 7B Q4	38	5.1 GB
RTX 4090 24GB	Llama 3 70B Q4	48	21 GB
CPU Intel i7-13700	Llama 3 8B Q4	8	6.2 GB

FAQ

Можно ли запустить Ollama в Docker?

Да. docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama. GPU поддержка через nvidia-container-toolkit.

Какую модель выбрать для кода?

qwen2.5-coder:7b — лучший результат на HumanEval среди моделей до 10B параметров в 2026. Для 32B+ — deepseek-coder-v2.