Python ML стек в 2026: от данных до продакшена

TL;DR: Минимальный продакшн-стек 2026: Polars для данных, PyTorch 2.4 + TorchCompile для обучения, ONNX для экспорта, FastAPI для API, Docker для деплоя. Polars заменяет Pandas в 80% задач и работает в 5-20x быстрее.

Почему стек меняется

Pandas медленный на больших данных — это знали всегда. В 2026 Polars стал production-ready и вытесняет Pandas в новых проектах. PyTorch 2.x с torch.compile ускоряет обучение на 30-50% без изменений кода. ONNX Runtime стал стандартом для cross-platform деплоя моделей.

Данные: Polars вместо Pandas

pip install polars

import polars as pl

# Читаем 10GB CSV — Polars использует lazy evaluation
df = pl.scan_csv("big_dataset.csv")

result = (
    df
    .filter(pl.col("score") > 0.5)
    .group_by("category")
    .agg(pl.col("value").mean().alias("avg_value"))
    .sort("avg_value", descending=True)
    .collect()  # выполняем только здесь
)
print(result)

На датасете 5M строк: Pandas 4.2 сек, Polars 0.3 сек. 14x быстрее на одном ядре.

Обучение: PyTorch 2.4 + compile

import torch
import torch.nn as nn

model = MyTransformerModel()
# torch.compile — один вызов, 30-50% прирост скорости
model = torch.compile(model)

optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)

for batch in dataloader:
    loss = model(batch)
    loss.backward()
    optimizer.step()

Экспорт: ONNX для любой платформы

# Экспорт PyTorch модели в ONNX
torch.onnx.export(
    model,
    dummy_input,
    "model.onnx",
    opset_version=17,
    input_names=["input"],
    output_names=["output"],
    dynamic_axes={"input": {0: "batch_size"}}
)

# Инференс на любой платформе через ONNX Runtime
import onnxruntime as ort
sess = ort.InferenceSession("model.onnx",
    providers=["CUDAExecutionProvider", "CPUExecutionProvider"])
output = sess.run(None, {"input": input_data})

API: FastAPI

from fastapi import FastAPI
import onnxruntime as ort
import numpy as np

app = FastAPI()
sess = ort.InferenceSession("model.onnx")

@app.post("/predict")
async def predict(data: dict):
    input_arr = np.array(data["features"], dtype=np.float32)
    output = sess.run(None, {"input": input_arr[None, :]})
    return {"prediction": output[0].tolist()}

FAQ

Когда Pandas всё ещё нужен?

Когда код уже написан на Pandas и рефакторинг не окупается, или при работе с Jupyter в исследовательском режиме где скорость не критична.

Нужен ли MLflow в этом стеке?

Для команды от 2+ человек — да. MLflow добавляет трекинг экспериментов и model registry без лишней сложности.