Почему стек меняется
Pandas медленный на больших данных — это знали всегда. В 2026 Polars стал production-ready и вытесняет Pandas в новых проектах. PyTorch 2.x с torch.compile ускоряет обучение на 30-50% без изменений кода. ONNX Runtime стал стандартом для cross-platform деплоя моделей.
Данные: Polars вместо Pandas
pip install polars
import polars as pl
# Читаем 10GB CSV — Polars использует lazy evaluation
df = pl.scan_csv("big_dataset.csv")
result = (
df
.filter(pl.col("score") > 0.5)
.group_by("category")
.agg(pl.col("value").mean().alias("avg_value"))
.sort("avg_value", descending=True)
.collect() # выполняем только здесь
)
print(result)
На датасете 5M строк: Pandas 4.2 сек, Polars 0.3 сек. 14x быстрее на одном ядре.
Обучение: PyTorch 2.4 + compile
import torch
import torch.nn as nn
model = MyTransformerModel()
# torch.compile — один вызов, 30-50% прирост скорости
model = torch.compile(model)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)
for batch in dataloader:
loss = model(batch)
loss.backward()
optimizer.step()
Экспорт: ONNX для любой платформы
# Экспорт PyTorch модели в ONNX
torch.onnx.export(
model,
dummy_input,
"model.onnx",
opset_version=17,
input_names=["input"],
output_names=["output"],
dynamic_axes={"input": {0: "batch_size"}}
)
# Инференс на любой платформе через ONNX Runtime
import onnxruntime as ort
sess = ort.InferenceSession("model.onnx",
providers=["CUDAExecutionProvider", "CPUExecutionProvider"])
output = sess.run(None, {"input": input_data})
API: FastAPI
from fastapi import FastAPI
import onnxruntime as ort
import numpy as np
app = FastAPI()
sess = ort.InferenceSession("model.onnx")
@app.post("/predict")
async def predict(data: dict):
input_arr = np.array(data["features"], dtype=np.float32)
output = sess.run(None, {"input": input_arr[None, :]})
return {"prediction": output[0].tolist()}
FAQ
Когда Pandas всё ещё нужен?
Когда код уже написан на Pandas и рефакторинг не окупается, или при работе с Jupyter в исследовательском режиме где скорость не критична.
Нужен ли MLflow в этом стеке?
Для команды от 2+ человек — да. MLflow добавляет трекинг экспериментов и model registry без лишней сложности.