Почему техники промптинга важны в эпоху больших моделей
GPT-4o и Claude 3.5 Sonnet умные, но без правильного промпта дают посредственные ответы на сложных задачах. Разница между "ответь на вопрос" и CoT промптом на GSM8K — 17% точности. Это много.
Chain-of-Thought (CoT)
Идея: попросить модель показать рассуждение перед ответом. Работает потому что промежуточные шаги уменьшают вероятность ошибки на следующем шаге.
# Без CoT — модель часто ошибается
prompt = "Джон купил 3 пакета по 5 яблок и съел 7. Сколько осталось?"
# С CoT — точность выше на 30%+
prompt = """Джон купил 3 пакета по 5 яблок и съел 7. Сколько осталось?
Давай решим шаг за шагом:"""
# Zero-shot CoT (работает почти так же)
prompt = """Джон купил 3 пакета по 5 яблок и съел 7. Сколько осталось?
Думай пошагово."""
ReAct: мысль + действие
ReAct (Reasoning + Acting) чередует рассуждение с вызовом инструментов. Стандарт для агентов в LangChain, AutoGen, CrewAI. Каждый шаг: Thought → Action → Observation → следующий Thought.
system_prompt = """Ты помощник с доступом к инструментам.
Для каждого шага:
1. Thought: что нужно сделать
2. Action: какой инструмент вызвать и с какими аргументами
3. Observation: результат вызова
4. ... повторяй до Final Answer"""
SELF-ASK: декомпозиция вопросов
Техника для сложных multi-hop вопросов. Модель сама формулирует подвопросы и отвечает на них перед финальным ответом. Улучшает точность на 20-35% на задачах типа "кто был президентом страны где изобрели X".
prompt = """Вопрос: В каком году основали компанию, которая создала модель с лучшим MMLU в 2023?
Нужны ли промежуточные вопросы? Да.
Промежуточный вопрос: Какая модель показала лучший MMLU в 2023?
Промежуточный ответ: GPT-4 от OpenAI.
Промежуточный вопрос: В каком году основана OpenAI?
Промежуточный ответ: 2015.
Финальный ответ: 2015."""
Сравнение техник
| Техника | Где работает | Прирост точности | Стоимость токенов |
|---|---|---|---|
| Zero-shot CoT | Math, логика | +25-45% | +30% |
| Few-shot CoT | Math, reasoning | +40-55% | +50% |
| ReAct | Агенты, поиск | +30-40% | +60% |
| SELF-ASK | Multi-hop QA | +20-35% | +40% |
FAQ
Работает ли CoT с русскоязычными промптами?
Да. GPT-4o, Claude 3.5, Qwen 2.5 отлично понимают "думай пошагово" и "решим шаг за шагом" на русском языке.
Нужно ли платить за дополнительные токены рассуждения?
Да, CoT увеличивает длину ответа. Для простых задач не оправдано. Для сложных — экономия на повторных вызовах из-за ошибок перекрывает стоимость.