Рассуждения в масштабе • Агентные процессы • Мультимодальность по умолчанию • Гонка открытых и закрытых решений
Рассуждающие модели думают поэтапно и тратят дополнительные вычисления при инференсе (TTC) для повышения точности.
Запрос → Ответ
Запрос → План → Инструмент → Рефлексия → Ответ
Больше токенов на рассуждения = лучшие результаты, с убывающей отдачей.
R1 доказывает, что открытые модели рассуждений могут соперничать с закрытыми моделями.
| Метрика | Значение |
|---|---|
| Параметры | 685B (MoE) |
| Токены обучения | 14.8T |
| GPQA | 81.0 |
| Лицензия | MIT |
Гибридные модели Anthropic с рассуждениями + использованием инструментов надежно справляются с длительными задачами и кодированием.
Moonshot Kimi K2 предоставляет открытое, массивное MoE рассуждение в масштабе (1Т параметров, 384 эксперта).
Специализированная модель кодирования Alibaba сокрушает бенчмарки с 480B параметрами, 35B активных.
| Метрика | Значение |
|---|---|
| Параметры | 480B (35B активных) |
| Длина контекста | 256K (1M расш.) |
| SWE-Bench Верифицирован | SOTA с открытым кодом |
| CodeForces ELO | Лидирующий |
Snapshot of key reasoning contenders & a couple headline metrics.
| Модель | Параметры | Токены | MMLU | GPQA |
|---|---|---|---|---|
| Grok 4 | 5000B | 80T | - | 88.9 |
| Claude Opus 4 | 1200B | 100T | - | 83.3 |
| DeepSeek R1 | 685B | 14.8T | 93.4 | 81.0 |
| Qwen3 Coder | 480B | - | - | - |
| Kimi K2 | 1000B | 15.5T | 89.5 | 75.1 |
| Qwen3-235B | 235B | 36T | 93.1 | 77.5 |
Надежным голосовым агентам нужен настроенный пайплайн: STT → Рассуждения → TTS или V2V, оптимизированный для задержки и качества.
Аудио → Текст
Рассуждения и инструменты
Текст → Аудио
Choose STT by WER, latency, language coverage & diarization.
Modern TTS offers controllable emotion/style with near-human naturalness.
V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.
MCP and graph frameworks standardize tool access and agent flow.
MCP быстро становится стандартным способом предоставления инструментов SaaS моделям.
LangGraph & similar frameworks let you design agent flows as state graphs.
Фреймворки типа Pipecat, Vapi, Retell упрощают потоковую передачу с низкой задержкой и прерывания.
| Framework | Low-Latency? | STT/TTS Built-in? | Pricing |
|---|---|---|---|
| Vapi | ✅ Yes | ✅ Built-in | $0.05/min |
| Retell | ✅ Yes | ✅ Managed | $0.08/min |
| Bland | ⚠️ Medium | ✅ Full Stack | $0.12/min |
| Pipecat | ✅ Yes | ✅ Integrated | Open Source |
Без оценок и телеметрии вы не можете итеративно улучшать систему.
Комплексные инструменты оценки для тестирования промптов, сравнения моделей и оценки безопасности.
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI
Локальная оценка LLM с фокусом на безопасность - 7.9k звезд на GitHub
npx promptfoo@latest init
npx promptfoo eval
OpenAI, Anthropic, Azure, Bedrock, Ollama
Реестр оценок с открытым кодом - 16.7k звезд на GitHub
pip install evals
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman
Local evaluation framework with extensive metrics - 9.8k GitHub stars
pip install -U deepeval
LlamaIndex, Hugging Face, Cloud Platform
Microsoft's AI-driven prompt optimization framework
git clone microsoft/PromptWizard
pip install -e .
GSM8k, SVAMP, AQUARAT, Instruction Induction
Стратегический подход к комплексной оценке моделей ИИ
Базовый уровень
Стандартные бенчмарки
Безопасность
Тестирование красной командой
Domain
Custom metrics
Optimize
Continuous improvement
Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.
Вставьте фильтры безопасности до и после модели для предотвращения утечек PII и взломов.
Coding tools now plan, write, test, and review code—not just autocomplete.
Primary AI-powered development environments.
Best for: VS Code replacement with AI
Best for: Complex reasoning tasks
Best for: Full-stack prototyping
Caveat: Cloud-only environment
Best for: Code completion
Caveat: Limited reasoning
Additional specialized AI development tools.
Best for: Frontend development
Caveat: Limited backend features
Best for: VS Code extension agent
Caveat: Early development stage
Best for: Minimal AI-first IDE
Caveat: Limited plugin ecosystem
Best for: Instant web apps
Caveat: Limited customization
Reusable prompt macros and task planners supercharge IDE agents.
Standardized workflows reduce context switching and improve consistency
Agents can now autonomously modify repos, run CI, open PRs, self-review.
This game was created live during the presentation in Claude Code.
Краткое изложение всего выступления в пяти пунктах.
All links in one place - key AI development tools and frameworks.
Александр Ефремов
Эксперт по ИИ, Компания
Aspirity
✉️ ae@aspirity.com | Telegram: @sabbah13