Razonamiento a escala • Flujos de trabajo agénticos • Multimodal por defecto • Carrera abierto vs cerrado
Los modelos de razonamiento piensan en múltiples pasos y gastan cómputo adicional en la inferencia (TTC) para obtener mayor precisión.
Prompt → Respuesta
Prompt → Plan → Herramienta → Reflexión → Respuesta
Más tokens gastados en razonamiento = mejores resultados, con rendimientos decrecientes.
R1 demuestra que el razonamiento de peso abierto puede rivalizar con modelos cerrados.
| Métrica | Valor |
|---|---|
| Parámetros | 685B (MoE) |
| Tokens de Entrenamiento | 14.8T |
| GPQA | 81.0 |
| Licencia | MIT |
Los modelos híbridos de Anthropic con razonamiento + uso de herramientas manejan tareas largas y codificación de manera confiable.
Moonshot Kimi K2 ofrece razonamiento MoE abierto y masivo a escala (1T parámetros, 384 expertos).
El modelo especializado de codificación de Alibaba aplasta los benchmarks con 480B parámetros, 35B activos.
| Métrica | Valor |
|---|---|
| Parámetros | 480B (35B activos) |
| Longitud del Contexto | 256K (1M ext.) |
| SWE-Bench Verificado | SOTA código abierto |
| CodeForces ELO | Líder |
Snapshot of key reasoning contenders & a couple headline metrics.
| Modelo | Parámetros | Tokens | MMLU | GPQA |
|---|---|---|---|---|
| Grok 4 | 5000B | 80T | - | 88.9 |
| Claude Opus 4 | 1200B | 100T | - | 83.3 |
| DeepSeek R1 | 685B | 14.8T | 93.4 | 81.0 |
| Qwen3 Coder | 480B | - | - | - |
| Kimi K2 | 1000B | 15.5T | 89.5 | 75.1 |
| Qwen3-235B | 235B | 36T | 93.1 | 77.5 |
Los agentes de voz confiables necesitan un pipeline ajustado: STT → Razonador → TTS o V2V, optimizado para latencia y calidad.
Audio → Texto
Razonamiento y Herramientas
Texto → Audio
Choose STT by WER, latency, language coverage & diarization.
Modern TTS offers controllable emotion/style with near-human naturalness.
V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.
MCP and graph frameworks standardize tool access and agent flow.
MCP se está convirtiendo rápidamente en la forma estándar de exponer herramientas SaaS a los modelos.
LangGraph & similar frameworks let you design agent flows as state graphs.
Frameworks como Pipecat, Vapi, Retell simplifican la transmisión de baja latencia e interrupciones.
| Framework | Low-Latency? | STT/TTS Built-in? | Pricing |
|---|---|---|---|
| Vapi | ✅ Yes | ✅ Built-in | $0.05/min |
| Retell | ✅ Yes | ✅ Managed | $0.08/min |
| Bland | ⚠️ Medium | ✅ Full Stack | $0.12/min |
| Pipecat | ✅ Yes | ✅ Integrated | Open Source |
Without evals and telemetry, you can't iterate intelligently.
Herramientas integrales de evaluación para pruebas de prompts, comparación de modelos y evaluación de seguridad.
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI
Evaluación local de LLM con enfoque en seguridad - 7.9k estrellas en GitHub
npx promptfoo@latest init
npx promptfoo eval
OpenAI, Anthropic, Azure, Bedrock, Ollama
Registro de evaluación de código abierto - 16.7k estrellas en GitHub
pip install evals
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman
Local evaluation framework with extensive metrics - 9.8k GitHub stars
pip install -U deepeval
LlamaIndex, Hugging Face, Cloud Platform
Microsoft's AI-driven prompt optimization framework
git clone microsoft/PromptWizard
pip install -e .
GSM8k, SVAMP, AQUARAT, Instruction Induction
Enfoque estratégico para la evaluación integral de modelos de IA
Línea Base
Benchmarks estándar
Seguridad
Pruebas de equipo rojo
Domain
Custom metrics
Optimize
Continuous improvement
Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.
Inserte filtros de seguridad antes y después del modelo para prevenir fugas de PII y jailbreaks.
Coding tools now plan, write, test, and review code—not just autocomplete.
Primary AI-powered development environments.
Best for: VS Code replacement with AI
Best for: Complex reasoning tasks
Best for: Full-stack prototyping
Caveat: Cloud-only environment
Best for: Code completion
Caveat: Limited reasoning
Additional specialized AI development tools.
Best for: Frontend development
Caveat: Limited backend features
Best for: VS Code extension agent
Caveat: Early development stage
Best for: Minimal AI-first IDE
Caveat: Limited plugin ecosystem
Best for: Instant web apps
Caveat: Limited customization
Reusable prompt macros and task planners supercharge IDE agents.
Standardized workflows reduce context switching and improve consistency
Agents can now autonomously modify repos, run CI, open PRs, self-review.
This game was created live during the presentation in Claude Code.
Resumen de toda la charla en cinco puntos concisos.
All links in one place - key AI development tools and frameworks.
Alexander Efremov
Experto en IA, Compañía
Aspirity
✉️ ae@aspirity.com | Telegram: @sabbah13