Herramientas de IA y Tendencias 2024–2025

Qué cambió, qué importa, qué usar

Alex Efremov

Agenda

Hitos de IA 2024-2025
LLMs de Razonamiento y Cómputo en Tiempo de Prueba
Stack de Voz
IA Agéntica
Evaluaciones y Monitoreo
Desarrollo con IA

⏰

Cronología

🧠

Razonamiento

🎤

Voz

🤖

Agentes

📊

Evaluaciones

⌨️

Codificación

Hitos Clave

2024: El Año en que la IA se Volvió Masiva

Lanzamientos Principales

OpenAI o1 - Modelos de razonamiento
Sora - Texto a video
ChatGPT 4o - Multimodal
Claude 3.5 - Razonamiento mejorado
Gemini 2.0 - 2x más rápido
Apple Intelligence - Integración de plataformas
Llama 3.2 - Multimodal abierto

Innovaciones Clave

Voice Mode - IA en tiempo real
ChatGPT Search - Búsqueda web con IA
Multimodal AI - Todas las modalidades
Agentic AI - Autónomo
EU AI Act - Estándares globales
GenCast - Pronósticos con IA
NVIDIA - Dominio de chips

2025: Era del Razonamiento y los Agentes

                            Vibe Coding - Andrej Karpathy (Jan)
Sesame - TTS SOTA de código abierto (Feb)
Gemini 2.5 Pro - 2M tokens (Mar)
Qwen3 - IA Robótica (Abr)
Claude Sonnet and Opus 4 - Mejores benchmarks (May)
Grok 4 Heavy - Nivel de $300/mes
Kimi K2 - Trillón de parámetros de código abierto
Qwen3-Coder - Codificación agéntica nuevo SOTA

                        

Razonamiento a escala • Flujos de trabajo agénticos • Multimodal por defecto • Carrera abierto vs cerrado

Modelos Regulares vs de Razonamiento

Los modelos de razonamiento piensan en múltiples pasos y gastan cómputo adicional en la inferencia (TTC) para obtener mayor precisión.

Paso único → Deliberación multi-paso
Llamadas a herramientas durante el pensamiento
Cómputo en Tiempo de Prueba (TTC) mejora la precisión
Salto en benchmarks (GPQA, MMLU-Pro, AIME, HLE)

Tradicional

Prompt → Respuesta

→

Razonamiento

Prompt → Plan → Herramienta → Reflexión → Respuesta

o3/o4-mini system card 🔗 DeepSeek R1 GitHub 🔗 Anthropic Opus 4 PDF 🔗

Cómputo en Tiempo de Prueba (TTC) en la Práctica

Más tokens gastados en razonamiento = mejores resultados, con rendimientos decrecientes.

Asignar 'tokens de pensamiento'
Mayor TTC ≈ +X% en GPQA/MATH
Las APIs exponen controles de 'presupuesto' o 'pasos'

Tarjetas del sistema con curvas TTC 🔗

DeepSeek R1

R1 demuestra que el razonamiento de peso abierto puede rivalizar con modelos cerrados.

Métrica	Valor
Parámetros	685B (MoE)
Tokens de Entrenamiento	14.8T
GPQA	81.0
Licencia	MIT

Fortalezas: razonamiento, matemáticas, lógica multi-paso
Advertencia: necesita filtros de seguridad

Repositorio HF 🔗 Artículo/blog R1 🔗

Claude Opus 4 / Sonnet 4

Los modelos híbridos de Anthropic con razonamiento + uso de herramientas manejan tareas largas y codificación de manera confiable.

Opus 4: nivel de inteligencia más alto
Sonnet 4: más barato, razonamiento fuerte
Puede trabajar continuamente durante horas en tareas complejas

PDF/tarjeta del sistema Anthropic 🔗

Kimi K2

Moonshot Kimi K2 ofrece razonamiento MoE abierto y masivo a escala (1T parámetros, 384 expertos).

1T parámetros / 15.5T tokens
Fuerte en matemáticas y lógica (AIME 77.5)
Licencia abierta estilo Apache

GitHub de Moonshot 🔗 Entrada en OpenRouter 🔗

Qwen3 Coder (480B MoE)

El modelo especializado de codificación de Alibaba aplasta los benchmarks con 480B parámetros, 35B activos.

Métrica	Valor
Parámetros	480B (35B activos)
Longitud del Contexto	256K (1M ext.)
SWE-Bench Verificado	SOTA código abierto
CodeForces ELO	Líder

Multi-lenguaje: Python, JS, Java, C++, Go, Rust+
Depuración y refactorización: optimización automatizada
Seguridad: detección de vulnerabilidades

Qwen GitHub 🔗 HuggingFace 🔗 Technical Report 🔗

Leaderboard (Jul 2025)

Snapshot of key reasoning contenders & a couple headline metrics.

Modelo	Parámetros	Tokens	MMLU	GPQA
Grok 4	5000B	80T	-	88.9
Claude Opus 4	1200B	100T	-	83.3
DeepSeek R1	685B	14.8T	93.4	81.0
Qwen3 Coder	480B	-	-	-
Kimi K2	1000B	15.5T	89.5	75.1
Qwen3-235B	235B	36T	93.1	77.5

Visión General del Pipeline de Voz

Los agentes de voz confiables necesitan un pipeline ajustado: STT → Razonador → TTS o V2V, optimizado para latencia y calidad.

STT: rápido/preciso
LLM: razonamiento/uso de herramientas
TTS/V2V: expresivo y baja latencia
Interrupción, manejo de interrupciones

🎤

STT

Audio → Texto

→

🧠

LLM

Razonamiento y Herramientas

→

🔊

TTS/V2V

Texto → Audio

Speech-to-Text: Accuracy vs Latency

Choose STT by WER, latency, language coverage & diarization.

WER ~2-3%, Latency ~50-200ms
Transmisión + transcripciones parciales
Multi-idioma y diarización

~150ms

Latencia Típica

Whisper API 🔗 Deepgram docs 🔗 AssemblyAI 🔗

TTS: Naturalness, Control & Styles

Modern TTS offers controllable emotion/style with near-human naturalness.

ElevenLabs v3: style, emotion, low latency
PlayHT, Hume Octave, Papla P1 (APIs de transmisión)
Sesame

ElevenLabs API 🔗 PlayHT docs 🔗 Hume Octave 🔗

Modelos de Voz a Voz (V2V)

V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.

OpenAI Realtime,
Gemini Live
Sesame & others emerging

OpenAI Realtime API 🔗 Gemini Live docs 🔗

Glueing It Together: Agents, Tools & Protocols

MCP and graph frameworks standardize tool access and agent flow.

MCP: tool servers for LLMs
Graph orchestration (LangGraph, Haystack 2, CrewAI)
Realtime frameworks for voice agents

Documentación MCP de Anthropic 🔗

Análisis Profundo del Model Context Protocol (MCP)

MCP se está convirtiendo rápidamente en la forma estándar de exponer herramientas SaaS a los modelos.

Spec defines: tools, prompts, schemas
Growing vendor support (CRMs, DBs, SaaS)
Easy local MCP servers

                                {
                                "jsonrpc": "2.0",
                                "method": "tools/call",
                                "params": {
                                "name": "database_query",
                                "arguments": {
                                "query": "SELECT * FROM users",
                                "database": "production"
                                }
                                }
                                }
                            

Documentación oficial de MCP 🔗

Graph-Oriented Orchestration

LangGraph & similar frameworks let you design agent flows as state graphs.

Nodes = steps/tools
Edges = transitions/conditions
Great for long-running workflows

LangGraph docs 🔗 CrewAI GitHub 🔗

Realtime Agent Frameworks (Voice-Focused)

Frameworks como Pipecat, Vapi, Retell simplifican la transmisión de baja latencia e interrupciones.

Compare: transmisión, costo, integraciones
Pick based on latency & features

Framework	Low-Latency?	STT/TTS Built-in?	Pricing
Vapi	✅ Yes	✅ Built-in	$0.05/min
Retell	✅ Yes	✅ Managed	$0.08/min
Bland	⚠️ Medium	✅ Full Stack	$0.12/min
Pipecat	✅ Yes	✅ Integrated	Open Source

Pipecat 🔗 Vapi 🔗 Retell 🔗

Measure to Improve

Without evals and telemetry, you can't iterate intelligently.

Evaluaciones offline (benchmarks, pruebas unitarias)
Online metrics (latency, success, UX)
Feedback loops & guardrails

98.2%

Success Rate

1.2s

Avg Latency

4.3/5

User Rating

📊 Dashboard Mock

Modern LLM Evaluation Landscape

Herramientas integrales de evaluación para pruebas de prompts, comparación de modelos y evaluación de seguridad.

📊 Pruebas de Rendimiento

promptfoo - Red teaming & regression tests
OpenAI Evals - Framework oficial de benchmarks

🎯 Advanced Evaluation

DeepEval - RAG & conversational metrics
PromptWizard - Self-evolving optimization

Why Evaluation Matters

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI

promptfoo: AI Red Teaming & Testing

Evaluación local de LLM con enfoque en seguridad - 7.9k estrellas en GitHub

🔍 Key Features

Equipo rojo y escaneo de vulnerabilidades
Comparaciones de modelos lado a lado
100% local execution
CI/CD integration ready

Quick Start

npx promptfoo@latest init
npx promptfoo eval

🎯 Use Cases

Prompt engineering optimization
Comparación de rendimiento de modelos
Pruebas de seguridad de aplicaciones de IA
Informes automatizados de vulnerabilidades

Supported Providers

OpenAI, Anthropic, Azure, Bedrock, Ollama

promptfoo GitHub 🔗 Documentation 🔗

OpenAI Evals: Framework Oficial de Benchmarks

Registro de evaluación de código abierto - 16.7k estrellas en GitHub

🏗️ Framework Features

Registro abierto de benchmarks
Custom evaluations for specific use cases
Private evals with proprietary data
Evaluaciones calificadas por modelos

Installation

pip install evals

📊 Evaluation Types

Evaluaciones básicas de modelos
Prompt chain assessments
Tool-using agent tests
Custom workflow patterns

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman

OpenAI Evals GitHub 🔗 Documentation 🔗

DeepEval: Comprehensive LLM Evaluation

Local evaluation framework with extensive metrics - 9.8k GitHub stars

🎯 Core Metrics

RAG metrics: Answer Relevancy, Faithfulness
Agentic metrics: Task Completion
Safety metrics: Hallucination, Bias, Toxicity
Conversational: Knowledge Retention

Quick Setup

pip install -U deepeval

🔧 Advanced Features

Pytest integration
Custom metric creation
Synthetic dataset generation
Red team testing (40+ vulnerabilities)
Benchmarking MMLU y HellaSwag

Integrations

LlamaIndex, Hugging Face, Cloud Platform

DeepEval GitHub 🔗 Documentation 🔗

PromptWizard: Self-Evolving Optimization

Microsoft's AI-driven prompt optimization framework

🧙‍♂️ Self-Evolution

AI generates its own prompts
Self-critique and refinement
Synthetic examples generation
Chain of Thought optimization

Installation

git clone microsoft/PromptWizard
pip install -e .

📈 Usage Scenarios

Optimize prompts without examples
Generate synthetic training data
Optimize with existing training data
Task-aware prompt refinement

Tested Datasets

GSM8k, SVAMP, AQUARAT, Instruction Induction

PromptWizard GitHub 🔗 Research Paper 🔗

LLM Evaluation Best Practices

Enfoque estratégico para la evaluación integral de modelos de IA

🏗️ Foundation Layer

Pruebas Automatizadas: OpenAI Evals para benchmarks estandarizados
Escaneo de Seguridad: promptfoo para evaluación de vulnerabilidades
CI/CD Integration: Run evals on every deployment

🎯 Advanced Layer

RAG Evaluation: DeepEval for retrieval quality
Prompt Optimization: PromptWizard for self-improvement
Custom Metrics: Domain-specific evaluations

Evaluation Strategy Framework

📊

Línea Base
Benchmarks estándar

→

🔍

Seguridad
Pruebas de equipo rojo

→

🎯

Domain
Custom metrics

→

🔄

Optimize
Continuous improvement

Voice Agent KPIs

Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.

Latency (STT, LLM, TTS)
Intent success / fallback rate
CSAT proxies (sentiment, repeat calls)

Guardrails & Safety Checks

Inserte filtros de seguridad antes y después del modelo para prevenir fugas de PII y jailbreaks.

Input filter → LLM → Output filter
PII scrub, toxicity detection
Red-team tests

Safety toolkits 🔗 Red-team guidelines 🔗

From Autocomplete to Swarm Coders

Coding tools now plan, write, test, and review code—not just autocomplete.

IDE copilots → Repo-wide agents
Autonomy: run tests, open PRs
Speed + quality gains

Top IDE/Agent Tools - Part 1

Primary AI-powered development environments.

Cursor

Best for: VS Code replacement with AI

Claude Code

Best for: Complex reasoning tasks

Replit Agent

Best for: Full-stack prototyping

Caveat: Cloud-only environment

GitHub Copilot

Best for: Code completion

Caveat: Limited reasoning

Top IDE/Agent Tools - Part 2

Additional specialized AI development tools.

Lovable

Best for: Frontend development

Caveat: Limited backend features

🤖 Cline

Best for: VS Code extension agent

Caveat: Early development stage

⚫ Void Editor

Best for: Minimal AI-first IDE

Caveat: Limited plugin ecosystem

Bolt.new

Best for: Instant web apps

Caveat: Limited customization

Prompt & Command Layers (TaskMaster, Superprompt)

Reusable prompt macros and task planners supercharge IDE agents.

// TaskMaster Template

                                        @template feature-implementation

                                        @context ${codebase}

                                        @requirements ${specs}

                                        @output structured-plan
                                    
                                        1. Analyze requirements

                                        2. Design architecture

                                        3. Implement & test

                                        4. Document changes

📝 Template Example

TaskMaster: task planning for agents
Reusable 'workbench' prompts
Command palettes inside IDE

Productivity Boost

Standardized workflows reduce context switching and improve consistency

TaskMaster site 🔗 Prompt libraries 🔗

Repo-Wide Agents: Branching, Testing, PRs

Agents can now autonomously modify repos, run CI, open PRs, self-review.

Branch per task
Auto tests & lint
Agent reviews agent

Swarm GitHub 🔗 AutoGen docs 🔗 CrewAI GitHub 🔗

Interactive Demo: Create 3D Game

This game was created live during the presentation in Claude Code.

▶ Play Game

Conclusiones Clave

Resumen de toda la charla en cinco puntos concisos.

🧠 Razonamiento + TTC es la nueva línea base para problemas difíciles.
🎤 Los stacks de voz a voz y tiempo real están listos para producción.
🔗 MCP se convierte en el nuevo estándar de orquestación.
📊 Las evaluaciones y métricas protegen tu calidad.
⌨️ Los agentes de codificación pueden multiplicar la productividad 3–10× si se configuran bien.

Resources & Link Dump

All links in one place - key AI development tools and frameworks.

Modelos

DeepSeek R1 Claude Opus 4 Kimi K2 Grok 4

Voice

OpenAI Realtime ElevenLabs v3 Whisper v3 Gemini Live

IDEs

Cursor Claude Code Replit Agent Bolt.new

Orchestration

Documentación MCP LangGraph CrewAI Pipecat

Evals

promptfoo OpenAI Evals DeepEval PromptWizard

¡Gracias por su Atención!

Alexander Efremov
Experto en IA, Compañía Aspirity

✉️ ae@aspirity.com | Telegram: @sabbah13

Descargar PDF