Herramientas de IA y Tendencias 2024–2025

Qué cambió, qué importa, qué usar

Alex Efremov

Agenda

  • Hitos de IA 2024-2025
  • LLMs de Razonamiento y Cómputo en Tiempo de Prueba
  • Stack de Voz
  • IA Agéntica
  • Evaluaciones y Monitoreo
  • Desarrollo con IA
Cronología
🧠
Razonamiento
🎤
Voz
🤖
Agentes
📊
Evaluaciones
⌨️
Codificación

Hitos Clave

Timeline

2024: El Año en que la IA se Volvió Masiva

Lanzamientos Principales

  • OpenAI o1 - Modelos de razonamiento
  • Sora - Texto a video
  • ChatGPT 4o - Multimodal
  • Claude 3.5 - Razonamiento mejorado
  • Gemini 2.0 - 2x más rápido
  • Apple Intelligence - Integración de plataformas
  • Llama 3.2 - Multimodal abierto

Innovaciones Clave

  • Voice Mode - IA en tiempo real
  • ChatGPT Search - Búsqueda web con IA
  • Multimodal AI - Todas las modalidades
  • Agentic AI - Autónomo
  • EU AI Act - Estándares globales
  • GenCast - Pronósticos con IA
  • NVIDIA - Dominio de chips

2025: Era del Razonamiento y los Agentes

  • Vibe Coding - Andrej Karpathy (Jan)
  • Sesame - TTS SOTA de código abierto (Feb)
  • Gemini 2.5 Pro - 2M tokens (Mar)
  • Qwen3 - IA Robótica (Abr)
  • Claude Sonnet and Opus 4 - Mejores benchmarks (May)
  • Grok 4 Heavy - Nivel de $300/mes
  • Kimi K2 - Trillón de parámetros de código abierto
  • Qwen3-Coder - Codificación agéntica nuevo SOTA

Razonamiento a escala • Flujos de trabajo agénticos • Multimodal por defecto • Carrera abierto vs cerrado

Modelos Regulares vs de Razonamiento

Los modelos de razonamiento piensan en múltiples pasos y gastan cómputo adicional en la inferencia (TTC) para obtener mayor precisión.

  • Paso único → Deliberación multi-paso
  • Llamadas a herramientas durante el pensamiento
  • Cómputo en Tiempo de Prueba (TTC) mejora la precisión
  • Salto en benchmarks (GPQA, MMLU-Pro, AIME, HLE)

Tradicional

Prompt → Respuesta

Razonamiento

Prompt → Plan → Herramienta → Reflexión → Respuesta

o3/o4-mini system card 🔗 DeepSeek R1 GitHub 🔗 Anthropic Opus 4 PDF 🔗

Cómputo en Tiempo de Prueba (TTC) en la Práctica

Más tokens gastados en razonamiento = mejores resultados, con rendimientos decrecientes.

  • Asignar 'tokens de pensamiento'
  • Mayor TTC ≈ +X% en GPQA/MATH
  • Las APIs exponen controles de 'presupuesto' o 'pasos'
Presupuesto TTC (tokens) Precisión % Bajo Medio Alto Máx
Tarjetas del sistema con curvas TTC 🔗
TTC Curves
TTC Curves

DeepSeek R1

R1 demuestra que el razonamiento de peso abierto puede rivalizar con modelos cerrados.

Métrica Valor
Parámetros 685B (MoE)
Tokens de Entrenamiento 14.8T
GPQA 81.0
Licencia MIT
  • Fortalezas: razonamiento, matemáticas, lógica multi-paso
  • Advertencia: necesita filtros de seguridad
Repositorio HF 🔗 Artículo/blog R1 🔗

Claude Opus 4 / Sonnet 4

Los modelos híbridos de Anthropic con razonamiento + uso de herramientas manejan tareas largas y codificación de manera confiable.

  • Opus 4: nivel de inteligencia más alto
  • Sonnet 4: más barato, razonamiento fuerte
  • Puede trabajar continuamente durante horas en tareas complejas
Sonnet 4 Opus 4 o3 82.1 85.3 87.7 Rendimiento GPQA
PDF/tarjeta del sistema Anthropic 🔗
Claude Benchmarks

Kimi K2

Moonshot Kimi K2 ofrece razonamiento MoE abierto y masivo a escala (1T parámetros, 384 expertos).

  • 1T parámetros / 15.5T tokens
  • Fuerte en matemáticas y lógica (AIME 77.5)
  • Licencia abierta estilo Apache
MMLU GPQA AIME Código Matemáticas Lógica K2
GitHub de Moonshot 🔗 Entrada en OpenRouter 🔗
Kimi K2 Benchmarks

Qwen3 Coder (480B MoE)

El modelo especializado de codificación de Alibaba aplasta los benchmarks con 480B parámetros, 35B activos.

Métrica Valor
Parámetros 480B (35B activos)
Longitud del Contexto 256K (1M ext.)
SWE-Bench Verificado SOTA código abierto
CodeForces ELO Líder
  • Multi-lenguaje: Python, JS, Java, C++, Go, Rust+
  • Depuración y refactorización: optimización automatizada
  • Seguridad: detección de vulnerabilidades
SWE-Bench CodeForces LiveCodeBench BFCL
Qwen GitHub 🔗 HuggingFace 🔗 Technical Report 🔗
Qwen3 Coder Benchmark

Leaderboard (Jul 2025)

Snapshot of key reasoning contenders & a couple headline metrics.

Modelo Parámetros Tokens MMLU GPQA
Grok 4 5000B 80T - 88.9
Claude Opus 4 1200B 100T - 83.3
DeepSeek R1 685B 14.8T 93.4 81.0
Qwen3 Coder 480B - - -
Kimi K2 1000B 15.5T 89.5 75.1
Qwen3-235B 235B 36T 93.1 77.5

Visión General del Pipeline de Voz

Los agentes de voz confiables necesitan un pipeline ajustado: STT → Razonador → TTS o V2V, optimizado para latencia y calidad.

  • STT: rápido/preciso
  • LLM: razonamiento/uso de herramientas
  • TTS/V2V: expresivo y baja latencia
  • Interrupción, manejo de interrupciones
🎤

STT

Audio → Texto

🧠

LLM

Razonamiento y Herramientas

🔊

TTS/V2V

Texto → Audio

Speech-to-Text: Accuracy vs Latency

Choose STT by WER, latency, language coverage & diarization.

Tasa de Error de Palabras (%) Whisper v3 GPT-4o STT Deepgram AssemblyAI 2.3% 2.8% 2.1% 2.5%
  • WER ~2-3%, Latency ~50-200ms
  • Transmisión + transcripciones parciales
  • Multi-idioma y diarización
~150ms
Latencia Típica
Whisper API 🔗 Deepgram docs 🔗 AssemblyAI 🔗

TTS: Naturalness, Control & Styles

Modern TTS offers controllable emotion/style with near-human naturalness.

Voice Waveform + Pitch Waveform Pitch
  • ElevenLabs v3: style, emotion, low latency
  • PlayHT, Hume Octave, Papla P1 (APIs de transmisión)
  • Sesame
ElevenLabs API 🔗 PlayHT docs 🔗 Hume Octave 🔗
ElevenLabs v3 Demo

Modelos de Voz a Voz (V2V)

V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.

  • OpenAI Realtime,
  • Gemini Live
  • Sesame & others emerging
Voice In Voice Encoder Voice Embeddings Voice Decoder Voice Out ~200-500ms end-to-end
OpenAI Realtime API 🔗 Gemini Live docs 🔗

Glueing It Together: Agents, Tools & Protocols

MCP and graph frameworks standardize tool access and agent flow.

  • MCP: tool servers for LLMs
  • Graph orchestration (LangGraph, Haystack 2, CrewAI)
  • Realtime frameworks for voice agents
MCP Database APIs Files Web Email Cloud
Documentación MCP de Anthropic 🔗

Análisis Profundo del Model Context Protocol (MCP)

MCP se está convirtiendo rápidamente en la forma estándar de exponer herramientas SaaS a los modelos.

  • Spec defines: tools, prompts, schemas
  • Growing vendor support (CRMs, DBs, SaaS)
  • Easy local MCP servers
{ "jsonrpc": "2.0", "method": "tools/call", "params": { "name": "database_query", "arguments": { "query": "SELECT * FROM users", "database": "production" } } }
Documentación oficial de MCP 🔗
MCP Deep Dive

Graph-Oriented Orchestration

LangGraph & similar frameworks let you design agent flows as state graphs.

  • Nodes = steps/tools
  • Edges = transitions/conditions
  • Great for long-running workflows
Voice Call Intent Detect DB Lookup Response question? lookup?
LangGraph docs 🔗 CrewAI GitHub 🔗

Realtime Agent Frameworks (Voice-Focused)

Frameworks como Pipecat, Vapi, Retell simplifican la transmisión de baja latencia e interrupciones.

  • Compare: transmisión, costo, integraciones
  • Pick based on latency & features
Framework Low-Latency? STT/TTS Built-in? Pricing
Vapi ✅ Yes ✅ Built-in $0.05/min
Retell ✅ Yes ✅ Managed $0.08/min
Bland ⚠️ Medium ✅ Full Stack $0.12/min
Pipecat ✅ Yes ✅ Integrated Open Source
Pipecat 🔗 Vapi 🔗 Retell 🔗

Measure to Improve

Without evals and telemetry, you can't iterate intelligently.

  • Evaluaciones offline (benchmarks, pruebas unitarias)
  • Online metrics (latency, success, UX)
  • Feedback loops & guardrails
98.2%
Success Rate
1.2s
Avg Latency
4.3/5
User Rating
Rendimiento en el Tiempo
📊 Dashboard Mock

Modern LLM Evaluation Landscape

Herramientas integrales de evaluación para pruebas de prompts, comparación de modelos y evaluación de seguridad.

📊 Pruebas de Rendimiento

  • promptfoo - Red teaming & regression tests
  • OpenAI Evals - Framework oficial de benchmarks

🎯 Advanced Evaluation

  • DeepEval - RAG & conversational metrics
  • PromptWizard - Self-evolving optimization

Why Evaluation Matters

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI

promptfoo: AI Red Teaming & Testing

Evaluación local de LLM con enfoque en seguridad - 7.9k estrellas en GitHub

🔍 Key Features

  • Equipo rojo y escaneo de vulnerabilidades
  • Comparaciones de modelos lado a lado
  • 100% local execution
  • CI/CD integration ready

Quick Start

npx promptfoo@latest init
npx promptfoo eval

🎯 Use Cases

  • Prompt engineering optimization
  • Comparación de rendimiento de modelos
  • Pruebas de seguridad de aplicaciones de IA
  • Informes automatizados de vulnerabilidades

Supported Providers

OpenAI, Anthropic, Azure, Bedrock, Ollama

promptfoo GitHub 🔗 Documentation 🔗

OpenAI Evals: Framework Oficial de Benchmarks

Registro de evaluación de código abierto - 16.7k estrellas en GitHub

🏗️ Framework Features

  • Registro abierto de benchmarks
  • Custom evaluations for specific use cases
  • Private evals with proprietary data
  • Evaluaciones calificadas por modelos

Installation

pip install evals

📊 Evaluation Types

  • Evaluaciones básicas de modelos
  • Prompt chain assessments
  • Tool-using agent tests
  • Custom workflow patterns
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman
OpenAI Evals GitHub 🔗 Documentation 🔗

DeepEval: Comprehensive LLM Evaluation

Local evaluation framework with extensive metrics - 9.8k GitHub stars

🎯 Core Metrics

  • RAG metrics: Answer Relevancy, Faithfulness
  • Agentic metrics: Task Completion
  • Safety metrics: Hallucination, Bias, Toxicity
  • Conversational: Knowledge Retention

Quick Setup

pip install -U deepeval

🔧 Advanced Features

  • Pytest integration
  • Custom metric creation
  • Synthetic dataset generation
  • Red team testing (40+ vulnerabilities)
  • Benchmarking MMLU y HellaSwag

Integrations

LlamaIndex, Hugging Face, Cloud Platform

DeepEval GitHub 🔗 Documentation 🔗

PromptWizard: Self-Evolving Optimization

Microsoft's AI-driven prompt optimization framework

🧙‍♂️ Self-Evolution

  • AI generates its own prompts
  • Self-critique and refinement
  • Synthetic examples generation
  • Chain of Thought optimization

Installation

git clone microsoft/PromptWizard
pip install -e .

📈 Usage Scenarios

  • Optimize prompts without examples
  • Generate synthetic training data
  • Optimize with existing training data
  • Task-aware prompt refinement

Tested Datasets

GSM8k, SVAMP, AQUARAT, Instruction Induction

PromptWizard GitHub 🔗 Research Paper 🔗

LLM Evaluation Best Practices

Enfoque estratégico para la evaluación integral de modelos de IA

🏗️ Foundation Layer

  • Pruebas Automatizadas: OpenAI Evals para benchmarks estandarizados
  • Escaneo de Seguridad: promptfoo para evaluación de vulnerabilidades
  • CI/CD Integration: Run evals on every deployment

🎯 Advanced Layer

  • RAG Evaluation: DeepEval for retrieval quality
  • Prompt Optimization: PromptWizard for self-improvement
  • Custom Metrics: Domain-specific evaluations

Evaluation Strategy Framework

📊

Línea Base
Benchmarks estándar

🔍

Seguridad
Pruebas de equipo rojo

🎯

Domain
Custom metrics

🔄

Optimize
Continuous improvement

Voice Agent KPIs

Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.

  • Latency (STT, LLM, TTS)
  • Intent success / fallback rate
  • CSAT proxies (sentiment, repeat calls)
STT WER: 2.1% Latency: 150ms LLM Intent: 95% Latency: 800ms TTS Quality: 4.2/5 Latency: 300ms UX CSAT: 4.1/5 Barge-in: 87%

Guardrails & Safety Checks

Inserte filtros de seguridad antes y después del modelo para prevenir fugas de PII y jailbreaks.

  • Input filter → LLM → Output filter
  • PII scrub, toxicity detection
  • Red-team tests
User Input INPUT FILTER PII, Toxic LLM OUTPUT FILTER Safety, Quality Response
Safety toolkits 🔗 Red-team guidelines 🔗

From Autocomplete to Swarm Coders

Coding tools now plan, write, test, and review code—not just autocomplete.

  • IDE copilots → Repo-wide agents
  • Autonomy: run tests, open PRs
  • Speed + quality gains
Autocomplete Pair Programming Swarm Coding Code completion Chat, explain, debug Plan, test, deploy

Top IDE/Agent Tools - Part 1

Primary AI-powered development environments.

Cursor

Best for: VS Code replacement with AI

Claude Code

Best for: Complex reasoning tasks

Replit Agent

Best for: Full-stack prototyping

Caveat: Cloud-only environment

GitHub Copilot

Best for: Code completion

Caveat: Limited reasoning

Top IDE/Agent Tools - Part 2

Additional specialized AI development tools.

Lovable

Best for: Frontend development

Caveat: Limited backend features

🤖 Cline

Best for: VS Code extension agent

Caveat: Early development stage

⚫ Void Editor

Best for: Minimal AI-first IDE

Caveat: Limited plugin ecosystem

Bolt.new

Best for: Instant web apps

Caveat: Limited customization

Prompt & Command Layers (TaskMaster, Superprompt)

Reusable prompt macros and task planners supercharge IDE agents.

// TaskMaster Template
@template feature-implementation
@context ${codebase}
@requirements ${specs}
@output structured-plan
1. Analyze requirements
2. Design architecture
3. Implement & test
4. Document changes
📝 Template Example
  • TaskMaster: task planning for agents
  • Reusable 'workbench' prompts
  • Command palettes inside IDE

Productivity Boost

Standardized workflows reduce context switching and improve consistency

TaskMaster site 🔗 Prompt libraries 🔗

Repo-Wide Agents: Branching, Testing, PRs

Agents can now autonomously modify repos, run CI, open PRs, self-review.

  • Branch per task
  • Auto tests & lint
  • Agent reviews agent
Agent 1 CI/CD Agent 2 Create Branch Write Code Open PR Run Tests Lint & Build Code Review 🌿 ⚙️ 👁️
Swarm GitHub 🔗 AutoGen docs 🔗 CrewAI GitHub 🔗

Interactive Demo: Create 3D Game

This game was created live during the presentation in Claude Code.

Game Demo Screenshot ▶ Play Game

Conclusiones Clave

Resumen de toda la charla en cinco puntos concisos.

  • 🧠 Razonamiento + TTC es la nueva línea base para problemas difíciles.
  • 🎤 Los stacks de voz a voz y tiempo real están listos para producción.
  • 🔗 MCP se convierte en el nuevo estándar de orquestación.
  • 📊 Las evaluaciones y métricas protegen tu calidad.
  • ⌨️ Los agentes de codificación pueden multiplicar la productividad 3–10× si se configuran bien.

Resources & Link Dump

All links in one place - key AI development tools and frameworks.

¡Gracias por su Atención!

Alexander Efremov
Experto en IA, Compañía Aspirity

✉️ ae@aspirity.com | Telegram: @sabbah13

Alexander Efremov
Descargar PDF