Инструменты ИИ и тренды 2024–2025

Что изменилось, что важно, что использовать

Alex Efremov

Повестка

  • Вехи ИИ 2024-2025
  • Рассуждающие LLM и вычисления во время тестирования
  • Голосовой стек
  • Агентный ИИ
  • Оценка и мониторинг
  • Разработка с ИИ
Хронология
🧠
Рассуждения
🎤
Голос
🤖
Агенты
📊
Оценка
⌨️
Кодинг

Ключевые вехи

Timeline

2024: Год, когда ИИ стал массовым

Основные релизы

  • OpenAI o1 - Модели рассуждений
  • Sora - Текст в видео
  • ChatGPT 4o - Мультимодальный
  • Claude 3.5 - Улучшенные рассуждения
  • Gemini 2.0 - в 2 раза быстрее
  • Apple Intelligence - Интеграция с платформами
  • Llama 3.2 - Открытый мультимодальный

Ключевые инновации

  • Voice Mode - ИИ в режиме реального времени
  • ChatGPT Search - ИИ веб-поиск
  • Multimodal AI - Все модальности
  • Agentic AI - Автономный
  • EU AI Act - Глобальные стандарты
  • GenCast - ИИ прогнозирование
  • NVIDIA - Доминирование чипов

2025: Эра рассуждений и агентов

  • Vibe Coding - Andrej Karpathy (Jan)
  • Sesame - Открытый SOTA TTS (Фев)
  • Gemini 2.5 Pro - 2М токенов (Мар)
  • Qwen3 - Робототехнический ИИ (Апр)
  • Claude Sonnet and Opus 4 - Лучшие бенчмарки (Май)
  • Grok 4 Heavy - тариф $300/мес
  • Kimi K2 - Триллион параметров в открытом доступе
  • Qwen3-Coder - Агентное кодирование новый SOTA

Рассуждения в масштабе • Агентные процессы • Мультимодальность по умолчанию • Гонка открытых и закрытых решений

Обычные и рассуждающие модели

Рассуждающие модели думают поэтапно и тратят дополнительные вычисления при инференсе (TTC) для повышения точности.

  • Однопроходные → Многоэтапные рассуждения
  • Вызовы инструментов во время размышлений
  • Вычисления во время тестирования (TTC) повышают точность
  • Скачок в бенчмарках (GPQA, MMLU-Pro, AIME, HLE)

Традиционные

Запрос → Ответ

Рассуждающие

Запрос → План → Инструмент → Рефлексия → Ответ

o3/o4-mini system card 🔗 DeepSeek R1 GitHub 🔗 Anthropic Opus 4 PDF 🔗

Вычисления во время тестирования (TTC) на практике

Больше токенов на рассуждения = лучшие результаты, с убывающей отдачей.

  • Распределение 'токенов размышлений'
  • Больше TTC ≈ +X% на GPQA/MATH
  • API предоставляют настройки 'бюджета' или 'шагов'
Бюджет TTC (токены) Точность % Низкий Средний Высокий Макс
Системные карты с кривыми TTC 🔗
TTC Curves
TTC Curves

DeepSeek R1

R1 доказывает, что открытые модели рассуждений могут соперничать с закрытыми моделями.

Метрика Значение
Параметры 685B (MoE)
Токены обучения 14.8T
GPQA 81.0
Лицензия MIT
  • Сильные стороны: рассуждения, математика, многошаговая логика
  • Предупреждение: нуждается в фильтрах безопасности
Репозиторий HF 🔗 Статья/блог R1 🔗

Claude Opus 4 / Sonnet 4

Гибридные модели Anthropic с рассуждениями + использованием инструментов надежно справляются с длительными задачами и кодированием.

  • Opus 4: высший уровень интеллекта
  • Sonnet 4: дешевле, с сильными рассуждениями
  • Может работать часами непрерывно над сложными задачами
Sonnet 4 Opus 4 o3 82.1 85.3 87.7 Производительность GPQA
PDF/системная карта Anthropic 🔗
Claude Benchmarks

Kimi K2

Moonshot Kimi K2 предоставляет открытое, массивное MoE рассуждение в масштабе (1Т параметров, 384 эксперта).

  • 1Т параметров / 15.5Т токенов
  • Сильная математика и логика (AIME 77.5)
  • Apache-стиль открытая лицензия
MMLU GPQA AIME Код Математика Логика K2
GitHub Moonshot 🔗 Запись в OpenRouter 🔗
Kimi K2 Benchmarks

Qwen3 Coder (480B MoE)

Специализированная модель кодирования Alibaba сокрушает бенчмарки с 480B параметрами, 35B активных.

Метрика Значение
Параметры 480B (35B активных)
Длина контекста 256K (1M расш.)
SWE-Bench Верифицирован SOTA с открытым кодом
CodeForces ELO Лидирующий
  • Многоязычность: Python, JS, Java, C++, Go, Rust+
  • Отладка и рефакторинг: автоматизированная оптимизация
  • Безопасность: обнаружение уязвимостей
SWE-Bench CodeForces LiveCodeBench BFCL
Qwen GitHub 🔗 HuggingFace 🔗 Technical Report 🔗
Qwen3 Coder Benchmark

Leaderboard (Jul 2025)

Snapshot of key reasoning contenders & a couple headline metrics.

Модель Параметры Токены MMLU GPQA
Grok 4 5000B 80T - 88.9
Claude Opus 4 1200B 100T - 83.3
DeepSeek R1 685B 14.8T 93.4 81.0
Qwen3 Coder 480B - - -
Kimi K2 1000B 15.5T 89.5 75.1
Qwen3-235B 235B 36T 93.1 77.5

Обзор голосового пайплайна

Надежным голосовым агентам нужен настроенный пайплайн: STT → Рассуждения → TTS или V2V, оптимизированный для задержки и качества.

  • STT: быстрый/точный
  • LLM: рассуждения/использование инструментов
  • TTS/V2V: выразительный и с низкой задержкой
  • Прерывание, обработка перебиваний
🎤

STT

Аудио → Текст

🧠

LLM

Рассуждения и инструменты

🔊

TTS/V2V

Текст → Аудио

Speech-to-Text: Accuracy vs Latency

Choose STT by WER, latency, language coverage & diarization.

Частота ошибок слов (%) Whisper v3 GPT-4o STT Deepgram AssemblyAI 2.3% 2.8% 2.1% 2.5%
  • WER ~2-3%, Latency ~50-200ms
  • Потоковая передача + частичные транскрипции
  • Многоязычность & диаризация
~150ms
Типичная задержка
Whisper API 🔗 Deepgram docs 🔗 AssemblyAI 🔗

TTS: Naturalness, Control & Styles

Modern TTS offers controllable emotion/style with near-human naturalness.

Voice Waveform + Pitch Waveform Pitch
  • ElevenLabs v3: style, emotion, low latency
  • PlayHT, Hume Octave, Papla P1 (потоковые API)
  • Sesame
ElevenLabs API 🔗 PlayHT docs 🔗 Hume Octave 🔗
ElevenLabs v3 Demo

Модели голос-в-голос (V2V)

V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.

  • OpenAI Realtime,
  • Gemini Live
  • Sesame & others emerging
Voice In Voice Encoder Voice Embeddings Voice Decoder Voice Out ~200-500ms end-to-end
OpenAI Realtime API 🔗 Gemini Live docs 🔗

Glueing It Together: Agents, Tools & Protocols

MCP and graph frameworks standardize tool access and agent flow.

  • MCP: tool servers for LLMs
  • Graph orchestration (LangGraph, Haystack 2, CrewAI)
  • Realtime frameworks for voice agents
MCP Database APIs Files Web Email Cloud
Документация Anthropic MCP 🔗

Подробно о Model Context Protocol (MCP)

MCP быстро становится стандартным способом предоставления инструментов SaaS моделям.

  • Spec defines: tools, prompts, schemas
  • Growing vendor support (CRMs, DBs, SaaS)
  • Easy local MCP servers
{ "jsonrpc": "2.0", "method": "tools/call", "params": { "name": "database_query", "arguments": { "query": "SELECT * FROM users", "database": "production" } } }
Официальная документация MCP 🔗
MCP Deep Dive

Graph-Oriented Orchestration

LangGraph & similar frameworks let you design agent flows as state graphs.

  • Nodes = steps/tools
  • Edges = transitions/conditions
  • Great for long-running workflows
Voice Call Intent Detect DB Lookup Response question? lookup?
LangGraph docs 🔗 CrewAI GitHub 🔗

Realtime Agent Frameworks (Voice-Focused)

Фреймворки типа Pipecat, Vapi, Retell упрощают потоковую передачу с низкой задержкой и прерывания.

  • Сравните: потоковая передача, стоимость, интеграции
  • Pick based on latency & features
Framework Low-Latency? STT/TTS Built-in? Pricing
Vapi ✅ Yes ✅ Built-in $0.05/min
Retell ✅ Yes ✅ Managed $0.08/min
Bland ⚠️ Medium ✅ Full Stack $0.12/min
Pipecat ✅ Yes ✅ Integrated Open Source
Pipecat 🔗 Vapi 🔗 Retell 🔗

Измеряйте для улучшения

Без оценок и телеметрии вы не можете итеративно улучшать систему.

  • Офлайн-оценки (бенчмарки, юнит-тесты)
  • Онлайн метрики (задержка, успех, UX)
  • Петли обратной связи и защитные механизмы
98.2%
Success Rate
1.2s
Avg Latency
4.3/5
User Rating
Производительность во времени
📊 Dashboard Mock

Modern LLM Evaluation Landscape

Комплексные инструменты оценки для тестирования промптов, сравнения моделей и оценки безопасности.

📊 Тестирование производительности

  • promptfoo - Red teaming & regression tests
  • OpenAI Evals - Официальный фреймворк для бенчмарков

🎯 Advanced Evaluation

  • DeepEval - RAG & conversational metrics
  • PromptWizard - Self-evolving optimization

Why Evaluation Matters

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI

promptfoo: AI Red Teaming & Testing

Локальная оценка LLM с фокусом на безопасность - 7.9k звезд на GitHub

🔍 Key Features

  • Красная команда и сканирование уязвимостей
  • Параллельное сравнение моделей
  • 100% local execution
  • CI/CD integration ready

Quick Start

npx promptfoo@latest init
npx promptfoo eval

🎯 Use Cases

  • Prompt engineering optimization
  • Сравнение производительности моделей
  • Тестирование безопасности ИИ-приложений
  • Автоматизированные отчеты об уязвимостях

Supported Providers

OpenAI, Anthropic, Azure, Bedrock, Ollama

promptfoo GitHub 🔗 Documentation 🔗

OpenAI Evals: Официальный фреймворк для бенчмарков

Реестр оценок с открытым кодом - 16.7k звезд на GitHub

🏗️ Framework Features

  • Открытый реестр бенчмарков
  • Custom evaluations for specific use cases
  • Private evals with proprietary data
  • Оценки моделями

Installation

pip install evals

📊 Evaluation Types

  • Базовые оценки моделей
  • Prompt chain assessments
  • Tool-using agent tests
  • Custom workflow patterns
"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman
OpenAI Evals GitHub 🔗 Documentation 🔗

DeepEval: Comprehensive LLM Evaluation

Local evaluation framework with extensive metrics - 9.8k GitHub stars

🎯 Core Metrics

  • RAG metrics: Answer Relevancy, Faithfulness
  • Agentic metrics: Task Completion
  • Safety metrics: Hallucination, Bias, Toxicity
  • Conversational: Knowledge Retention

Quick Setup

pip install -U deepeval

🔧 Advanced Features

  • Pytest integration
  • Custom metric creation
  • Synthetic dataset generation
  • Red team testing (40+ vulnerabilities)
  • Бенчмарки MMLU и HellaSwag

Integrations

LlamaIndex, Hugging Face, Cloud Platform

DeepEval GitHub 🔗 Documentation 🔗

PromptWizard: Self-Evolving Optimization

Microsoft's AI-driven prompt optimization framework

🧙‍♂️ Self-Evolution

  • AI generates its own prompts
  • Self-critique and refinement
  • Synthetic examples generation
  • Chain of Thought optimization

Installation

git clone microsoft/PromptWizard
pip install -e .

📈 Usage Scenarios

  • Optimize prompts without examples
  • Generate synthetic training data
  • Optimize with existing training data
  • Task-aware prompt refinement

Tested Datasets

GSM8k, SVAMP, AQUARAT, Instruction Induction

PromptWizard GitHub 🔗 Research Paper 🔗

LLM Evaluation Best Practices

Стратегический подход к комплексной оценке моделей ИИ

🏗️ Foundation Layer

  • Автоматизированное тестирование: OpenAI Evals для стандартизированных бенчмарков
  • Сканирование безопасности: promptfoo для оценки уязвимостей
  • CI/CD Integration: Run evals on every deployment

🎯 Advanced Layer

  • RAG Evaluation: DeepEval for retrieval quality
  • Prompt Optimization: PromptWizard for self-improvement
  • Custom Metrics: Domain-specific evaluations

Evaluation Strategy Framework

📊

Базовый уровень
Стандартные бенчмарки

🔍

Безопасность
Тестирование красной командой

🎯

Domain
Custom metrics

🔄

Optimize
Continuous improvement

Voice Agent KPIs

Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.

  • Latency (STT, LLM, TTS)
  • Intent success / fallback rate
  • CSAT proxies (sentiment, repeat calls)
STT WER: 2.1% Latency: 150ms LLM Intent: 95% Latency: 800ms TTS Quality: 4.2/5 Latency: 300ms UX CSAT: 4.1/5 Barge-in: 87%

Guardrails & Safety Checks

Вставьте фильтры безопасности до и после модели для предотвращения утечек PII и взломов.

  • Input filter → LLM → Output filter
  • PII scrub, toxicity detection
  • Red-team tests
User Input INPUT FILTER PII, Toxic LLM OUTPUT FILTER Safety, Quality Response
Safety toolkits 🔗 Red-team guidelines 🔗

From Autocomplete to Swarm Coders

Coding tools now plan, write, test, and review code—not just autocomplete.

  • IDE copilots → Repo-wide agents
  • Autonomy: run tests, open PRs
  • Speed + quality gains
Autocomplete Pair Programming Swarm Coding Code completion Chat, explain, debug Plan, test, deploy

Top IDE/Agent Tools - Part 1

Primary AI-powered development environments.

Cursor

Best for: VS Code replacement with AI

Claude Code

Best for: Complex reasoning tasks

Replit Agent

Best for: Full-stack prototyping

Caveat: Cloud-only environment

GitHub Copilot

Best for: Code completion

Caveat: Limited reasoning

Top IDE/Agent Tools - Part 2

Additional specialized AI development tools.

Lovable

Best for: Frontend development

Caveat: Limited backend features

🤖 Cline

Best for: VS Code extension agent

Caveat: Early development stage

⚫ Void Editor

Best for: Minimal AI-first IDE

Caveat: Limited plugin ecosystem

Bolt.new

Best for: Instant web apps

Caveat: Limited customization

Prompt & Command Layers (TaskMaster, Superprompt)

Reusable prompt macros and task planners supercharge IDE agents.

// TaskMaster Template
@template feature-implementation
@context ${codebase}
@requirements ${specs}
@output structured-plan
1. Analyze requirements
2. Design architecture
3. Implement & test
4. Document changes
📝 Template Example
  • TaskMaster: task planning for agents
  • Reusable 'workbench' prompts
  • Command palettes inside IDE

Productivity Boost

Standardized workflows reduce context switching and improve consistency

TaskMaster site 🔗 Prompt libraries 🔗

Repo-Wide Agents: Branching, Testing, PRs

Agents can now autonomously modify repos, run CI, open PRs, self-review.

  • Branch per task
  • Auto tests & lint
  • Agent reviews agent
Agent 1 CI/CD Agent 2 Create Branch Write Code Open PR Run Tests Lint & Build Code Review 🌿 ⚙️ 👁️
Swarm GitHub 🔗 AutoGen docs 🔗 CrewAI GitHub 🔗

Interactive Demo: Create 3D Game

This game was created live during the presentation in Claude Code.

Game Demo Screenshot ▶ Play Game

Основные выводы

Краткое изложение всего выступления в пяти пунктах.

  • 🧠 Рассуждения + TTC - новый базовый уровень для сложных задач.
  • 🎤 Голос-в-голос и стеки реального времени готовы к продакшену.
  • 🔗 MCP становится новым стандартом оркестрации.
  • 📊 Оценки и метрики охраняют ваше качество.
  • ⌨️ Кодирующие агенты могут увеличить продуктивность в 3–10 раз при правильной настройке.

Resources & Link Dump

All links in one place - key AI development tools and frameworks.

Спасибо за внимание!

Александр Ефремов
Эксперт по ИИ, Компания Aspirity

✉️ ae@aspirity.com | Telegram: @sabbah13

Alexander Efremov
Скачать PDF