Инструменты ИИ и тренды 2024–2025

Что изменилось, что важно, что использовать

Alex Efremov

Повестка

Вехи ИИ 2024-2025
Рассуждающие LLM и вычисления во время тестирования
Голосовой стек
Агентный ИИ
Оценка и мониторинг
Разработка с ИИ

⏰

Хронология

🧠

Рассуждения

🎤

Голос

🤖

Агенты

📊

Оценка

⌨️

Кодинг

Ключевые вехи

2024: Год, когда ИИ стал массовым

Основные релизы

OpenAI o1 - Модели рассуждений
Sora - Текст в видео
ChatGPT 4o - Мультимодальный
Claude 3.5 - Улучшенные рассуждения
Gemini 2.0 - в 2 раза быстрее
Apple Intelligence - Интеграция с платформами
Llama 3.2 - Открытый мультимодальный

Ключевые инновации

Voice Mode - ИИ в режиме реального времени
ChatGPT Search - ИИ веб-поиск
Multimodal AI - Все модальности
Agentic AI - Автономный
EU AI Act - Глобальные стандарты
GenCast - ИИ прогнозирование
NVIDIA - Доминирование чипов

2025: Эра рассуждений и агентов

                            Vibe Coding - Andrej Karpathy (Jan)
Sesame - Открытый SOTA TTS (Фев)
Gemini 2.5 Pro - 2М токенов (Мар)
Qwen3 - Робототехнический ИИ (Апр)
Claude Sonnet and Opus 4 - Лучшие бенчмарки (Май)
Grok 4 Heavy - тариф $300/мес
Kimi K2 - Триллион параметров в открытом доступе
Qwen3-Coder - Агентное кодирование новый SOTA

                        

Рассуждения в масштабе • Агентные процессы • Мультимодальность по умолчанию • Гонка открытых и закрытых решений

Обычные и рассуждающие модели

Рассуждающие модели думают поэтапно и тратят дополнительные вычисления при инференсе (TTC) для повышения точности.

Однопроходные → Многоэтапные рассуждения
Вызовы инструментов во время размышлений
Вычисления во время тестирования (TTC) повышают точность
Скачок в бенчмарках (GPQA, MMLU-Pro, AIME, HLE)

Традиционные

Запрос → Ответ

→

Рассуждающие

Запрос → План → Инструмент → Рефлексия → Ответ

o3/o4-mini system card 🔗 DeepSeek R1 GitHub 🔗 Anthropic Opus 4 PDF 🔗

Вычисления во время тестирования (TTC) на практике

Больше токенов на рассуждения = лучшие результаты, с убывающей отдачей.

Распределение 'токенов размышлений'
Больше TTC ≈ +X% на GPQA/MATH
API предоставляют настройки 'бюджета' или 'шагов'

Системные карты с кривыми TTC 🔗

DeepSeek R1

R1 доказывает, что открытые модели рассуждений могут соперничать с закрытыми моделями.

Метрика	Значение
Параметры	685B (MoE)
Токены обучения	14.8T
GPQA	81.0
Лицензия	MIT

Сильные стороны: рассуждения, математика, многошаговая логика
Предупреждение: нуждается в фильтрах безопасности

Репозиторий HF 🔗 Статья/блог R1 🔗

Claude Opus 4 / Sonnet 4

Гибридные модели Anthropic с рассуждениями + использованием инструментов надежно справляются с длительными задачами и кодированием.

Opus 4: высший уровень интеллекта
Sonnet 4: дешевле, с сильными рассуждениями
Может работать часами непрерывно над сложными задачами

PDF/системная карта Anthropic 🔗

Kimi K2

Moonshot Kimi K2 предоставляет открытое, массивное MoE рассуждение в масштабе (1Т параметров, 384 эксперта).

1Т параметров / 15.5Т токенов
Сильная математика и логика (AIME 77.5)
Apache-стиль открытая лицензия

GitHub Moonshot 🔗 Запись в OpenRouter 🔗

Qwen3 Coder (480B MoE)

Специализированная модель кодирования Alibaba сокрушает бенчмарки с 480B параметрами, 35B активных.

Метрика	Значение
Параметры	480B (35B активных)
Длина контекста	256K (1M расш.)
SWE-Bench Верифицирован	SOTA с открытым кодом
CodeForces ELO	Лидирующий

Многоязычность: Python, JS, Java, C++, Go, Rust+
Отладка и рефакторинг: автоматизированная оптимизация
Безопасность: обнаружение уязвимостей

Qwen GitHub 🔗 HuggingFace 🔗 Technical Report 🔗

Leaderboard (Jul 2025)

Snapshot of key reasoning contenders & a couple headline metrics.

Модель	Параметры	Токены	MMLU	GPQA
Grok 4	5000B	80T	-	88.9
Claude Opus 4	1200B	100T	-	83.3
DeepSeek R1	685B	14.8T	93.4	81.0
Qwen3 Coder	480B	-	-	-
Kimi K2	1000B	15.5T	89.5	75.1
Qwen3-235B	235B	36T	93.1	77.5

Обзор голосового пайплайна

Надежным голосовым агентам нужен настроенный пайплайн: STT → Рассуждения → TTS или V2V, оптимизированный для задержки и качества.

STT: быстрый/точный
LLM: рассуждения/использование инструментов
TTS/V2V: выразительный и с низкой задержкой
Прерывание, обработка перебиваний

🎤

STT

Аудио → Текст

→

🧠

LLM

Рассуждения и инструменты

→

🔊

TTS/V2V

Текст → Аудио

Speech-to-Text: Accuracy vs Latency

Choose STT by WER, latency, language coverage & diarization.

WER ~2-3%, Latency ~50-200ms
Потоковая передача + частичные транскрипции
Многоязычность & диаризация

~150ms

Типичная задержка

Whisper API 🔗 Deepgram docs 🔗 AssemblyAI 🔗

TTS: Naturalness, Control & Styles

Modern TTS offers controllable emotion/style with near-human naturalness.

ElevenLabs v3: style, emotion, low latency
PlayHT, Hume Octave, Papla P1 (потоковые API)
Sesame

ElevenLabs API 🔗 PlayHT docs 🔗 Hume Octave 🔗

Модели голос-в-голос (V2V)

V2V is here: direct voice in → voice out, enabling fluid, natural dialogs.

OpenAI Realtime,
Gemini Live
Sesame & others emerging

OpenAI Realtime API 🔗 Gemini Live docs 🔗

Glueing It Together: Agents, Tools & Protocols

MCP and graph frameworks standardize tool access and agent flow.

MCP: tool servers for LLMs
Graph orchestration (LangGraph, Haystack 2, CrewAI)
Realtime frameworks for voice agents

Документация Anthropic MCP 🔗

Подробно о Model Context Protocol (MCP)

MCP быстро становится стандартным способом предоставления инструментов SaaS моделям.

Spec defines: tools, prompts, schemas
Growing vendor support (CRMs, DBs, SaaS)
Easy local MCP servers

                                {
                                "jsonrpc": "2.0",
                                "method": "tools/call",
                                "params": {
                                "name": "database_query",
                                "arguments": {
                                "query": "SELECT * FROM users",
                                "database": "production"
                                }
                                }
                                }
                            

Официальная документация MCP 🔗

Graph-Oriented Orchestration

LangGraph & similar frameworks let you design agent flows as state graphs.

Nodes = steps/tools
Edges = transitions/conditions
Great for long-running workflows

LangGraph docs 🔗 CrewAI GitHub 🔗

Realtime Agent Frameworks (Voice-Focused)

Фреймворки типа Pipecat, Vapi, Retell упрощают потоковую передачу с низкой задержкой и прерывания.

Сравните: потоковая передача, стоимость, интеграции
Pick based on latency & features

Framework	Low-Latency?	STT/TTS Built-in?	Pricing
Vapi	✅ Yes	✅ Built-in	$0.05/min
Retell	✅ Yes	✅ Managed	$0.08/min
Bland	⚠️ Medium	✅ Full Stack	$0.12/min
Pipecat	✅ Yes	✅ Integrated	Open Source

Pipecat 🔗 Vapi 🔗 Retell 🔗

Измеряйте для улучшения

Без оценок и телеметрии вы не можете итеративно улучшать систему.

Офлайн-оценки (бенчмарки, юнит-тесты)
Онлайн метрики (задержка, успех, UX)
Петли обратной связи и защитные механизмы

98.2%

Success Rate

1.2s

Avg Latency

4.3/5

User Rating

📊 Dashboard Mock

Modern LLM Evaluation Landscape

Комплексные инструменты оценки для тестирования промптов, сравнения моделей и оценки безопасности.

📊 Тестирование производительности

promptfoo - Red teaming & regression tests
OpenAI Evals - Официальный фреймворк для бенчмарков

🎯 Advanced Evaluation

DeepEval - RAG & conversational metrics
PromptWizard - Self-evolving optimization

Why Evaluation Matters

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman, OpenAI

promptfoo: AI Red Teaming & Testing

Локальная оценка LLM с фокусом на безопасность - 7.9k звезд на GitHub

🔍 Key Features

Красная команда и сканирование уязвимостей
Параллельное сравнение моделей
100% local execution
CI/CD integration ready

Quick Start

npx promptfoo@latest init
npx promptfoo eval

🎯 Use Cases

Prompt engineering optimization
Сравнение производительности моделей
Тестирование безопасности ИИ-приложений
Автоматизированные отчеты об уязвимостях

Supported Providers

OpenAI, Anthropic, Azure, Bedrock, Ollama

promptfoo GitHub 🔗 Documentation 🔗

OpenAI Evals: Официальный фреймворк для бенчмарков

Реестр оценок с открытым кодом - 16.7k звезд на GitHub

🏗️ Framework Features

Открытый реестр бенчмарков
Custom evaluations for specific use cases
Private evals with proprietary data
Оценки моделями

Installation

pip install evals

📊 Evaluation Types

Базовые оценки моделей
Prompt chain assessments
Tool-using agent tests
Custom workflow patterns

"Creating high quality evals is one of the most impactful things you can do" - Greg Brockman

OpenAI Evals GitHub 🔗 Documentation 🔗

DeepEval: Comprehensive LLM Evaluation

Local evaluation framework with extensive metrics - 9.8k GitHub stars

🎯 Core Metrics

RAG metrics: Answer Relevancy, Faithfulness
Agentic metrics: Task Completion
Safety metrics: Hallucination, Bias, Toxicity
Conversational: Knowledge Retention

Quick Setup

pip install -U deepeval

🔧 Advanced Features

Pytest integration
Custom metric creation
Synthetic dataset generation
Red team testing (40+ vulnerabilities)
Бенчмарки MMLU и HellaSwag

Integrations

LlamaIndex, Hugging Face, Cloud Platform

DeepEval GitHub 🔗 Documentation 🔗

PromptWizard: Self-Evolving Optimization

Microsoft's AI-driven prompt optimization framework

🧙‍♂️ Self-Evolution

AI generates its own prompts
Self-critique and refinement
Synthetic examples generation
Chain of Thought optimization

Installation

git clone microsoft/PromptWizard
pip install -e .

📈 Usage Scenarios

Optimize prompts without examples
Generate synthetic training data
Optimize with existing training data
Task-aware prompt refinement

Tested Datasets

GSM8k, SVAMP, AQUARAT, Instruction Induction

PromptWizard GitHub 🔗 Research Paper 🔗

LLM Evaluation Best Practices

Стратегический подход к комплексной оценке моделей ИИ

🏗️ Foundation Layer

Автоматизированное тестирование: OpenAI Evals для стандартизированных бенчмарков
Сканирование безопасности: promptfoo для оценки уязвимостей
CI/CD Integration: Run evals on every deployment

🎯 Advanced Layer

RAG Evaluation: DeepEval for retrieval quality
Prompt Optimization: PromptWizard for self-improvement
Custom Metrics: Domain-specific evaluations

Evaluation Strategy Framework

📊

Базовый уровень
Стандартные бенчмарки

→

🔍

Безопасность
Тестирование красной командой

→

🎯

Domain
Custom metrics

→

🔄

Optimize
Continuous improvement

Voice Agent KPIs

Track voice-specific metrics: barge-in success, first-token latency, intent accuracy.

Latency (STT, LLM, TTS)
Intent success / fallback rate
CSAT proxies (sentiment, repeat calls)

Guardrails & Safety Checks

Вставьте фильтры безопасности до и после модели для предотвращения утечек PII и взломов.

Input filter → LLM → Output filter
PII scrub, toxicity detection
Red-team tests

Safety toolkits 🔗 Red-team guidelines 🔗

From Autocomplete to Swarm Coders

Coding tools now plan, write, test, and review code—not just autocomplete.

IDE copilots → Repo-wide agents
Autonomy: run tests, open PRs
Speed + quality gains

Top IDE/Agent Tools - Part 1

Primary AI-powered development environments.

Cursor

Best for: VS Code replacement with AI

Claude Code

Best for: Complex reasoning tasks

Replit Agent

Best for: Full-stack prototyping

Caveat: Cloud-only environment

GitHub Copilot

Best for: Code completion

Caveat: Limited reasoning

Top IDE/Agent Tools - Part 2

Additional specialized AI development tools.

Lovable

Best for: Frontend development

Caveat: Limited backend features

🤖 Cline

Best for: VS Code extension agent

Caveat: Early development stage

⚫ Void Editor

Best for: Minimal AI-first IDE

Caveat: Limited plugin ecosystem

Bolt.new

Best for: Instant web apps

Caveat: Limited customization

Prompt & Command Layers (TaskMaster, Superprompt)

Reusable prompt macros and task planners supercharge IDE agents.

// TaskMaster Template

                                        @template feature-implementation

                                        @context ${codebase}

                                        @requirements ${specs}

                                        @output structured-plan
                                    
                                        1. Analyze requirements

                                        2. Design architecture

                                        3. Implement & test

                                        4. Document changes

📝 Template Example

TaskMaster: task planning for agents
Reusable 'workbench' prompts
Command palettes inside IDE

Productivity Boost

Standardized workflows reduce context switching and improve consistency

TaskMaster site 🔗 Prompt libraries 🔗

Repo-Wide Agents: Branching, Testing, PRs

Agents can now autonomously modify repos, run CI, open PRs, self-review.

Branch per task
Auto tests & lint
Agent reviews agent

Swarm GitHub 🔗 AutoGen docs 🔗 CrewAI GitHub 🔗

Interactive Demo: Create 3D Game

This game was created live during the presentation in Claude Code.

▶ Play Game

Основные выводы

Краткое изложение всего выступления в пяти пунктах.

🧠 Рассуждения + TTC - новый базовый уровень для сложных задач.
🎤 Голос-в-голос и стеки реального времени готовы к продакшену.
🔗 MCP становится новым стандартом оркестрации.
📊 Оценки и метрики охраняют ваше качество.
⌨️ Кодирующие агенты могут увеличить продуктивность в 3–10 раз при правильной настройке.

Resources & Link Dump

All links in one place - key AI development tools and frameworks.

Модели

DeepSeek R1 Claude Opus 4 Kimi K2 Grok 4

Voice

OpenAI Realtime ElevenLabs v3 Whisper v3 Gemini Live

IDEs

Cursor Claude Code Replit Agent Bolt.new

Orchestration

Документация MCP LangGraph CrewAI Pipecat

Evals

promptfoo OpenAI Evals DeepEval PromptWizard

Спасибо за внимание!

Александр Ефремов
Эксперт по ИИ, Компания Aspirity

✉️ ae@aspirity.com | Telegram: @sabbah13

Скачать PDF