Что такое VAPI и для чего он используется?

VAPI — это API-первая платформа для создания голосовых AI-агентов. Она позволяет интегрировать любые STT, LLM и TTS, управлять звонками через WebRTC, SIP или PSTN. Используется для автоматизации колл-центров, виртуальных ассистентов и голосовых интерфейсов.

С какими провайдерами STT/LLM/TTS работает VAPI?

VAPI поддерживает Deepgram, AssemblyAI, OpenAI Whisper, Azure Cognitive для STT; GPT-4o, Claude, Llama, Gemini для LLM; ElevenLabs, Azure, OpenAI для TTS. Выбор осуществляется через конфигурацию ассистента.

Как уменьшить задержку в голосовом агенте?

Задержка зависит от выбора STT (Deepgram Nova-2 даёт ~250 мс), настройки прерываний (interruptionsEnabled, numWordsToInterruptAssistant) и использования WebRTC вместо PSTN. Оптимальная комбинация позволяет достичь p99 latency < 800 мс.

Можно ли интегрировать VAPI с существующей CRM?

Да, через Function Calls (tools) агент может вызывать HTTP-энпоинты для записи заявок, проверки статуса или поиска в базе. Это позволяет встраивать агента в существующие бизнес-процессы без замены CRM.

Сколько времени занимает внедрение VAPI?

Прототип голосового агента можно получить за 2-3 дня. Полноценное production-решение с интеграциями, тестированием и обучением — от 3 до 5 недель в зависимости от сложности сценариев.

Что такое VAPI и для чего он используется?

VAPI — это API-первая платформа для создания голосовых AI-агентов. Она позволяет интегрировать любые STT, LLM и TTS, управлять звонками через WebRTC, SIP или PSTN. Используется для автоматизации колл-центров, виртуальных ассистентов и голосовых интерфейсов.

С какими провайдерами STT/LLM/TTS работает VAPI?

VAPI поддерживает Deepgram, AssemblyAI, OpenAI Whisper, Azure Cognitive для STT; GPT-4o, Claude, Llama, Gemini для LLM; ElevenLabs, Azure, OpenAI для TTS. Выбор осуществляется через конфигурацию ассистента.

Как уменьшить задержку в голосовом агенте?

Задержка зависит от выбора STT (Deepgram Nova-2 даёт ~250 мс), настройки прерываний (interruptionsEnabled, numWordsToInterruptAssistant) и использования WebRTC вместо PSTN. Оптимальная комбинация позволяет достичь p99 latency < 800 мс.

Можно ли интегрировать VAPI с существующей CRM?

Да, через Function Calls (tools) агент может вызывать HTTP-энпоинты для записи заявок, проверки статуса или поиска в базе. Это позволяет встраивать агента в существующие бизнес-процессы без замены CRM.

Сколько времени занимает внедрение VAPI?

Прототип голосового агента можно получить за 2-3 дня. Полноценное production-решение с интеграциями, тестированием и обучением — от 3 до 5 недель в зависимости от сложности сценариев.

Разработка голосовых AI-агентов на VAPI: внедрение и оптимизация

Q: Можно ли интегрировать VAPI с существующей CRM?

Да, через Function Calls (tools) агент может вызывать HTTP-энпоинты для записи заявок, проверки статуса или поиска в базе. Это позволяет встраивать агента в существующие бизнес-процессы без замены CRM.

Q: Сколько времени занимает внедрение VAPI?

Прототип голосового агента можно получить за 2-3 дня. Полноценное production-решение с интеграциями, тестированием и обучением — от 3 до 5 недель в зависимости от сложности сценариев.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка голосовых AI-агентов на VAPI: внедрение и оптимизация

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Разработка голосовых агентов на платформе VAPI

Клиент жалуется, что бот перебивает или медленно отвечает? Чаще всего проблема в неверной конфигурации прерываний и выборе STT. Мы разрабатываем голосовых AI-агентов на VAPI — платформе, которая даёт полный контроль над стеком: от транспорта до модели. Наш опыт — 5+ лет и 50+ внедрённых проектов, поэтому мы гарантируем снижение p99 latency до 800 мс и естественный диалог.

VAPI (Voice API) — инфраструктурная платформа для построения голосовых AI-агентов с акцентом на разработчиков. В отличие от no-code решений, VAPI предоставляет полный контроль над стеком: выбор провайдера STT (Deepgram, AssemblyAI), LLM (GPT-4o, Claude, Llama), TTS (ElevenLabs, Azure, OpenAI) и транспортного уровня (WebRTC, PSTN, SIP). Это позволяет создавать агентов с RAG, function calling и кастомными голосами, которые работают в 10 раз быстрее стандартных IVR-систем.

Архитектура VAPI-агента

Phone Call / WebRTC
        ↓
[VAPI Transport Layer]
        ↓
[STT: Deepgram / Whisper]
        ↓
[LLM: GPT-4o / Claude]  ←→  [Function Calls / Tools]
        ↓
[TTS: ElevenLabs / Azure]
        ↓
Audio Response

Почему VAPI, а не Twilio или собственное решение?

Twilio Voice API — это низкоуровневый SIP-стек, где каждую задержку (STT, LLM, TTS) приходится соединять самому. VAPI агрегирует все этапы в одном вызове API, управляет таймаутами и прерываниями из коробки. Результат: p99 latency на 40% ниже, а стоимость разработки — в 2–3 раза меньше. Для продакшена это означает экономию на инфраструктуре и операторах до 40%.

Создание агента через VAPI API

import requests
from typing import Optional

class VAPIAgentBuilder:
    def __init__(self, api_key: str):
        self.api_key = api_key
        self.base_url = "https://api.vapi.ai"
        self.headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }

    def create_assistant(self, name: str,
                          system_prompt: str,
                          model: str = "gpt-4o",
                          voice_provider: str = "elevenlabs",
                          voice_id: str = "rachel",
                          tools: Optional[list] = None) -> dict:
        assistant_config = {
            "name": name,
            "model": {
                "provider": "openai" if "gpt" in model else "anthropic",
                "model": model,
                "systemPrompt": system_prompt,
                "temperature": 0.7,
            },
            "voice": {
                "provider": voice_provider,
                "voiceId": voice_id,
                "speed": 1.0,
                "stability": 0.5,
            },
            "transcriber": {
                "provider": "deepgram",
                "model": "nova-2",
                "language": "ru",
            },
            "firstMessage": "Здравствуйте! Чем могу помочь?",
            "endCallMessage": "Спасибо за звонок. До свидания!",
            "endCallFunctionEnabled": True,
            "silenceTimeoutSeconds": 20,
            "maxDurationSeconds": 600,
        }

        if tools:
            assistant_config["model"]["tools"] = tools

        response = requests.post(
            f"{self.base_url}/assistant",
            json=assistant_config,
            headers=self.headers
        )
        return response.json()

    def create_tool(self, name: str,
                     description: str,
                     parameters: dict,
                     server_url: str) -> dict:
        return {
            "type": "function",
            "function": {
                "name": name,
                "description": description,
                "parameters": {
                    "type": "object",
                    "properties": parameters,
                    "required": list(parameters.keys())
                }
            },
            "server": {
                "url": server_url,
                "timeoutSeconds": 5,
            }
        }

    def create_outbound_call(self, assistant_id: str,
                              phone_number: str,
                              customer_data: dict = None) -> dict:
        payload = {
            "assistantId": assistant_id,
            "customer": {
                "number": phone_number,
                "name": customer_data.get("name", "") if customer_data else "",
            },
        }

        if customer_data:
            payload["assistantOverrides"] = {
                "variableValues": customer_data
            }

        response = requests.post(
            f"{self.base_url}/call",
            json=payload,
            headers=self.headers
        )
        return response.json()

    def setup_inbound_phone_number(self, phone_number: str,
                                    assistant_id: str) -> dict:
        payload = {
            "number": phone_number,
            "assistantId": assistant_id,
            "fallbackDestination": {
                "type": "number",
                "number": "+1234567890"
            }
        }

        response = requests.post(
            f"{self.base_url}/phone-number",
            json=payload,
            headers=self.headers
        )
        return response.json()

Как уменьшить latency до комфортного минимума?

Задержка складывается из трёх этапов: распознавание речи (STT), логика модели (LLM) и синтез (TTS). В VAPI можно влиять на каждый:

Выбор STT: Deepgram Nova-2 даёт ~250 мс при WER 8%, OpenAI Whisper — ~600 мс, но точнее. Для русскоязычных проектов часто выбирают Whisper.
Прерывания: включение interruptionsEnabled и установка numWordsToInterruptAssistant = 1 позволяют пользователю прерывать агента без задержки.
Transport: WebRTC быстрее PSTN — используйте его для клиентов в регионе.
Балансировка: загружайте LLM на эндпоинтах с низкой latency, например, через vLLM или Groq.

На практике после оптимизации p99 latency составляет 600–900 мс — это комфортный уровень для диалога.

Как настроить прерывания для естественного диалога?

VAPI позволяет тонко настраивать параметры, влияющие на естественность разговора:

interruptionsEnabled — разрешает пользователю прерывать агента. Критично для натуральности диалога.
backgroundDenoisingEnabled — фильтрация фонового шума через Krisp.
numWordsToInterruptAssistant — сколько слов пользователя нужно для прерывания агента (рекомендуется 1-2).
backchannelingEnabled — агент произносит «угу», «понятно» во время пауз.

Пример конфигурации для низкой задержки

{
  "model": {
    "provider": "openai",
    "model": "gpt-4o",
    "temperature": 0.7
  },
  "voice": {
    "provider": "elevenlabs",
    "voiceId": "rachel",
    "speed": 1.0
  },
  "transcriber": {
    "provider": "deepgram",
    "model": "nova-2",
    "language": "ru"
  },
  "interruptionsEnabled": true,
  "numWordsToInterruptAssistant": 1,
  "backchannelingEnabled": false
}

Интеграция с WebRTC для веб-звонков

import Vapi from "@vapi-ai/web";

const vapi = new Vapi("YOUR_PUBLIC_KEY");

vapi.start({
  assistantId: "your-assistant-id",
});

vapi.on("call-start", () => console.log("Call started"));
vapi.on("call-end", () => console.log("Call ended"));
vapi.on("message", (message) => {
  if (message.type === "transcript") {
    console.log(message.role, message.transcript);
  }
  if (message.type === "function-call") {
    console.log("Tool:", message.functionCall.name);
  }
});

Сравнение STT провайдеров в VAPI

Провайдер	Latency (WER)	Русский	Стоимость
Deepgram Nova-2	~250ms, WER 8%	хорошо	$0.0059/мин
AssemblyAI Universal	~400ms, WER 7%	хорошо	$0.0065/мин
OpenAI Whisper	~600ms, WER 6%	отлично	$0.006/мин
Azure Cognitive	~300ms, WER 9%	хорошо	$0.016/мин

Параметры оптимизации latency

Параметр	Значение по умолчанию	Рекомендация
`interruptionsEnabled`	false	true
`numWordsToInterruptAssistant`	3	1-2
`backgroundDenoisingEnabled`	false	true (если шум)
Transport	PSTN	WebRTC

Что входит в работу

Каждый проект включает:

Архитектуру агента с выбором оптимальных провайдеров под ваш сценарий.
Реализацию Function Calls для интеграции с вашими системами (CRM, базы знаний).
Настройку прерываний и лимитов для естественного диалога.
Развёртывание в production (SageMaker, Vercel, собственный сервер).
Документацию кода и инструкции по поддержке.
Гарантийную поддержку в течение месяца после запуска.

Типичные ошибки при разработке VAPI-агента

Разрешение прерываний без тестирования реальных сценариев: агент не дослушивает длинные ответы.
Использование PSTN вместо WebRTC: latency на 1–2 секунды выше.
Игнорирование таймаутов Function Calls: если эндпоинт отвечает дольше 5с, агент зависает.
Отсутствие fallback-номера: при ошибке клиент должен переключаться на оператора.

Сроки и стоимость

Прототип голосового агента с базовым сценарием — от 2 до 3 дней. Полноценное решение с интеграциями, тестированием и обучением — от 3 до 5 недель. Стоимость рассчитывается индивидуально под ваш проект. Свяжитесь с нами, чтобы получить прототип за 2-3 дня. Закажите консультацию для оценки вашего сценария.

Источник: VAPI REST API

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.