Разработка AI-виртуального ассистента с реалистичной мимикой и жестами
Разница между виртуальным ассистентом с реалистичными лицевыми выражениями и без них — это разница между инструментом и опытом. Мимика создаёт эмоциональный резонанс, снижает когнитивную нагрузку на восприятие и повышает доверие к информации. Мы строим полный стек: от диалога до рендера.
Технический стек мимики
FACS-based Facial Animation: Facial Action Coding System (Ekman) — стандарт описания мимики через Action Units (AU). Система генерирует AU-векторы в реальном времени на основе:
- Эмоционального тона LLM-ответа (sentiment analysis → emotion mapping)
- Акцентов в TTS-аудио (prosody analysis → brow raise, lip corners)
- Контекста диалога (вопрос → кивок, неуверенность → нахмуривание)
NVIDIA Audio2Face: Нейросетевой lip sync: аудио → анимация мышц лица (jaw, lips, cheeks). Latency: <33 мс при запуске локально. Интеграция с MetaHuman через LiveLink.
Gesture Generation: Gesticulator (paper: NeurIPS 2020) / DiffuseStyleGesture — нейросетевая генерация жестов рук, синхронизированных с речью. Speech2Gesture — data-driven подход на основе motion capture корпусов.
Eye Behavior: Процедурная система: saccades (быстрые движения), smooth pursuit, blink rate (адаптируется к контексту — internal thinking → slower blink), vergence (фокус на говорящего через face tracking webcam).
Диалоговая система
LLM (GPT-4o или Llama 3 70B self-hosted) + RAG для domain knowledge. Emotion-aware system prompt: помимо ответа модель генерирует JSON с emotion tag {emotion: "curious", intensity: 0.7} → emotion controller → мимика.
Streaming TTS (ElevenLabs WebSocket API) для sub-second first audio. Аватар начинает двигаться до окончания генерации полного ответа.
Rendering
Web: Three.js + morph targets для browser-based без плагинов (30 fps на mid-range hardware)
Desktop/Kiosk: Unreal Engine 5 Pixel Streaming (60 fps фотореализм, требует GPU-сервер)
Mobile: Unity + ARKit/ARCore (25–30 fps на iPhone 12+)
Пайплайн разработки
Недели 1–4: Дизайн и 3D-моделирование аватара. Настройка FACS-системы.
Недели 5–9: Dialogue pipeline (STT → LLM → TTS с emotion tagging). Audio2Face интеграция.
Недели 10–14: Gesture system. Eye behavior. Интеграция всех компонентов.
Недели 15–18: Оптимизация latency. Нагрузочное тестирование. UX-тестирование с пользователями.
Latency целевые показатели
| Компонент | Целевая задержка |
|---|---|
| STT (Whisper large) | 200–400 мс |
| LLM (streaming first token) | 100–300 мс |
| TTS (первый аудиочанк) | 100–200 мс |
| Lip sync начало | <33 мс от аудио |
| Итоговый воспринимаемый отклик | 500–1000 мс |
Пользовательские исследования показывают: задержка до 1200 мс воспринимается как нормальная в разговорном контексте.







