AI-система эмоциональных реакций цифрового аватара
Аватар, который «слышит» и «чувствует» — качественно другой опыт по сравнению с аватаром, который просто говорит. Эмоциональные реакции повышают вовлечённость, доверие и воспринимаемый интеллект системы. Мы строим полный emotion pipeline: от детекции эмоций пользователя до выражения их аватаром.
Архитектура системы
Emotion Input Pipeline:
Голосовой канал: SpeechBrain / audeering/wav2vec2 для распознавания эмоций из аудио. 4-классовая система (нейтральный, позитивный, негативный, напряжённый) — точность ~82% на IEMOCAP. 8-классовая (страх, злость, радость, грусть, сюрприз, отвращение, презрение, нейтральный) — точность ~72%.
Видео-канал: DeepFace / FER+ / ABAW модели для facial expression recognition через WebRTC. MediaPipe FaceMesh для 478 keypoints + классификатор.
Текстовый канал: BERT-based sentiment analysis (CardiffNLP) для тонального анализа сообщений. Context-aware: «это задача сложная» ≠ негатив, если контекст технический.
Emotion Fusion: Bayesian fusion трёх каналов. Приоритеты: видео > аудио > текст (при доступности). Temporal smoothing (exponential moving average с window 2–3 секунды) для предотвращения дёрганных переключений.
Emotion Output — Avatar:
Лицо: FACS-based blend shapes через emotion-to-AU mapping. Эмоция «радость» → AU6 (щёки) + AU12 (уголки рта) + AU25 (открытие рта). Интенсивность масштабируется.
Голос: ElevenLabs emotion parameters (stability, similarity) — тонкая настройка выразительности TTS в реальном времени.
Жесты: библиотека gesture clips, триггерируемых по emotion state. Позитив → открытые жесты; Напряжение → уменьшение жестикуляции.
Взгляд: increased eye contact при позитиве, gaze aversion при конфликтном контенте.
Пайплайн разработки
Недели 1–3: Настройка emotion detection (выбор каналов по requirements). Тестирование на репрезентативных примерах аудитории.
Недели 4–7: Разработка emotion fusion engine. Mapping эмоций на FACS AU. Реализация smooth transitions.
Недели 8–11: Интеграция с существующим аватаром и TTS. Тестирование natural-feeling transitions.
Недели 12–14: User study с реальными пользователями. Калибровка интенсивностей, исключение uncanny valley эффектов.
Evaluation
| Метрика | Значение |
|---|---|
| Emotion detection accuracy (4 класса) | ~82% |
| Perceived naturalness (5-балльная шкала) | >3.8/5 |
| User engagement (vs. non-emotional avatar) | +28–35% |
| Uncanny valley incidents | <5% взаимодействий |
Edge cases
Сарказм, культурные различия в выражении эмоций, mixed emotions — всё это снижает точность. Для профессиональных применений (психотерапия, HR) рекомендуем human-in-the-loop: система помечает неопределённые эмоциональные состояния для внимания оператора.







