Генеративный AI: изображения, видео, музыка, 3D
Запрос «сгенерируй изображение продукта» звучит просто. На деле — это выбор между десятками моделей, настройка пайплайна инференса, решение проблемы consistency между кадрами, интеграция в продуктовый бэкенд и ответ на вопрос «почему модель генерирует руки с шестью пальцами на стейджинге, но не на продакшене». Разберём по направлениям.
Генерация изображений: от промпта к production API
Актуальный ландшафт — FLUX.1 [dev/schnell/pro] от Black Forest Labs и Stable Diffusion 3.5. FLUX.1 [schnell] делает 4 шага вместо 20–50 у SDXL и при этом держит качество выше. На A100 80GB — 1.2–1.8 с на изображение 1024×1024 при batch_size=4.
Типичная проблема при развёртывании: FLUX.1 [dev] требует 24+ GB VRAM в fp16. На A10G 24GB влезает впритык, при batch_size>1 — OOM. Решение: torch_dtype=torch.bfloat16 + enable_model_cpu_offload() из diffusers, либо квантизация через bitsandbytes в NF4 — падение качества минимально, потребление памяти снижается до 12–14 GB.
ControlNet и IP-Adapter — ключевые инструменты для production-задач, где нужна управляемость. ControlNet с Canny/Depth/Pose картой даёт структурный контроль. IP-Adapter (особенно IP-Adapter-FaceID) позволяет переносить identity персонажа на генерации — это основа для персонализированного контента.
Кейс: e-commerce фотосъёмка. Ритейлер с 8000 SKU нуждался в lifestyle-фото для каждого продукта. Пайплайн: сегментация продукта (Segment Anything Model 2) → удаление фона → inpainting FLUX.1 [dev] с product image как IP-Adapter reference → upscale через RealESRGAN_x4plus. Стоимость генерации — $0.003/изображение на арендованных A100, vs $15–40 за профессиональную съёмку. Throughput — 200 изображений/час на 2× A100.
Fine-tuning под конкретный стиль или персонаж
Dreambooth и LoRA — стандарт для адаптации под конкретный визуальный стиль или объект. LoRA обучается за 2–4 часа на 20–30 референсных изображениях на одном A100. Rank 16–32 обычно достаточно для стиля, rank 64+ нужен для точного воспроизведения лиц.
Частая ошибка: обучать LoRA слишком долго — модель переобучается на референсы, теряет способность к вариативности. Признак: на cfg_scale=7 все изображения похожи на copy-paste референса. Лечится ранней остановкой (обычно 1500–2000 шагов для 20 изображений) и prior_preservation_loss.
Для более глубокой кастомизации — full fine-tuning через diffusers + accelerate с FSDP на нескольких GPU. Но это уже 40–80 часов обучения и нужен действительно большой датасет (1000+ изображений).
Генерация видео: состояние технологий в 2025
| Модель | Доступность | Длина | Разрешение | Управляемость |
|---|---|---|---|---|
| Sora (OpenAI) | API (ограниченный) | до 60 с | 1080p | промпт, image-to-video |
| Wan2.1 (Alibaba) | open weights | до 81 кадр | 720p | промпт, I2V, V2V |
| CogVideoX-5B | open weights | 6 с | 720p | промпт, I2V |
| Kling 1.6 | API | до 30 с | 1080p | промпт, I2V |
| Mochi-1 | open weights | 5.4 с | 480p | промпт |
Open-weight видеомодели пока отстают от коммерческих по стабильности и длине. Wan2.1 — лучший выбор для self-hosted: 14B параметров, работает на 2× A100, даёт приемлемое качество для коротких клипов.
Главная боль видеогенерации — temporal consistency: персонаж меняет цвет одежды на третьей секунде, объект «плывёт». Частичное решение — генерация с motion_bucket_id и noise_aug_strength в Stable Video Diffusion, или использование I2V (image-to-video) вместо чистого text-to-video.
AnimateDiff остаётся рабочим инструментом для коротких петель и motion-эффектов поверх SD/FLUX. Не Sora, но деплоится локально и предсказуем.
Генерация музыки и аудио
AudioCraft от Meta (MusicGen + AudioGen) — production-готовый стек для музыкальной генерации. musicgen-large (3.3B) генерирует 30 с музыки за ~8 с на A100. Управление через текстовый промпт и melody conditioning — можно задать мелодию напеванием.
Stable Audio Open от Stability AI — альтернатива с длиной до 47 с, лучшая управляемость структурой (intro/verse/chorus). Деплой аналогичен: diffusers + FastAPI.
Для voice-over и озвучки — ElevenLabs API или self-hosted XTTS v2 (см. услугу Speech AI). Для sound design и foley — AudioGen.
3D-генерация: практическое состояние
3D-генерация всё ещё не добралась до той же зрелости, что 2D. Но для конкретных задач инструменты уже рабочие:
TripoSG и Shap-E — text/image-to-3D. Shap-E от OpenAI генерирует простые 3D-меши за секунды, но геометрия грубовата. TripoSG даёт более детальные результаты, но требует постпроцессинга (ремешинг, UV-развёртка).
Wonder3D и Zero123++ — реконструкция 3D из одного изображения. Работают через генерацию multi-view (6–8 видов) и последующее 3D-восстановление через NeuS или instant-ngp.
Gaussian Splatting (3DGS) — не генерация, а реконструкция из серии фото/видео. Для товарных карточек и недвижимости это уже production: 50–200 фото → 3DGS модель за 15–30 мин на RTX 4090 → интерактивный 3D-вьювер в браузере.
Инфраструктура и деплой
Для генеративных моделей критично:
- Очередь задач — Celery + Redis или Ray Serve. Синхронный HTTP для генерации изображений неприемлем при >5 конкурентных запросов.
- Кэширование — схожие промпты дают похожие результаты. Семантический кэш через эмбеддинги (faiss + sentence-transformers) может снизить нагрузку на GPU на 20–40%.
- Мониторинг качества — CLIP score для text-image alignment, FID для оценки распределения генераций. Интеграция в MLflow или Weights & Biases.
- Хранение — сгенерированные изображения сразу в S3/MinIO, не на диске сервера инференса.
Процесс работы
Прежде чем выбирать модель — определяем use case: нужен ли real-time (< 3 с), или batch (обработка ночью), нужна ли управляемость (бренд-стиль, конкретные лица), какой бюджет на GPU. Это первый разговор на 1–2 часа.
Дальше — proof of concept на вашем контенте. Смотрим на реальные результаты, а не на демо-примеры из GitHub. Часто выясняется, что нужна гибридная схема: API для срочных задач + self-hosted для массовой обработки.
Сроки: интеграция готового API (DALL-E 3, Midjourney API, Stability API) — 1–2 недели. Self-hosted пайплайн с fine-tuning — 6–12 недель. Полная платформа с UI, очередями и мониторингом — 3–6 месяцев.







