Интеграция нейросетей с Битрикс24
ChatGPT — это текст. Но нейросети умеют работать с изображениями, голосом, классификацией и предсказаниями. Когда маркетолог вручную рисует баннеры, когда руководитель переслушивает 40-минутные звонки вместо чтения резюме разговора, когда лиды распределяются по отделам «на глаз» — это задачи для специализированных ML-моделей, подключённых к Битрикс24 через REST API.
Общая архитектура
Схема та же, что при интеграции ChatGPT, но с расширенным набором моделей:
Битрикс24 REST API → middleware-сервер → API нейросетей (OpenAI, Replicate, собственные модели)
Middleware принимает событие или вызов из Б24, определяет тип задачи, выбирает модель, формирует запрос, получает результат и возвращает его в Битрикс24. Один middleware может работать с десятком разных моделей — маршрутизация по типу задачи.
Транскрибация звонков: Whisper
Самый востребованный сценарий после текстовой генерации. Менеджер поговорил с клиентом 20 минут — запись хранится в Б24 как аудиофайл. Руководитель не будет переслушивать каждый звонок. Whisper превращает аудио в текст, а GPT делает из текста структурированное резюме.
Техническая цепочка:
- Звонок завершён → событие
ONVOXIMPLANTCALLENDотправляется на middleware. - Middleware получает запись звонка через
voximplant.statistic.getи скачивает аудиофайл. - Аудио отправляется в Whisper API (
POST /v1/audio/transcriptions). Параметры:model=whisper-1,language=ru,response_format=verbose_json(с таймкодами). - Транскрипция передаётся в GPT с промптом: «Выдели ключевые договорённости, вопросы клиента, следующие шаги. Формат: JSON».
- Результат записывается в комментарий к звонку или в пользовательское поле сделки через
crm.timeline.comment.add.
Стоимость: Whisper — $0.006 за минуту аудио. 20-минутный звонок — $0.12. При 50 звонках в день — около $6 в сутки. Для большинства компаний это в разы дешевле времени руководителя на прослушивание.
Генерация изображений: DALL-E и Stable Diffusion
Маркетологу нужен баннер для рассылки, иллюстрация для поста в соцсети или визуал для карточки товара. Вместо брифа дизайнеру и ожидания в 2 дня — запрос нейросети из интерфейса Б24.
Реализация:
-
Через чат-бота. Маркетолог пишет боту: «Сгенерируй баннер для акции -20% на зимнюю коллекцию, стиль минимализм, формат 1200x628». Бот отправляет промпт в DALL-E 3 (
POST /v1/images/generations) или в Stable Diffusion через Replicate API. Получает URL изображения, скачивает, загружает на Диск Б24 черезdisk.file.uploadtofolder, отправляет превью в чат. - Через бизнес-процесс. При создании маркетинговой активности в CRM автоматически генерируются варианты визуала на основе текста и параметров кампании.
DALL-E 3 хорошо работает с концептуальными изображениями и иллюстрациями. Для фотореалистичных изображений и контроля стиля используем Stable Diffusion XL через Replicate — гибче в настройке, поддерживает ControlNet и LoRA-модели.
Классификация и анализ тональности
Текстовые модели решают задачи, которые не сводятся к генерации:
Классификация лидов по тематике. Лид содержит произвольный текст запроса. Модель определяет категорию: «разработка сайта», «поддержка», «интеграция», «хостинг». На основании категории middleware через crm.lead.update устанавливает соответствующее направление и назначает ответственный отдел.
Анализ тональности обращений. Письма и сообщения из открытых линий проходят через модель sentiment analysis. Если тональность негативная — обращение получает повышенный приоритет, уведомляется руководитель. Реализуется через fine-tuned модель на базе BERT или через промпт к GPT с инструкцией классификации по шкале «позитивный / нейтральный / негативный».
Извлечение сущностей (NER). Из текста письма или формы извлекаются структурированные данные: название компании, ИНН, требуемые сроки, бюджет. Заполняются поля лида автоматически через crm.lead.update. Экономит время менеджера на ручном заполнении карточки.
ML-пайплайны через REST API
Для сложных сценариев строим цепочки обработки:
- Входящее письмо → извлечение текста → классификация тематики → определение тональности → квалификация → маршрутизация на ответственного.
- Завершённый звонок → транскрибация (Whisper) → резюмирование (GPT) → извлечение задач из разговора → автоматическое создание задач в Б24.
-
Новый товар в каталоге → генерация описания (GPT) → генерация изображения (DALL-E) → публикация в CRM-каталоге через
crm.product.update.
Каждый шаг пайплайна — отдельный вызов API с обработкой ошибок. Если Whisper вернул ошибку — retry с экспоненциальной задержкой. Если GPT превысил лимит токенов — fallback на модель поменьше.
Выбор модели под задачу
| Задача | Модель | API | Стоимость |
|---|---|---|---|
| Транскрибация звонков | Whisper | OpenAI | $0.006/мин |
| Резюме разговора | GPT-4o-mini | OpenAI | ~$0.01 за резюме |
| Квалификация лида | GPT-4o-mini | OpenAI | ~$0.005 за лид |
| Генерация изображений | DALL-E 3 | OpenAI | $0.04–0.08 за изображение |
| Фотореалистичные изображения | SDXL | Replicate | ~$0.01 за изображение |
| Классификация тональности | BERT fine-tuned | Собственный сервер | Стоимость хостинга |
| Извлечение сущностей | GPT-4o-mini / spaCy | OpenAI / свой сервер | $0.005 за запрос / хостинг |
Сроки внедрения
| Масштаб | Что входит | Срок |
|---|---|---|
| Один сценарий | Транскрибация звонков или генерация изображений | 3–5 дней |
| Комплекс | 2–3 сценария, классификация + транскрибация + генерация | 1–2 недели |
| ML-пайплайн | Полная цепочка обработки, кастомные модели, мониторинг | 3–5 недель |
Что внедряем
- Middleware-сервер с маршрутизацией запросов по типу задачи и модели
- Транскрибация звонков через Whisper с записью резюме в CRM
- Генерация маркетинговых изображений из чата или бизнес-процесса
- Классификация и маршрутизация лидов по тематике и тональности
- Извлечение структурированных данных из писем и форм
- ML-пайплайны: цепочки обработки данных с автоматическими действиями в Б24
- Мониторинг стоимости и качества: дашборд расхода токенов, логирование результатов







