Дообучение (Fine-Tuning) языковой модели YandexGPT
YandexGPT — языковая модель Яндекса, доступная через Yandex Cloud API (сервис Yandex Foundation Models). Fine-tuning YandexGPT реализован в рамках сервиса и позволяет адаптировать модель под специфические задачи без необходимости управлять GPU-инфраструктурой. Ключевое преимущество для российского рынка: данные хранятся в российском облаке, что критично для компаний с требованиями 152-ФЗ и корпоративными политиками безопасности.
Доступные модели и режимы fine-tuning
Yandex Cloud предоставляет дообучение на базе YandexGPT Lite и Pro через сервис Yandex DataSphere или напрямую через API Foundation Models. Процесс управляется через Yandex Cloud Console или CLI.
YandexGPT Lite: быстрый инференс, оптимален для классификации, структурированной генерации, саппорт-ботов.
YandexGPT Pro: более высокое качество, сложные задачи генерации, анализ документов, reasoning.
Формат датасета
Fine-tuning YandexGPT принимает данные в формате JSON Lines, где каждый пример — диалог с ролями:
{
"request": {
"messages": [
{
"role": "system",
"text": "Ты — ассистент банка, отвечающий на вопросы клиентов по продуктам."
},
{
"role": "user",
"text": "Какая максимальная ставка по вкладу «Накопительный плюс»?"
}
]
},
"response": "Максимальная ставка по вкладу «Накопительный плюс» составляет 16,5% годовых при сроке 12 месяцев и сумме от 1 000 000 рублей."
}
Рекомендуемый объём: от 100 до 50 000 примеров. Yandex рекомендует минимум 100 разнообразных примеров для базовой адаптации.
Запуск через Yandex Cloud CLI
# Создание датасета
yc ai dataset create \
--name "bank-faq-dataset" \
--description "FAQ банковских продуктов" \
--task-type TextToTextGeneration \
--upload-format JsonLines \
--upload-path ./train.jsonl
# Запуск fine-tuning джоба
yc ai tuning create \
--name "yandexgpt-bank-faq" \
--base-model-uri "ds://bt1..." \
--train-datasets uri=<dataset_uri>,weight=1.0 \
--arguments epochCount=4,learningRate=0.0001,warmupRatio=0.1
Через Python SDK:
import yandexcloud
from yandex.cloud.ai.tuning.v1 import tuning_service_pb2
# Используется gRPC-клиент Yandex Cloud SDK
# Детали — в официальной документации Yandex Foundation Models
Специфика для российских задач
Юридические документы: YandexGPT обучен на значительно большем объёме русскоязычных текстов, включая нормативные акты и судебную практику, чем большинство западных моделей. При fine-tuning на корпусе российского законодательства стартовый уровень качества выше.
Финансовая отчётность по РСБУ: специфические российские стандарты бухгалтерского учёта слабо представлены в западных моделях. YandexGPT — более естественный кандидат для задач анализа РСБУ-отчётности.
Медицинская документация: формы документов МЗ РФ, стандарты медицинской помощи, клинические рекомендации на русском языке.
Практический кейс: дообучение для телеком-оператора
Задача: автоматическая обработка обращений в саппорт — классификация по 28 категориям + генерация первичного ответа.
Датасет: 4200 примеров из истории тикетов (реальные обращения клиентов → категория + ответ оператора). Данные прошли ручную верификацию и деперсонализацию.
Результат после 5 эпох:
- Accuracy классификации: 74% → 91%
- BLEU-4 для ответов: 0.21 → 0.54
- Процент ответов, принятых без правок оператором: 23% → 67%
- Среднее время обработки обращения: снижение с 4.2 мин до 1.8 мин
Сравнение с альтернативами
| Критерий | YandexGPT Fine-Tuning | GPT-4o Fine-Tuning | Self-hosted Llama |
|---|---|---|---|
| Хранение данных | Россия (Yandex Cloud) | США (OpenAI) | On-premise |
| 152-ФЗ совместимость | Да | Требует анализа | Да |
| Качество для рус. языка | Высокое | Очень высокое | Среднее–высокое |
| Инфраструктура | Managed | Managed | Self-managed |
| Интеграция с РФ-системами | Нативная | Требует настройки | Произвольная |
Сроки работ
- Подготовка и очистка датасета: 2–4 недели
- Обучение и итерации: 1–2 недели
- Тестирование и приёмка: 1 неделя
- Интеграция в продакшн: 1–2 недели
- Итого: 5–9 недель







