Сколько времени занимает fine-tuning?

Минимальный проект с готовыми данными — 3–5 недель. Типичный проект требует 8–14 недель с учетом подготовки данных и итераций. Сложные домены могут занимать до 24 недель.

Какую базовую модель выбрать для русского языка?

Для русского языка рекомендуем Qwen2.5-14B или Llama 3.1 8B. Они показывают лучшее качество на русскоязычных задачах. Для специализированных доменов (медицина, юриспруденция) может потребоваться дополнительная оценка.

Нужны ли GPU для обучения?

Да, для fine-tuning требуются GPU с достаточным объемом VRAM. Для моделей 7–8B достаточно одной A100 40GB. Для 70B нужно 2–4 A100 80GB. Мы подберем оптимальную конфигурацию.

В чем разница между LoRA и полным fine-tuning?

LoRA дообучает только несколько адаптеров, что в 4 раза экономит память и ускоряет обучение. Полный fine-tuning обновляет все веса модели, давая больший потенциал, но требует больше ресурсов. Выбор зависит от задачи и доступных вычислительных мощностей.

Как оценить качество дообученной модели?

Мы используем комбинацию автоматических метрик (F1, BLEU, ROUGE), LLM-as-judge с привлечением сильной модели (GPT-4o) и человеческую оценку выборки. Это обеспечивает объективную картину.

Сколько времени занимает fine-tuning?

Минимальный проект с готовыми данными — 3–5 недель. Типичный проект требует 8–14 недель с учетом подготовки данных и итераций. Сложные домены могут занимать до 24 недель.

Какую базовую модель выбрать для русского языка?

Для русского языка рекомендуем Qwen2.5-14B или Llama 3.1 8B. Они показывают лучшее качество на русскоязычных задачах. Для специализированных доменов (медицина, юриспруденция) может потребоваться дополнительная оценка.

Нужны ли GPU для обучения?

Да, для fine-tuning требуются GPU с достаточным объемом VRAM. Для моделей 7–8B достаточно одной A100 40GB. Для 70B нужно 2–4 A100 80GB. Мы подберем оптимальную конфигурацию.

В чем разница между LoRA и полным fine-tuning?

LoRA дообучает только несколько адаптеров, что в 4 раза экономит память и ускоряет обучение. Полный fine-tuning обновляет все веса модели, давая больший потенциал, но требует больше ресурсов. Выбор зависит от задачи и доступных вычислительных мощностей.

Как оценить качество дообученной модели?

Мы используем комбинацию автоматических метрик (F1, BLEU, ROUGE), LLM-as-judge с привлечением сильной модели (GPT-4o) и человеческую оценку выборки. Это обеспечивает объективную картину.

Дообучение (Fine-Tuning) открытой LLM под задачи заказчика

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Дообучение (Fine-Tuning) открытой LLM под задачи заказчика

Сложный

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1347
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
948
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Вы обучили LLM на своём датасете. А модель галлюцинирует коды МКБ-10? Fine-tuning открытой LLM — способ превратить общую модель в специалиста вашего домена. Мы дообучаем модели с полным контролем над данными. Вы владеете весами. Разворачиваете on-premise. Масштабируете инференс без платы за токены. Накопленный опыт — более 50 проектов: от классификации до генерации сложных отчётов. QLoRA позволяет экономить до 75% бюджета на вычислительных ресурсах. Оценим ваш проект. Пишите, обсудим детали и подберём стратегию. Получите консультацию по вашему проекту.

Как выбрать базовую модель под задачу?

Выбор базовой модели — критическое решение. Неправильный выбор приводит к переработке на этапе итераций. Мы оцениваем, на каком классе задач модель показывает максимум, и подбираем оптимальный вариант.

Класс задачи	Рекомендуемые модели	Обоснование
Классификация, NER, структурированный вывод	Llama 3.1 8B, Mistral 7B, Phi-4-mini	Достаточно качества, быстрый инференс
Генерация текста на русском	Qwen2.5-7B/14B, Llama 3.1 8B	Сильная многоязычность
Программирование, SQL, code review	Qwen2.5-Coder-32B, DeepSeek-Coder-V2, Phi-4	Специализированные code модели
Сложный reasoning, анализ	DeepSeek-R1-Distill-32B, Llama 3.1 70B	Высокий reasoning, инструкции
Edge/offline/мобильные	Phi-4-mini, Qwen2.5-3B, Llama 3.2 3B	Малый размер, квантизация
Мультимодальные задачи	Llama 3.2-Vision, Qwen2-VL, InternVL	Нативная поддержка изображений

Почему fine-tuning эффективнее RAG для некоторых задач?

RAG (Retrieval-Augmented Generation) хорош, когда нужно подтянуть актуальные факты из внешнего источника. Но если задача требует глубокого понимания доменной логики, fine-tuning даёт более последовательное качество. Например, в медицинской диагностике модель должна точно классифицировать код МКБ-10, а RAG может путаться из-за шума в извлечённых документах. Fine-tuning «вшивает» знания прямо в веса, устраняя проблему. При этом LoRA-дообучение в 4 раза экономичнее полного fine-tuning по памяти, что делает его доступным для большинства проектов.

Что такое синтетическая генерация данных и зачем она нужна?

Часто у заказчика нет размеченных данных, но есть неструктурированные источники: документы, регламенты, FAQ. Используем GPT-4o или Claude для автоматической генерации обучающих пар. Это позволяет получить тысячи примеров за дни, а не месяцы. Однако важно верифицировать выборку вручную — минимум 10–15% для контроля качества.

from openai import OpenAI
import json

client = OpenAI()

def generate_training_example(document_chunk: str, num_examples: int = 5) -> list:
    """Генерирует обучающие пары из фрагмента документа"""
    prompt = f"""Ты — эксперт по созданию датасетов для обучения языковых моделей.

На основе фрагмента документа ниже создай {num_examples} пар "вопрос-ответ" в формате JSON.
Вопросы должны быть разнообразными: фактические, аналитические, практические.
Ответы — точными, основанными только на тексте документа.

Документ:
{document_chunk}

Верни JSON-массив: [{"question": "...", "answer": "..."}]"""

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        response_format={"type": "json_object"},
        temperature=0.7
    )

    return json.loads(response.choices[0].message.content)["pairs"]

Как устроен типовой проект fine-tuning?

Фаза 1: Аудит задачи и данных (1–2 недели)

Формализация задачи (классификация/генерация/извлечение)
Инвентаризация имеющихся данных, оценка объёма и качества
Выбор базовой модели и метода обучения

Фаза 2: Подготовка данных (2–6 недель)

Сбор и агрегация источников
Очистка (дубликаты, шум, PII)
Разметка (ручная/синтетическая/комбинированная)
Форматирование под chat template
Train/val/test split (80/10/10)

Фаза 3: Обучение (1–4 недели)

Baseline оценка базовой модели
Первый запуск LoRA/QLoRA с дефолтными параметрами
Анализ training/val loss кривых
Подбор гиперпараметров
Full Fine-Tuning при необходимости

Фаза 4: Оценка и итерации (1–3 недели)

Автоматические метрики (F1, BLEU, ROUGE, accuracy)
LLM-as-judge (GPT-4o или другая сильная модель как судья)
Человеческая оценка выборки
Анализ failure cases → доработка данных

Фаза 5: Деплой и мониторинг (1–2 недели)

Квантизация (опционально)
Деплой через vLLM/TGI
Настройка мониторинга и A/B тест vs baseline

Что входит в работу

Анализ задачи и данных, формализация метрик успеха
Выбор оптимальной базовой модели и метода обучения
Подготовка данных: сбор, очистка, разметка (вручную или синтетически)
Обучение с подбором гиперпараметров, логирование в MLflow
Оценка: автопилот + LLM-as-judge + контрольная выборка экспертов
Деплой (vLLM, TGI) и интеграция в ваш пайплайн
Документация и обучение команды заказчика

Практический кейс: специализация под телемедицину (из нашей практики)

Задача: ассистент для врачей первичного звена — дифференциальная диагностика по жалобам пациента, предложение списка обследований, выбор МКБ-10 кода. Наш клиент — крупный медицинский центр.

Исходные данные:

450 клинических случаев с заключениями (из медсистемы, обезличенные)
Клинические рекомендации МЗ РФ по 12 нозологиям (PDF, 3200 страниц)
Справочник МКБ-10

Стратегия:

Конвертация клинических рекомендаций в chunks
Синтетическая генерация 3200 примеров через GPT-4o (жалобы → диагностика)
Верификация 15% выборки практикующими терапевтами
Fine-tuning Qwen2.5-14B (лучший русский язык для медтерминологии)

Результаты (после 4 эпох QLoRA, r=32):

Top-3 accuracy МКБ-10: 71% → 89%
Полнота списка рекомендованных обследований (recall vs эксперт): 0.62 → 0.84
Hallucination rate (выдуманные препараты/процедуры): 24% → 6%
Latency (vLLM, A100): 1.8с на запрос

QLoRA позволила обучить модель на 1x A100 80GB, что в 4 раза экономичнее полного fine-tuning. Этот подход подходит и для ваших задач — свяжитесь, оценим проект.

Мониторинг качества в продакшне

После деплоя настраиваем непрерывный мониторинг:

import mlflow

# Логирование предсказаний для анализа дрейфа
with mlflow.start_run():
    mlflow.log_metrics({
        "avg_response_length": avg_len,
        "refusal_rate": refusal_rate,
        "latency_p95": latency_p95,
        "user_rating_avg": rating_avg,
    })

Признаки деградации модели: рост refusal rate, снижение пользовательских оценок, увеличение доли escalation в downstream системах.

Инфраструктурные требования

Метод	Модель	GPU	VRAM	Время обучения
QLoRA	7B	1×A100 40GB	18 GB	2–6ч
QLoRA	14B	1×A100 80GB	35 GB	4–12ч
QLoRA	70B	2×A100 80GB	90 GB	12–36ч
Full FT	7B	4×A100 40GB	120 GB	8–24ч
Full FT	70B	8×H100 80GB	560 GB	48–120ч

Сроки полного цикла

Минимальный проект (готовые данные, несложная задача): 3–5 недель. Типичный проект (подготовка данных с нуля): 8–14 недель. Сложный проект (специализированный домен, итеративная разметка): 16–24 недели.

Пример распределения трудозатрат (типовой проект)

Аудит и формализация: 1–2 недели
Подготовка данных: 3–6 недель
Обучение и итерации: 2–4 недели
Деплой и сопровождение: 1–2 недели

Общий срок: 8–14 недель. Стоимость рассчитывается индивидуально — оцените ваш проект у нас.

Fine-tuning — ключевая техника адаптации LLM. Получите консультацию для вашей задачи: подберём стратегию и оптимизируем бюджет. Закажите оценку проекта сейчас.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.