Оценка качества дообученной модели (бенчмарки, BLEU, ROUGE, perplexity)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1566 услуг

Средняя

от 1 рабочего дня до 3 рабочих дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1218
Разработка веб-приложения для компании FEEDME
1161
Разработка веб-сайта для компании БЕЛФИНГРУПП
853
Разработка интернет магазина для компании FURNORO
1047
Разработка логотипа компании B2B Advance
561
Разработка веб-приложения для компании Enviok
825

Показать больше работ

Оценка качества дообученной модели (бенчмарки, BLEU, ROUGE, perplexity)

Оценка качества — обязательный этап после каждой итерации fine-tuning. Без структурированной системы метрик невозможно понять, стало ли лучше после дообучения, где именно модель ошибается, и когда нужно остановить обучение. Правильная оценка экономит время на ненужные итерации и предотвращает деплой деградировавшей модели.

Иерархия метрик оценки

Уровень 1: Автоматические метрики Быстрые, дешёвые, вычисляются без участия человека. Дают грубую оценку.

Уровень 2: LLM-as-judge Сильная модель (GPT-4o, Claude 3.5 Sonnet) оценивает ответы тестируемой модели. Хорошо коррелирует с человеческой оценкой при правильном промпте.

Уровень 3: Человеческая оценка Золотой стандарт, но дорого. Применяем для финальной валидации и калибровки нижних уровней.

Метрики для задач генерации текста

BLEU (Bilingual Evaluation Understudy):

from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction

references = [[ref.split()] for ref in reference_list]
hypotheses = [hyp.split() for hyp in hypothesis_list]

bleu_4 = corpus_bleu(
    references, hypotheses,
    weights=(0.25, 0.25, 0.25, 0.25),
    smoothing_function=SmoothingFunction().method1
)

BLEU измеряет n-gram overlap между сгенерированным и референсным текстом. Диапазон 0–1 (или 0–100). Хорош для перевода, суммаризации, структурированной генерации. Плохо работает для открытой генерации с множеством корректных вариантов.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation):

from rouge_score import rouge_scorer

scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)

scores = scorer.score(reference, hypothesis)
# scores.rouge1.fmeasure, scores.rouge2.fmeasure, scores.rougeL.fmeasure

ROUGE-1: unigram overlap
ROUGE-2: bigram overlap
ROUGE-L: longest common subsequence (учитывает порядок)

ROUGE лучше BLEU для задач суммаризации.

METEOR — лучше BLEU для русского языка, учитывает морфологические варианты:

from nltk.translate.meteor_score import meteor_score
score = meteor_score([reference.split()], hypothesis.split())

Perplexity: метрика уверенности модели

Perplexity измеряет, насколько «удивлена» модель тестовыми данными:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def compute_perplexity(model, tokenizer, texts: list[str]) -> float:
    total_loss = 0
    total_tokens = 0

    model.eval()
    with torch.no_grad():
        for text in texts:
            encodings = tokenizer(text, return_tensors="pt").to(model.device)
            outputs = model(**encodings, labels=encodings["input_ids"])
            total_loss += outputs.loss.item() * encodings["input_ids"].shape[1]
            total_tokens += encodings["input_ids"].shape[1]

    avg_loss = total_loss / total_tokens
    return torch.exp(torch.tensor(avg_loss)).item()

# Применение
ppl = compute_perplexity(model, tokenizer, test_texts)
print(f"Perplexity: {ppl:.2f}")

Снижение perplexity на тестовом наборе после fine-tuning означает, что модель лучше «понимает» целевой домен. Рост perplexity на общем бенчмарке — признак catastrophic forgetting.

Метрики для задач классификации и извлечения

from sklearn.metrics import classification_report, f1_score
import json

def evaluate_classification(model_outputs: list, ground_truth: list) -> dict:
    """Оценка классификации через LLM"""
    predictions = []
    for output in model_outputs:
        try:
            # Предполагаем JSON-вывод с полем "category"
            pred = json.loads(output)["category"]
        except:
            pred = "parse_error"
        predictions.append(pred)

    report = classification_report(ground_truth, predictions, output_dict=True)
    return {
        "macro_f1": report["macro avg"]["f1-score"],
        "weighted_f1": report["weighted avg"]["f1-score"],
        "accuracy": report["accuracy"],
        "per_class": {k: v for k, v in report.items() if isinstance(v, dict) and k not in ["macro avg", "weighted avg"]}
    }

LLM-as-judge: практическая реализация

from openai import OpenAI

JUDGE_PROMPT = """Ты — строгий эксперт, оценивающий качество ответов AI-ассистента.

Вопрос: {question}

Ответ ассистента: {answer}

Референсный ответ: {reference}

Оцени ответ по критериям (каждый 1–5):
1. Фактическая точность
2. Полнота охвата темы
3. Структурированность
4. Соответствие стилю

Верни JSON: {{"accuracy": X, "completeness": X, "structure": X, "style": X, "overall": X, "reasoning": "..."}}"""

def llm_judge(question: str, answer: str, reference: str, client: OpenAI) -> dict:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": JUDGE_PROMPT.format(question=question, answer=answer, reference=reference)
        }],
        response_format={"type": "json_object"},
        temperature=0.1
    )
    return json.loads(response.choices[0].message.content)

Практический пример: комплексная оценка fine-tuned модели

Базовая модель: Llama 3.1 8B Instruct. Fine-tuned модель: QLoRA r=16, 2000 примеров юридических документов.

Метрика	Базовая модель	Fine-tuned	Изменение
ROUGE-L	0.41	0.67	+63%
BLEU-4	0.18	0.39	+117%
Perplexity (домен)	24.3	11.8	-51%
Perplexity (MMLU)	8.2	9.1	+11% (forgetting)
LLM-judge overall	3.1	4.3	+39%
F1 (NER категории)	0.61	0.89	+46%

Perplexity на MMLU выросла на 11% — умеренный catastrophic forgetting. Приемлемо для узкоспециализированного use-case.

Мониторинг после деплоя

import mlflow

# Автоматическое логирование при каждом запросе
def log_inference_quality(prompt, response, user_feedback):
    with mlflow.start_run(run_name="production-monitoring"):
        mlflow.log_metrics({
            "response_length": len(response.split()),
            "refusal_detected": int("не могу" in response.lower()),
            "user_rating": user_feedback.get("rating", -1),
        })

Сроки оценки

Разработка evaluation pipeline: 3–5 дней
Автоматическая оценка (все метрики): несколько часов
LLM-as-judge (1000 примеров): 1–2 дня (стоимость ~$5–20)
Человеческая оценка (200 примеров): 1 неделя
Итого на оценку одной итерации: 1–2 недели