Разработка AI-системы автоматической проверки заданий Auto Grading
Auto Grading автоматизирует проверку студенческих работ: тестов, эссе, кода, задач. Это не просто проверка правильности — система даёт детальную обратную связь по каждому критерию.
Типы заданий и методы проверки
Объективные вопросы (тест, выбор ответа): детерминированная проверка без AI. Для нечётких вариантов («правильный ответ своими словами») — семантическое сравнение с эталоном.
Открытые вопросы (краткий ответ): семантическое сходство с эталонным ответом + LLM-оценка по критериям.
Эссе и развёрнутые ответы: рубрика с критериями → LLM оценивает каждый критерий с обоснованием.
Код: автоматический запуск тестов + LLM для оценки качества (стиль, эффективность, комментарии).
Рубрика-based оценка
class GradingRubric(BaseModel):
criteria: list[RubricCriterion]
max_points: int
class RubricCriterion(BaseModel):
name: str # «Понимание концепции»
description: str # что именно оценивается
max_points: int
levels: list[dict] # описание каждого уровня (0, 1, 2, ...)
class AssignmentGrade(BaseModel):
total_score: float
max_score: float
criteria_scores: list[CriterionScore]
feedback: str # развёрнутая обратная связь
strengths: list[str] # что сделано хорошо
improvements: list[str] # что улучшить
def grade_assignment(student_answer: str, rubric: GradingRubric) -> AssignmentGrade:
return llm.parse(
build_grading_prompt(student_answer, rubric),
response_format=AssignmentGrade
)
Контроль предвзятости
AI может демонстрировать предвзятость (имена, стиль письма). Mitigation:
- Анонимизация работ перед проверкой
- Калибровка на человеческих оценках
- Регулярный аудит: сравнение AI-оценок с ручными на выборке
Прозрачность для студентов
Студент должен понимать, почему получил такую оценку. Каждая оценка сопровождается: конкретные цитаты из его работы + объяснение. Возможность оспорить: «Преподаватель пересматривает» — финальное слово всегда за человеком.
AI-оценки должны быть advisory (для преподавателя) или draft (с одобрением преподавателя) для значимых итоговых работ.







