Разработка AI-системы детекции списывания и плагиата в учебных работах
Детекция академической нечестности включает несколько задач: плагиат из интернет-источников, копирование между студентами, и AI-генерированные работы. Каждая требует разного подхода.
Три вида академической нечестности
Плагиат из источников: заимствование из сайтов, статей, Wikipedia. Обнаружение: сравнение с веб-корпусом через API Antiplagiat.ru, iThenticate, или кастомный crawl. Порог: > 20% заимствований → расследование.
Копирование между студентами: два студента сдали похожие работы. Обнаружение: попарное сравнение всех работ в потоке. Алгоритм: MinHash LSH для быстрого нахождения пар с высоким Jaccard similarity.
AI-сгенерированный контент: работа написана LLM. Обнаружение: AI-детекторы (GPTZero, Originality.ai) + семантический анализ (слишком правильная структура, отсутствие личного стиля).
Технические реализации
def detect_inter-student-similarity(submissions: list[Submission]) -> list[SimilarityPair]:
# MinHash для приближённого сходства
from datasketch import MinHash, MinHashLSH
lsh = MinHashLSH(threshold=0.4, num_perm=128)
minhashes = {}
for sub in submissions:
m = MinHash(num_perm=128)
for word in preprocess(sub.text).split():
m.update(word.encode("utf-8"))
lsh.insert(sub.student_id, m)
minhashes[sub.student_id] = m
pairs = []
for sub in submissions:
result = lsh.query(minhashes[sub.student_id])
for match_id in result:
if match_id != sub.student_id:
similarity = minhashes[sub.student_id].jaccard(minhashes[match_id])
if similarity > 0.4:
pairs.append(SimilarityPair(
student_1=sub.student_id,
student_2=match_id,
similarity=similarity
))
return pairs
Контекст и справедливость
Высокое сходство — не автоматическое обвинение. Причины: задание с шаблонным ответом, цитирование одного источника, групповая работа (разрешённая). Система флагирует для расследования преподавателем, не выносит приговор.
False positive rate AI-детекторов на студенческих работах: 5–15%. Не использовать как единственное доказательство — только в совокупности с другими признаками.







