Разработка AI-системы детекции списывания и плагиата в учебных работах

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Разработка AI-системы детекции списывания и плагиата в учебных работах
Средняя
~1-2 недели
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Разработка AI-системы детекции списывания и плагиата в учебных работах

Детекция академической нечестности включает несколько задач: плагиат из интернет-источников, копирование между студентами, и AI-генерированные работы. Каждая требует разного подхода.

Три вида академической нечестности

Плагиат из источников: заимствование из сайтов, статей, Wikipedia. Обнаружение: сравнение с веб-корпусом через API Antiplagiat.ru, iThenticate, или кастомный crawl. Порог: > 20% заимствований → расследование.

Копирование между студентами: два студента сдали похожие работы. Обнаружение: попарное сравнение всех работ в потоке. Алгоритм: MinHash LSH для быстрого нахождения пар с высоким Jaccard similarity.

AI-сгенерированный контент: работа написана LLM. Обнаружение: AI-детекторы (GPTZero, Originality.ai) + семантический анализ (слишком правильная структура, отсутствие личного стиля).

Технические реализации

def detect_inter-student-similarity(submissions: list[Submission]) -> list[SimilarityPair]:
    # MinHash для приближённого сходства
    from datasketch import MinHash, MinHashLSH

    lsh = MinHashLSH(threshold=0.4, num_perm=128)
    minhashes = {}

    for sub in submissions:
        m = MinHash(num_perm=128)
        for word in preprocess(sub.text).split():
            m.update(word.encode("utf-8"))
        lsh.insert(sub.student_id, m)
        minhashes[sub.student_id] = m

    pairs = []
    for sub in submissions:
        result = lsh.query(minhashes[sub.student_id])
        for match_id in result:
            if match_id != sub.student_id:
                similarity = minhashes[sub.student_id].jaccard(minhashes[match_id])
                if similarity > 0.4:
                    pairs.append(SimilarityPair(
                        student_1=sub.student_id,
                        student_2=match_id,
                        similarity=similarity
                    ))
    return pairs

Контекст и справедливость

Высокое сходство — не автоматическое обвинение. Причины: задание с шаблонным ответом, цитирование одного источника, групповая работа (разрешённая). Система флагирует для расследования преподавателем, не выносит приговор.

False positive rate AI-детекторов на студенческих работах: 5–15%. Не использовать как единственное доказательство — только в совокупности с другими признаками.