Разработка AI-системы для e-Discovery
e-Discovery (электронное раскрытие) — процесс обнаружения, сбора и анализа электронных документов в рамках судебного производства или расследования. AI-система обрабатывает терабайты данных и выявляет релевантные документы.
Стадии e-Discovery (EDRM Framework)
Identification: определение источников данных (email-серверы, файловые системы, мессенджеры, облачные хранилища).
Preservation: юридический hold — сохранение данных без изменений после уведомления о иске.
Collection: сбор данных с источников с соблюдением chain of custody.
Processing: конвертация в единый формат, дедупликация, фильтрация по дате/кастодиану.
Review: AI-assisted review — приоритизация документов по релевантности.
Production: передача документов противоположной стороне в требуемом формате.
Technology-Assisted Review (TAR)
TAR (Predictive Coding) — ключевая AI-задача в e-Discovery. Система обучается на небольшой выборке, размеченной юристами, и предсказывает релевантность для остального корпуса:
class DocumentRelevance(BaseModel):
document_id: str
relevance_score: float # 0-1
is_privileged: bool # attorney-client privilege
is_responsive: bool # отвечает ли на запрос о раскрытии
key_topics: list[str]
custodians: list[str] # кто участвует в переписке
date: date | None
def predict_relevance(
document: str,
seed_set: list[tuple[str, bool]] # (doc, is_relevant) для обучения
) -> DocumentRelevance:
# Active Learning: выбираем наиболее информативные документы для разметки
...
Обнаружение привилегированных документов
Attorney-client privilege (адвокатская тайна) — документы, освобождённые от раскрытия. AI выявляет:
- Коммуникации с внешними юристами (по домену email)
- Запросы юридической консультации
- Документы с пометкой Confidential/Privileged
- Рабочий продукт юриста
False negative критичен: пропустить привилегированный документ → серьёзное нарушение.
Данные и форматы
Типовые источники: Outlook/Exchange (PST), Gmail (mbox), Slack/Teams (JSON API), SharePoint (CSOM), файловые серверы. Конвертация в единый формат: Relativity RSMF или кастомный pipeline через Apache Tika.
Масштаб: enterprise e-Discovery — миллионы документов. FAISS ANN-индекс обеспечивает поиск по миллионам векторов за < 100ms.







