AI-система автоматизации ESG-отчётности
CSRD обязывает 50 000+ компаний ЕС публиковать отчёты по ESRS (European Sustainability Reporting Standards) с 2024–2026 годов. Объём раскрытий вырос в 3–5 раз по сравнению с добровольными стандартами GRI. Команда из 3 sustainability-специалистов физически не справляется с ежеквартальным сбором данных, верификацией и генерацией нарративов для 200-страничного отчёта.
LLM-pipeline для генерации нарративов
Архитектура: данные → текст без галлюцинаций
Главный риск LLM в ESG-отчётности — hallucinated numbers. Регулятор и аудитор требуют верифицируемость каждой цифры. Решение: RAG-архитектура с жёсткой citation policy.
ESG Data Warehouse (Snowflake)
↓
dbt mart: предрассчитанные disclosure metrics
↓
Vector store (pgvector): описания ESRS требований
↓
LLM (GPT-4o / Claude 3.5 Sonnet)
↓
Нарратив с inline citations [data_point_id]
↓
Верификационный слой: каждая цифра → lookup в БД
Если LLM включает число, которого нет в retrieval context — верификационный слой выбрасывает исключение, не публикует абзац. На практике: 94% нарративных абзацев генерируются корректно без ручной правки по данным тестирования на исторических отчётах.
Маппинг данных на стандарты
ESRS, GRI, TCFD, SASB — разные стандарты требуют одни и те же данные в разных форматах и контекстах. ML-компонент: fine-tuned text classifier (BERT) определяет, к каким disclosure requirements относится каждый data point. Один показатель (например, energy consumption by source) автоматически маппится на ESRS E1-4, GRI 302-1, SASB energy metric — без ручного cross-referencing.
Double Materiality Assessment
CSRD требует оценки: (1) как ESG-факторы влияют на финансы компании (financial materiality), (2) как компания влияет на общество и природу (impact materiality). Это матрица 40–80 тем.
Автоматизация stakeholder survey
Опрос стейкхолдеров — обязательный элемент DMA. NLP-пайплайн:
- Сбор ответов через survey platform (SurveyMonkey, Typeform)
- Topic modeling (BERTopic) по открытым ответам → кластеры ESG-тем
- Sentiment analysis по каждой теме
- Автоматическая ранжировка тем по frequency + intensity score
На кейсе производственной компании: обработка 450 анкет с открытыми ответами заняла 2 часа vs. 3 недели вручную. Идентифицировано 23 темы, ранжированных по materiality score.
Industry benchmarking
Peer comparison: scraping публичных ESG-отчётов конкурентов + LLM extraction ключевых KPI → сравнительные таблицы. Позволяет определить, какие темы отраслевые игроки считают material, для калибровки собственной оценки.
Автоматизация сбора данных
Supplier data collection
CSRD Scope 3 требует данных от поставщиков. Email-агент на базе LLM формирует персонализированные запросы данных, отслеживает ответы, отправляет напоминания, парсит ответные письма и документы. Response rate вырастает с 23% (manual) до 41% (AI-assisted follow-up) на пилоте 120 поставщиков.
Внутренняя отчётность
Интеграция с ERP (SAP, Oracle): автоматический pull энергетических данных, данных отходов, HSE (Health, Safety, Environment) инцидентов. HRIS (Workday, SAP SuccessFactors): gender pay gap, training hours, diversity metrics — без ручного экспорта.
Верификация и аудит
External assurance (limited/reasonable) требует audit trail для каждой цифры. Система хранит provenance: data_point → source_system → raw_record_id → transformation_logic. Аудитор получает drill-down ссылки из отчёта до исходного счётчика или документа.
Automated consistency checks: перекрёстная проверка данных между разделами отчёта (Scope 1 в environmental section должен совпадать с Scope 1 в risk section), year-over-year variance alerts (>30% изменение без объяснения = флаг для проверки).
Стек и выходные форматы
Хранение: Snowflake + dbt. LLM: GPT-4o через Azure OpenAI, Claude 3.5 Sonnet через Anthropic API. Vector store: pgvector (PostgreSQL) или Weaviate. Генерация PDF: WeasyPrint или Puppeteer. Вывод: XBRL/iXBRL для регуляторной подачи (ESEF формат для ESRS).
Срок разработки: 4–8 месяцев для полного pipeline от data ingestion до генерации отчёта. Базовый автосборщик данных без LLM нарративов: 2–3 месяца.







