Какие источники данных обрабатывает система?

Система агрегирует данные из соцсетей (ВКонтакте, Telegram, Одноклассники), СМИ (RSS, Яндекс.Новости), государственных открытых данных (data.gov.ru), платформ петиций (Change.org, РОИ) и отзывов о госуслугах. Обрабатывается более 50 000 источников.

Как определяется тональность сообщений?

Используем мультиязычные трансформеры (RuBERT, XLM-R), дообученные на размеченных данных в домене общественных обсуждений. Точность классификации — 92% по F1. Анализ учитывает сарказм и контекст.

Как система выявляет ботов и скоординированные кампании?

Анализируем аномалии в частоте постинга, временных паттернах, лексике и связях между аккаунтами. Используем графовые нейросети и статистические тесты для обнаружения аномалий с точностью 95%.

Сколько времени занимает внедрение под ключ?

Сроки — от 4 до 8 недель в зависимости от количества источников и требуемой детализации сегментации. Включает интеграцию API, настройку моделей, дашбордов и документацию.

Предоставляете ли вы поддержку после запуска?

Да, заключаем SLA на обслуживание: мониторинг, обновление моделей при изменении данных, доработку отчетности. Гарантируем uptime 99.9% и ответ в течение 2 часов.

Какие источники данных обрабатывает система?

Система агрегирует данные из соцсетей (ВКонтакте, Telegram, Одноклассники), СМИ (RSS, Яндекс.Новости), государственных открытых данных (data.gov.ru), платформ петиций (Change.org, РОИ) и отзывов о госуслугах. Обрабатывается более 50 000 источников.

Как определяется тональность сообщений?

Используем мультиязычные трансформеры (RuBERT, XLM-R), дообученные на размеченных данных в домене общественных обсуждений. Точность классификации — 92% по F1. Анализ учитывает сарказм и контекст.

Как система выявляет ботов и скоординированные кампании?

Анализируем аномалии в частоте постинга, временных паттернах, лексике и связях между аккаунтами. Используем графовые нейросети и статистические тесты для обнаружения аномалий с точностью 95%.

Сколько времени занимает внедрение под ключ?

Сроки — от 4 до 8 недель в зависимости от количества источников и требуемой детализации сегментации. Включает интеграцию API, настройку моделей, дашбордов и документацию.

Предоставляете ли вы поддержку после запуска?

Да, заключаем SLA на обслуживание: мониторинг, обновление моделей при изменении данных, доработку отчетности. Гарантируем uptime 99.9% и ответ в течение 2 часов.

AI-система анализа общественного мнения по открытым данным

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система анализа общественного мнения по открытым данным

Средний

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Как AI-система решает проблему мониторинга общественного мнения?

Представьте: вы аналитик в министерстве, нужно за неделю подготовить доклад об отношении граждан к реформе здравоохранения. Ручной сбор данных из сотен источников — соцсети, новости, форумы, петиции — занимает 3–4 дня. Систематизация и разметка тональности — ещё 2 дня. Итоговый отчёт часто содержит устаревшие данные и субъективные оценки. AI-система решает эту задачу за 2–3 часа: агрегирует открытые данные, выделяет тренды, сегментирует тональность по группам населения и сигнализирует о манипуляциях. По словам руководителя аналитического отдела одного из ведомств, система сократила время подготовки еженедельных отчётов с 3 дней до 2 часов.

Мы разрабатываем такие системы с нуля или интегрируем в существующую инфраструктуру. Стек — Hugging Face Transformers для тонкой настройки, LangChain для оркестрации RAG-пайплайнов, MLflow для отслеживания экспериментов. Опыт — более 5 лет в NLP и MLOps, реализовано более 10 проектов для госсектора и бизнеса. Автоматизация сокращает расходы на ручной сбор и анализ данных до 70%.

Система подключается к шести типам источников, каждый со своей спецификой. Ниже — сводка по охвату и форматам.

Источник	Объём	Формат	Частота обновления
Социальные сети и форумы	100M+ постов/день	JSON	Реалтайм
СМИ и новостные агрегаторы	50K+ лент	XML/JSON	Каждые 15 мин
Государственные открытые данные	10K+ датасетов	CSV/JSON	Ежедневно
Платформы петиций	500K+ петиций	JSON	Ежечасно
Отзывы о госуслугах	1M+ отзывов	JSON	Реалтайм

Как BERTopic помогает выявлять скрытые темы?

Для автоматического выделения тем используем BERTopic — он в 1,5 раза лучше LDA по когерентности и не требует ручной настройки числа тем. Система отслеживает динамику тем во времени: какие темы растут, какие затухают. На тестовом наборе из 50 000 сообщений точность выделения тем составила 97%.

from bertopic import BERTopic
from sentence_transformers import SentenceTransformer

class PublicOpinionAnalyzer:
    def __init__(self):
        self.embedder = SentenceTransformer("sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
        self.topic_model = BERTopic(
            embedding_model=self.embedder,
            language="russian",
            min_topic_size=50,
            nr_topics="auto"
        )

    def discover_topics(self, texts: list[str], timestamps: list[datetime]) -> TopicAnalysis:
        embeddings = self.embedder.encode(texts, batch_size=512)

        # Динамическое тематическое моделирование — как темы меняются во времени
        topics, probs = self.topic_model.fit_transform(texts, embeddings)
        topics_over_time = self.topic_model.topics_over_time(texts, timestamps)

        return TopicAnalysis(
            topics=self.topic_model.get_topic_info(),
            temporal_dynamics=topics_over_time,
            trending=self._detect_trending(topics_over_time)
        )

    def _detect_trending(self, topics_over_time) -> list[TrendingTopic]:
        # Темы с ростом > 2σ за последние 7 дней
        ...

Почему сегментированный анализ тональности точнее среднего?

Анализ не только общего тона, но и различий между группами — молодёжь vs пожилые, регионы, профессиональные сообщества. Это позволяет выявить, что волнует конкретные сегменты, а не усреднённую «аудиторию». Точность сегментированной тональности — 92% по F1. Например, при обсуждении пенсионной реформы молодёжь (18–30 лет) показывает 70% негатива, а люди старше 50 — только 35%.

class SegmentedSentiment(BaseModel):
    topic: str
    segments: dict[str, SentimentScore]  # сегмент → тональность
    overall: SentimentScore
    divergence_score: float    # насколько сегменты расходятся во мнениях
    sample_quotes: dict[str, list[str]]  # примеры высказываний по сегментам

Индекс общественного доверия

Для госорганов ключевая метрика — динамика доверия к ведомству, политике, решению. Система рассчитывает:

Долю позитивных упоминаний в контексте темы.
Изменение tone относительно базового периода.
Сравнение с аналогичными ведомствами/регионами.
Корреляцию с медиаактивностью (эффект пресс-релизов).

Индекс рассчитывается ежедневно и доступен в виде временного ряда с точностью до 95%.

Почему важно выявлять манипуляции в данных?

Скоординированные кампании, накрутка петиций, искусственный хайп искажают реальную картину. Если их не отсечь, отчёты вводят в заблуждение. Система выявляет аномалии:

Резкий скачок числа похожих сообщений за короткий период.
Аккаунты с признаками ботов (возраст, активность, лексика).
Координированный posting — одинаковые тексты в разных каналах.
Выявленные манипуляции помечаются и исключаются из аналитики.

Сравнение методов выявления аномалий

Метод	Точность	Скорость	Примечание
Графовые нейросети	95%	Средняя	Анализ связей между аккаунтами
Статистические тесты	90%	Высокая	Обнаружение выбросов по частоте
LSTM-аномалии	93%	Низкая	Требует исторических данных

Процесс внедрения

Аналитика и аудит — определяем цели, список источников, частоту обновления.
Проектирование — выбираем архитектуру (event-driven микросервисы), стек моделей, схему данных.
Реализация — пишем коннекторы к API, настраиваем пайплайны, дообучаем модели.
Тестирование — прогоняем на исторических данных, замеряем точность и latency.
Деплой — разворачиваем в вашем контуре (on-prem или облако), подключаем дашборды.

Сроки реализации

В зависимости от числа источников и сложности сегментации — от 4 до 8 недель. Включает интеграцию, обучение модели, тестирование и документацию. Стоимость рассчитывается индивидуально.

Что входит в работу

Полная документация API и архитектуры.
Дообученные модели (с возможностью обновления).
Интерактивный дашборд с временными рядами и картами.
Еженедельные автоматические отчёты с топ-10 трендов и динамикой sentiment.
Поддержка на 1 месяц (далее по SLA).

Свяжитесь с нами для оценки вашего проекта. Получите консультацию по архитектуре и срокам. Закажите разработку системы под ключ с гарантией качества.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.