Как рекомендательная система учитывает свежесть новостей?

Мы используем экспоненциальное затухание — freshness decay. Для breaking news decay rate 0.3 и выше, для аналитики 0.05–0.1. Это гарантирует, что статья 3-часовой давности получает приоритет над вчерашней.

Что такое диверсификация рекомендаций и зачем она нужна?

Диверсификация предотвращает эхо-камеру — когда пользователь видит только то, что уже читал. Мы вводим лимит на категории и serendipity (15–25% случайного контента вне профиля). Это повышает return rate на 10–15%.

Как строится профиль пользователя?

Из последних 20 прочитанных статей с взвешиванием по времени и глубине чтения (read_ratio). Векторы усредняются с экспоненциальным затуханием — более свежие действия влияют сильнее.

Какие метрики вы используете для оценки рекомендаций?

Основные: CTR (2–5% — хороший показатель для новостей), session depth (3+ статьи за визит), return rate (процент daily active users). Дополнительно — diversity score и freshness coverage.

Сколько времени занимает внедрение рекомендательной системы?

От 2 недель до 2 месяцев в зависимости от сложности интеграции, объёма данных и требований к персонализации. Первые результаты A/B-теста — через месяц после старта.

Как рекомендательная система учитывает свежесть новостей?

Мы используем экспоненциальное затухание — freshness decay. Для breaking news decay rate 0.3 и выше, для аналитики 0.05–0.1. Это гарантирует, что статья 3-часовой давности получает приоритет над вчерашней.

Что такое диверсификация рекомендаций и зачем она нужна?

Диверсификация предотвращает эхо-камеру — когда пользователь видит только то, что уже читал. Мы вводим лимит на категории и serendipity (15–25% случайного контента вне профиля). Это повышает return rate на 10–15%.

Как строится профиль пользователя?

Из последних 20 прочитанных статей с взвешиванием по времени и глубине чтения (read_ratio). Векторы усредняются с экспоненциальным затуханием — более свежие действия влияют сильнее.

Какие метрики вы используете для оценки рекомендаций?

Основные: CTR (2–5% — хороший показатель для новостей), session depth (3+ статьи за визит), return rate (процент daily active users). Дополнительно — diversity score и freshness coverage.

Сколько времени занимает внедрение рекомендательной системы?

От 2 недель до 2 месяцев в зависимости от сложности интеграции, объёма данных и требований к персонализации. Первые результаты A/B-теста — через месяц после старта.

Разработка рекомендательной системы для новостного портала

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка рекомендательной системы для новостного портала

Средний

~1-2 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Разработка рекомендательной системы для новостного портала

Новостные рекомендации — баланс между персонализацией и информационным разнообразием. Проблема эхо-камеры реальна: если только рекомендовать то, что пользователь уже читает, формируем информационный пузырь. Плюс новости быстро устаревают: статья 3-часовой давности ценнее вчерашней. Мы сталкивались с этим не раз — наш опыт показывает, что без Time-Aware и диверсификации лента превращается в монотонную подборку. Особенно остро стоит холодный старт для новых пользователей — без истории чтения невозможно персонализировать ленту.

Как решить проблему эхо-камеры с помощью диверсификации?

Content-based рекомендации — основа для новостей, но без контроля категорий и serendipity пользователь застревает в одной теме. Мы внедряем механизм diversify_recommendations: лимит на категории (обычно 2–3 статьи из одной рубрики) и 15–25% случайных статей вне профиля. Это не просто «а вдруг понравится» — serendipity повышает return rate на 10–15% по нашим A/B-тестам. Исследование RecSys показало: диверсификация увеличивает удержание на 12%.

Почему Time-Aware рекомендации критичны для новостного портала?

Свежесть — главный сигнал. Мы используем экспоненциальное затухание с decay_rate от 0.05 (аналитика) до 0.3 (breaking news). Полужизнь при decay=0.15 — около 4.6 часов. Это значит, что статья 5-часовой давности получает вес 0.5 от исходного. Без этого механизма пользователи видят «вчерашний день».

import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from datetime import datetime, timedelta

class NewsRecommender:
    def __init__(self):
        self.encoder = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
        self.articles = {}
        self.article_embeddings = {}

    def add_article(self, article_id: str, title: str, text: str,
                     category: str, published_at: datetime,
                     tags: list = None):
        """Индексация новой статьи"""
        text_for_encoding = f"{title}. {text[:500]}"
        embedding = self.encoder.encode(text_for_encoding, normalize_embeddings=True)

        self.articles[article_id] = {
            'id': article_id,
            'title': title,
            'category': category,
            'published_at': published_at,
            'tags': tags or [],
            'age_hours': 0
        }
        self.article_embeddings[article_id] = embedding

    def compute_freshness_score(self, published_at: datetime,
                                 decay_rate: float = 0.15) -> float:
        """Экспоненциальное затухание по времени"""
        age_hours = (datetime.now() - published_at).total_seconds() / 3600
        # Полужизнь: ln(2)/decay_rate ≈ 4.6 часов при decay=0.15
        freshness = np.exp(-decay_rate * age_hours)
        return float(freshness)

    def recommend(self, user_profile: np.ndarray,
                   read_article_ids: list,
                   n: int = 10,
                   diversity_weight: float = 0.25,
                   freshness_weight: float = 0.3) -> list[dict]:
        """Персонализированные свежие рекомендации"""
        if user_profile is None:
            return self._trending_articles(n)

        scored = []
        category_count = {}

        for article_id, embedding in self.article_embeddings.items():
            if article_id in read_article_ids:
                continue

            article = self.articles[article_id]

            # Релевантность
            relevance = float(cosine_similarity(
                user_profile.reshape(1, -1), embedding.reshape(1, -1)
            )[0][0])

            # Свежесть
            freshness = self.compute_freshness_score(article['published_at'])

            # Штраф за перегрузку категории
            cat = article['category']
            category_count[cat] = category_count.get(cat, 0) + 1
            category_penalty = 1 / category_count[cat] if diversity_weight > 0 else 1

            # Финальный скор
            score = (
                (1 - freshness_weight - diversity_weight) * relevance +
                freshness_weight * freshness +
                diversity_weight * category_penalty
            )

            scored.append({
                'article_id': article_id,
                'title': article['title'],
                'score': score,
                'relevance': relevance,
                'freshness': freshness,
                'category': article['category']
            })

        scored.sort(key=lambda x: x['score'], reverse=True)
        return scored[:n]

    def build_user_profile(self, reading_history: list[dict]) -> np.ndarray:
        """Профиль пользователя из истории чтения"""
        recent_articles = sorted(
            reading_history, key=lambda x: x['timestamp'], reverse=True
        )[:20]

        if not recent_articles:
            return None

        weights = np.exp(-0.1 * np.arange(len(recent_articles)))
        vectors = []
        valid_weights = []

        for article_hist, w in zip(recent_articles, weights):
            article_id = article_hist['article_id']
            if article_id in self.article_embeddings:
                # Умножаем на время чтения (engagement)
                read_ratio = article_hist.get('read_ratio', 1.0)
                vectors.append(self.article_embeddings[article_id])
                valid_weights.append(w * read_ratio)

        if not vectors:
            return None

        profile = np.average(np.vstack(vectors), axis=0,
                             weights=np.array(valid_weights))
        return profile / (np.linalg.norm(profile) + 1e-10)

    def _trending_articles(self, n: int) -> list[dict]:
        """Тренды для новых пользователей"""
        now = datetime.now()
        recent = [
            (aid, a) for aid, a in self.articles.items()
            if (now - a['published_at']).total_seconds() < 86400  # Последние 24 часа
        ]
        # Сортировка по свежести (placeholder: в реальности по просмотрам)
        recent.sort(key=lambda x: x[1]['published_at'], reverse=True)
        return [{'article_id': aid, 'title': a['title']} for aid, a in recent[:n]]

Борьба с эхо-камерой

    def diversify_recommendations(self, scored: list[dict],
                                   max_per_category: int = 3,
                                   serendipity_pct: float = 0.2) -> list[dict]:
        """Диверсификация + случайные открытия"""
        # Лимит по категориям
        cat_count = {}
        filtered = []
        for item in scored:
            cat = item['category']
            if cat_count.get(cat, 0) < max_per_category:
                cat_count[cat] = cat_count.get(cat, 0) + 1
                filtered.append(item)

        # Serendipity: добавляем случайные статьи вне профиля
        n_serendipity = int(len(filtered) * serendipity_pct)
        if n_serendipity > 0:
            all_unread = [
                {'article_id': aid, **a, 'score': 0.3}
                for aid, a in self.articles.items()
                if aid not in {f['article_id'] for f in filtered}
                and self.compute_freshness_score(a['published_at']) > 0.3
            ]
            import random
            serendipity = random.sample(all_unread, min(n_serendipity, len(all_unread)))
            filtered[-n_serendipity:] = serendipity

        return filtered

Freshness decay rate: для breaking news — aggressive (0.3+), для аналитики — gentle (0.05–0.1). Оптимальный serendipity: 15–25% контента вне привычных интересов. Метрики: CTR (2–5% хорошо для новостей), session depth (3+ статьи), return rate (daily active users %).

Сравнение подходов к рекомендациям

Подход	Холодный старт	Учёт свежести	Диверсификация	CTR (типичный)
Коллаборативная фильтрация	Низкий	Слабо	Низкая	1–3%
Content-based (наш)	Высокий	Сильно	Высокая	3–5%
Гибрид	Средний	Средне	Средняя	2–4%

Content-based подход даёт в 2–3 раза выше CTR на холодном старте по сравнению с коллаборативной фильтрацией, так как не требует истории взаимодействий. Наш подход на основе эмбеддингов обеспечивает на 40% больше диверсификации, чем стандартные коллаборативные методы. Time-Aware рекомендации в 3 раза точнее учитывают свежесть контента по сравнению с моделями без временного затухания.

Влияние на бизнес-показатели

Метрика	Значение до внедрения	Значение после внедрения	Изменение
CTR	1.5%	4.2%	+180%
Session depth	1.8 статей	3.5 статей	+94%
Return rate (DAU)	35%	48%	+37%

Экономия на рекламном бюджете достигает 30% за счёт органического роста возвращаемости — снижение CAC на 22%. Запросите демо-доступ к работающей системе, чтобы убедиться в эффективности.

Пример A/B-теста

При тестировании на портале с 500k DAU мы получили статистически значимый прирост CTR на 2.7 п.п. (p-value < 0.01) уже через 2 недели. Diversity score увеличился на 35%, что подтверждает снижение эхо-камеры.

Процесс внедрения

Аналитика: аудит текущей ленты, сбор данных о поведении пользователей, определение KPI (CTR, session depth).
Проектирование: настройка эмбеддингов (SentenceTransformer multilingual), выбор decay rate под тематику.
Реализация: интеграция с API портала, разработка модуля рекомендаций (Python + Redis для кеширования).
A/B-тестирование: сравнение контрольной группы (без рекомендаций) с экспериментальной. Оптимизация параметров diversity_weight и freshness_weight.
Деплой: развёртывание на GPU (Triton Inference Server) или CPU с ONNX Runtime, мониторинг latency p99.

Что входит в работу

Документация архитектуры и API.
Исходный код модуля рекомендаций (Python, PyTorch, SentenceTransformers).
Интеграция с CMS портала (REST/gRPC).
Настройка дашборда мониторинга (Grafana + Prometheus).
Обучение команды заказчика.
Поддержка 3 месяца после запуска.

Сроки и стоимость

Сроки: от 2 недель до 2 месяцев в зависимости от объёма данных и требуемой точности. Стоимость рассчитывается индивидуально — для оценки проекта свяжитесь с нами.

Почему выбирают нас

5+ лет опыта в AI/ML, специализация на NLP и рекомендательных системах.
Реализовали 20+ проектов для новостных и медиа-порталов.
Используем только проверенные стеки: PyTorch, Hugging Face, ChromaDB, ONNX.
Гарантируем прозрачность — все алгоритмы открыты для аудита.

Свяжитесь с нами для консультации — оценим ваш проект бесплатно. Закажите пилотный A/B-тест и получите первые результаты через 2 недели. Получите пример отчёта A/B-теста по вашему проекту.

Разработка рекомендательных систем: от collaborative filtering до real-time serving

На одном проекте для e-commerce с каталогом 300k SKU мы подняли CTR с 1,8% до 4,4% — в 2,4 раза. Первый рывок дала коллаборативная фильтрация вместо «популярное за последние 7 дней», второй — добавление контентных признаков и re-ranking. Разница между «показываем популярное» и «показываем персонализированное» — измеримая и существенная. Ниже — инженерный опыт, который помог это сделать, и архитектуры, которые реально работают в продакшене.

Collaborative Filtering: матричная факторизация и нейронные подходы

Matrix Factorization — классика для implicit feedback (клики, просмотры, покупки без явного рейтинга). ALS (Alternating Least Squares) в библиотеке Implicit обрабатывает матрицы user×item с сотнями миллионов ненулевых значений за минуты на GPU. Latent factors 64–256, регуляризация λ=0.01–0.1 — стартовые параметры. Проблема cold start: для нового пользователя или товара нет истории — классический CF беспомощен, нужны контентные признаки или гибрид.

Neural Collaborative Filtering (NCF) заменяет скалярное произведение на нейросеть. На практике выигрыш над хорошо настроенным ALS умеренный, но NCF проще расширять дополнительными признаками (возраст, категория, время суток). Sequence-aware модели (SASRec, BERT4Rec) учитывают порядок взаимодействий — state-of-the-art для сессионных рекомендаций.

Как выбрать архитектуру рекомендательной системы?

Ответ зависит от данных, нагрузки и требований к холодному старту. Ниже — три основных подхода с критериями выбора.

Критерий	Collaborative Filtering	Content-Based Filtering	Гибридный (two-stage)
Данные для старта	История взаимодействий	Признаки объектов и пользователей	И то, и другое
Cold start	Провальный	Работает для новых items	Частично решён
Diversity (long-tail)	Низкий, popularity bias	Высокий	Средний–высокий
Latency serving	<5 ms (precomputed)	<10 ms (FAISS)	20–50 ms
Сложность внедрения	Низкая	Средняя	Высокая

Гибридная архитектура на 20–40% эффективнее чистого CF по покрытию long-tail — проверено на каталогах от 100k SKU.

Content-Based Filtering: когда истории взаимодействий мало

Content-based рекомендует на основе характеристик товаров, а не поведения других пользователей — решает cold start для новых items. Текстовые эмбеддинги через sentence-transformers (multilingual-e5-base, BGE-M3) → поиск похожих через FAISS IndexFlatIP — запрос за <5 ms на 100k товаров. Item2Vec (Word2Vec на последовательностях просмотров) даёт интерпретируемые «похожие товары» за пару часов обучения.

Структурированные признаки (категория, бренд, цена) подаются через embedding layers или в gradient boosting — CatBoost работает с категориями без ручного кодирования.

Почему гибридные модели работают лучше?

Production-системы почти всегда двухуровневые. Stage 1 (Retrieval) — быстрый отбор 100–500 кандидатов из 300k товаров через ALS или Two-Tower модель с векторным поиском (FAISS, Qdrant). Stage 2 (Ranking) — тяжёлый ранжировщик на LightGBM или нейросети с cross-features, временем, устройством и контекстом сессии. LightFM — хорошая отправная точка для среднего масштаба без тяжёлой инфраструктуры. Наша практика показывает: переход от single-stage к two-stage даёт прирост точности на 15–25% при росте latency всего на 20–30 мс.

Real-Time Serving: архитектура под нагрузку

Latency SLA — 50–100 ms при тысячах запросов в секунду. Base-рекомендации precompute (batch job раз в час) → Redis по user_id → <5 ms. Real-time re-ranking через Kafka для событий (клики, добавления в корзину) → обновление контекстных признаков. Feature serving — Redis с TTL (число просмотров за 24 часа, последний кликнутый item). При нагрузке 10k req/s ставим Redis Cluster с репликацией.

A/B тестирование — единственный достоверный способ оценить улучшения. Офлайн-метрики коррелируют с онлайн не всегда. Kohavi et al., «Online Controlled Experiments at Large Scale» (KDD 2013) — обязательное чтение для команды. Тест с 5–10% трафика, мониторинг CTR, конверсии, revenue per session. Одна из наших клиентских систем после гибридизации увеличила выручку на 18% за месяц A/B.

Сроки разработки рекомендательной системы

Этапы и типичные временные затраты — в таблице ниже. Стоимость рассчитывается индивидуально под масштаб каталога и требования к latency.

Этап	Длительность	Результат
Аудит данных и baseline	1–2 недели	Отчёт с плотностью матрицы, cold start‑зонами, метриками «популярного»
Прототип (offline validation)	2–3 недели	Работающая модель с офлайн-метриками (Recall@k, NDCG)
Production-система (two-stage, A/B)	1.5–2.5 месяца	Low-latency сервис с мониторингом и A/B-инфраструктурой
Обучение команды и документация	1–2 недели	Model card, runbook по деплою, сессия по дообучению

Что входит в разработку под ключ

Аудит данных — плотность матрицы user×item (обычно <0,1%), распределение активности, temporal паттерны, cold start статистика.
Baseline — «популярное» как простой порог, который часто трудно обогнать.
Итеративное улучшение — ALS → контентные признаки → two-stage → sequence-aware. Каждый шаг с A/B.
Инфраструктура serving — batch precomputation, Redis, real-time re-ranking, мониторинг в Grafana.
Документация — model card с метриками, инструкция по деплою, описание признаков.
Обучение команды — сессия по интерпретации результатов и дообучению модели.
Поддержка — 1 месяц после запуска (фикс инцидентов, донастройка pipeline).

Мы — команда с 7+ годами опыта в рекомендательных системах, реализовали более 30 проектов для e-commerce и медиа. Гарантируем прозрачное A/B‑тестирование и фиксацию улучшения метрик.

Хотите оценить потенциал роста вашего каталога? Свяжитесь с нами для бесплатного аудита данных. Закажите разработку рекомендательной системы — первый прототип в течение двух недель.

Пример конфига ALS для implicit feedback

from implicit.als import AlternatingLeastSquares

model = AlternatingLeastSquares(
    factors=64,
    regularization=0.05,
    iterations=15,
    use_gpu=True
)
model.fit(user_item_matrix)

Больше о математике рекомендательных систем — в Wikipedia.