Реализация автоматического сопоставления (маппинга) товаров с каталогом поставщика

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Реализация автоматического сопоставления (маппинга) товаров с каталогом поставщика
Сложная
~5 рабочих дней
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    874
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    851

Реализация автоматического сопоставления (маппинга) товаров с каталогом поставщика

Поставщик присылает прайс с 50 000 позиций. У каждой — артикул, название и категория в системе поставщика. Нужно понять: какие из них уже есть в каталоге сайта, какие нужно создать, а какие — это дубли под другим артикулом. Это задача сопоставления (маппинга), и решается она комбинацией детерминированных правил и нечёткого поиска.

Уровни сопоставления

Маппинг работает послойно — от точного к приблизительному:

  1. Точное совпадение артикула — самый надёжный способ
  2. Совпадение EAN/штрихкода — если поставщик его даёт
  3. Совпадение по нормализованному названию — после очистки от лишних символов
  4. Нечёткое совпадение (fuzzy) — Jaro-Winkler или Levenshtein
  5. Ручное сопоставление — для всего, что не нашлось автоматически
class ProductMatcher
{
    /** @return MatchResult */
    public function match(SupplierProduct $sp): MatchResult
    {
        // Уровень 1: точный артикул
        if ($p = Product::where('sku', $sp->article)->first()) {
            return MatchResult::exact($p->id, 'sku');
        }

        // Уровень 2: EAN
        if ($sp->ean && $p = Product::where('ean', $sp->ean)->first()) {
            return MatchResult::exact($p->id, 'ean');
        }

        // Уровень 3: нормализованное название
        $normalized = $this->normalize($sp->name);
        if ($p = Product::where('name_normalized', $normalized)->first()) {
            return MatchResult::exact($p->id, 'name_normalized');
        }

        // Уровень 4: fuzzy
        $candidate = $this->fuzzySearch($normalized);
        if ($candidate && $candidate->score >= 0.88) {
            return MatchResult::fuzzy($candidate->id, $candidate->score);
        }

        return MatchResult::unmatched();
    }
}

Нормализация названий

Перед сравнением нужно привести строки к единому виду:

private function normalize(string $name): string
{
    $name = mb_strtolower($name);
    $name = preg_replace('/[\s\-\_\/]+/', ' ', $name);          // пробелы
    $name = preg_replace('/[^\p{L}\p{N}\s]/u', '', $name);      // спецсимволы
    $name = preg_replace('/\b(арт|art|код|ref|no)\b\.?\s*/iu', '', $name); // служебные слова
    return trim($name);
}

Нормализованное значение хранится в отдельном индексируемом поле name_normalized — не вычислять при каждом сопоставлении.

Нечёткий поиск через PostgreSQL

Для fuzzy-поиска в PostgreSQL подключаем расширение pg_trgm:

CREATE EXTENSION IF NOT EXISTS pg_trgm;
CREATE INDEX products_name_trgm_idx ON products USING gin (name_normalized gin_trgm_ops);

Запрос на поиск похожих:

SELECT id, name_normalized,
       similarity(name_normalized, :query) AS score
FROM products
WHERE similarity(name_normalized, :query) > 0.7
ORDER BY score DESC
LIMIT 5;

В PHP через Eloquent:

private function fuzzySearch(string $query): ?object
{
    return DB::selectOne(
        "SELECT id, similarity(name_normalized, ?) AS score
         FROM products
         WHERE similarity(name_normalized, ?) > 0.7
         ORDER BY score DESC
         LIMIT 1",
        [$query, $query]
    );
}

Хранение маппинга

CREATE TABLE supplier_product_mapping (
    id              serial PRIMARY KEY,
    supplier_id     int NOT NULL,
    supplier_sku    varchar(100) NOT NULL,
    product_id      int REFERENCES products(id),
    match_type      varchar(20),    -- exact_sku | exact_ean | fuzzy | manual | new
    match_score     float,          -- для fuzzy
    confirmed       boolean DEFAULT false,
    confirmed_by    int,            -- user_id
    confirmed_at    timestamptz,
    created_at      timestamptz DEFAULT now(),
    UNIQUE (supplier_id, supplier_sku)
);

Подтверждённые маппинги (confirmed = true) используются напрямую. Неподтверждённые fuzzy-маппинги требуют ревью оператора.

Workflow обработки несопоставленных позиций

MatchResult::unmatched()
  └─> проверить: похожий товар есть, но score < 0.88?
        ├─> YES → создать запись mapping (confirmed=false) + уведомить оператора
        └─> NO  → создать новый товар-черновик (status=draft) или пропустить

Оператор в admin-интерфейсе видит список confirmed=false с предложенными кандидатами и кнопками «Принять» / «Отклонить» / «Найти другой».

Маппинг категорий поставщика

Поставщик использует свои категории — нужно сопоставить с деревом категорий сайта:

CREATE TABLE supplier_category_mapping (
    supplier_id          int,
    supplier_category    varchar(200),
    site_category_id     int REFERENCES categories(id),
    created_at           timestamptz DEFAULT now(),
    PRIMARY KEY (supplier_id, supplier_category)
);

После первичного ручного маппинга категорий новые поступающие товары автоматически попадают в нужную категорию сайта.

Обнаружение дублей

Отдельная задача — найти позиции, которые у поставщика проходят под разными артикулами, но в реальности это один и тот же товар:

class DuplicateDetector
{
    public function findDuplicatePairs(int $supplierId): array
    {
        // Ищем позиции с одинаковым EAN от одного поставщика
        return DB::select(
            "SELECT a.supplier_sku AS sku_a, b.supplier_sku AS sku_b, a.ean
             FROM supplier_products a
             JOIN supplier_products b ON a.ean = b.ean AND a.supplier_sku < b.supplier_sku
             WHERE a.supplier_id = ? AND b.supplier_id = ?",
            [$supplierId, $supplierId]
        );
    }
}

Производительность при большом каталоге

При 100 000+ позиций полный перебор с fuzzy — слишком медленно. Оптимизации:

  • Сначала делать batch-запрос точных совпадений (один SQL с IN (...))
  • Fuzzy-поиск только для оставшихся несопоставленных
  • Кэшировать sku → product_id маппинг в Redis перед началом обработки
  • Партиционировать обработку по чанкам через Queue
// Предварительная загрузка известных маппингов в память
$knownMappings = SupplierProductMapping::where([
    'supplier_id' => $supplierId,
    'confirmed'   => true,
])->pluck('product_id', 'supplier_sku')->all();
// Дальше — O(1) lookup по артикулу

Сроки реализации

  • Точное совпадение по SKU/EAN, хранение маппинга, новые черновики — 3 дня
  • Нормализация + fuzzy через pg_trgm + очередь подтверждений — +2 дня
  • Маппинг категорий, детектор дублей, admin UI для ревью — +2–3 дня