Реализация автоматического сопоставления (маппинга) товаров с каталогом поставщика
Поставщик присылает прайс с 50 000 позиций. У каждой — артикул, название и категория в системе поставщика. Нужно понять: какие из них уже есть в каталоге сайта, какие нужно создать, а какие — это дубли под другим артикулом. Это задача сопоставления (маппинга), и решается она комбинацией детерминированных правил и нечёткого поиска.
Уровни сопоставления
Маппинг работает послойно — от точного к приблизительному:
- Точное совпадение артикула — самый надёжный способ
- Совпадение EAN/штрихкода — если поставщик его даёт
- Совпадение по нормализованному названию — после очистки от лишних символов
- Нечёткое совпадение (fuzzy) — Jaro-Winkler или Levenshtein
- Ручное сопоставление — для всего, что не нашлось автоматически
class ProductMatcher
{
/** @return MatchResult */
public function match(SupplierProduct $sp): MatchResult
{
// Уровень 1: точный артикул
if ($p = Product::where('sku', $sp->article)->first()) {
return MatchResult::exact($p->id, 'sku');
}
// Уровень 2: EAN
if ($sp->ean && $p = Product::where('ean', $sp->ean)->first()) {
return MatchResult::exact($p->id, 'ean');
}
// Уровень 3: нормализованное название
$normalized = $this->normalize($sp->name);
if ($p = Product::where('name_normalized', $normalized)->first()) {
return MatchResult::exact($p->id, 'name_normalized');
}
// Уровень 4: fuzzy
$candidate = $this->fuzzySearch($normalized);
if ($candidate && $candidate->score >= 0.88) {
return MatchResult::fuzzy($candidate->id, $candidate->score);
}
return MatchResult::unmatched();
}
}
Нормализация названий
Перед сравнением нужно привести строки к единому виду:
private function normalize(string $name): string
{
$name = mb_strtolower($name);
$name = preg_replace('/[\s\-\_\/]+/', ' ', $name); // пробелы
$name = preg_replace('/[^\p{L}\p{N}\s]/u', '', $name); // спецсимволы
$name = preg_replace('/\b(арт|art|код|ref|no)\b\.?\s*/iu', '', $name); // служебные слова
return trim($name);
}
Нормализованное значение хранится в отдельном индексируемом поле name_normalized — не вычислять при каждом сопоставлении.
Нечёткий поиск через PostgreSQL
Для fuzzy-поиска в PostgreSQL подключаем расширение pg_trgm:
CREATE EXTENSION IF NOT EXISTS pg_trgm;
CREATE INDEX products_name_trgm_idx ON products USING gin (name_normalized gin_trgm_ops);
Запрос на поиск похожих:
SELECT id, name_normalized,
similarity(name_normalized, :query) AS score
FROM products
WHERE similarity(name_normalized, :query) > 0.7
ORDER BY score DESC
LIMIT 5;
В PHP через Eloquent:
private function fuzzySearch(string $query): ?object
{
return DB::selectOne(
"SELECT id, similarity(name_normalized, ?) AS score
FROM products
WHERE similarity(name_normalized, ?) > 0.7
ORDER BY score DESC
LIMIT 1",
[$query, $query]
);
}
Хранение маппинга
CREATE TABLE supplier_product_mapping (
id serial PRIMARY KEY,
supplier_id int NOT NULL,
supplier_sku varchar(100) NOT NULL,
product_id int REFERENCES products(id),
match_type varchar(20), -- exact_sku | exact_ean | fuzzy | manual | new
match_score float, -- для fuzzy
confirmed boolean DEFAULT false,
confirmed_by int, -- user_id
confirmed_at timestamptz,
created_at timestamptz DEFAULT now(),
UNIQUE (supplier_id, supplier_sku)
);
Подтверждённые маппинги (confirmed = true) используются напрямую. Неподтверждённые fuzzy-маппинги требуют ревью оператора.
Workflow обработки несопоставленных позиций
MatchResult::unmatched()
└─> проверить: похожий товар есть, но score < 0.88?
├─> YES → создать запись mapping (confirmed=false) + уведомить оператора
└─> NO → создать новый товар-черновик (status=draft) или пропустить
Оператор в admin-интерфейсе видит список confirmed=false с предложенными кандидатами и кнопками «Принять» / «Отклонить» / «Найти другой».
Маппинг категорий поставщика
Поставщик использует свои категории — нужно сопоставить с деревом категорий сайта:
CREATE TABLE supplier_category_mapping (
supplier_id int,
supplier_category varchar(200),
site_category_id int REFERENCES categories(id),
created_at timestamptz DEFAULT now(),
PRIMARY KEY (supplier_id, supplier_category)
);
После первичного ручного маппинга категорий новые поступающие товары автоматически попадают в нужную категорию сайта.
Обнаружение дублей
Отдельная задача — найти позиции, которые у поставщика проходят под разными артикулами, но в реальности это один и тот же товар:
class DuplicateDetector
{
public function findDuplicatePairs(int $supplierId): array
{
// Ищем позиции с одинаковым EAN от одного поставщика
return DB::select(
"SELECT a.supplier_sku AS sku_a, b.supplier_sku AS sku_b, a.ean
FROM supplier_products a
JOIN supplier_products b ON a.ean = b.ean AND a.supplier_sku < b.supplier_sku
WHERE a.supplier_id = ? AND b.supplier_id = ?",
[$supplierId, $supplierId]
);
}
}
Производительность при большом каталоге
При 100 000+ позиций полный перебор с fuzzy — слишком медленно. Оптимизации:
- Сначала делать batch-запрос точных совпадений (один SQL с
IN (...)) - Fuzzy-поиск только для оставшихся несопоставленных
- Кэшировать
sku → product_idмаппинг в Redis перед началом обработки - Партиционировать обработку по чанкам через Queue
// Предварительная загрузка известных маппингов в память
$knownMappings = SupplierProductMapping::where([
'supplier_id' => $supplierId,
'confirmed' => true,
])->pluck('product_id', 'supplier_sku')->all();
// Дальше — O(1) lookup по артикулу
Сроки реализации
- Точное совпадение по SKU/EAN, хранение маппинга, новые черновики — 3 дня
- Нормализация + fuzzy через pg_trgm + очередь подтверждений — +2 дня
- Маппинг категорий, детектор дублей, admin UI для ревью — +2–3 дня







