Разработка бота-парсера описаний и характеристик товаров

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Разработка бота-парсера описаний и характеристик товаров
Средняя
~3-5 рабочих дней
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    874
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    851

Разработка бота-парсера описаний и характеристик товаров

Парсинг текстового контента товаров — это нормализация неструктурированных данных в единую схему. Каждый сайт хранит характеристики по-своему: одни в таблицах, другие в JSON-LD, третьи в microdata. Задача — извлечь данные независимо от структуры.

Что извлекается

  • Описания: краткое и полное, HTML-форматирование или plain text
  • Характеристики: пары ключ-значение из таблиц и списков
  • Мета-данные: бренд, страна производителя, гарантия
  • Структурированные данные: JSON-LD (Schema.org Product), microdata, OpenGraph

Многослойная стратегия извлечения

// app/Services/ContentScraper/ProductContentExtractor.php
use Symfony\Component\DomCrawler\Crawler;

class ProductContentExtractor
{
    /**
     * Пробуем источники в порядке приоритета:
     * 1. JSON-LD (самые надёжные, структурированные данные)
     * 2. Microdata (итем-аттрибуты)
     * 3. CSS-селекторы из конфига поставщика
     * 4. Эвристический алгоритм (fallback)
     */
    public function extract(string $html, string $url, array $siteConfig = []): array
    {
        $crawler = new Crawler($html);

        $data = $this->extractFromJsonLd($crawler)
            ?? $this->extractFromMicrodata($crawler)
            ?? $this->extractWithSelectors($crawler, $siteConfig)
            ?? $this->extractHeuristic($crawler);

        $data['specs'] = $this->extractSpecs($crawler, $siteConfig);
        $data['source_url'] = $url;

        return $data;
    }

    private function extractFromJsonLd(Crawler $crawler): ?array
    {
        $scripts = $crawler->filter('script[type="application/ld+json"]');

        foreach ($scripts as $script) {
            $json = json_decode($script->textContent, true);
            if (!$json) continue;

            // Обрабатываем @graph
            $items = isset($json['@graph']) ? $json['@graph'] : [$json];

            foreach ($items as $item) {
                $type = $item['@type'] ?? '';
                if (!in_array($type, ['Product', 'IndividualProduct'])) continue;

                return [
                    'name'        => $item['name'] ?? null,
                    'description' => strip_tags($item['description'] ?? ''),
                    'brand'       => $item['brand']['name'] ?? $item['brand'] ?? null,
                    'sku'         => $item['sku'] ?? $item['mpn'] ?? null,
                    'gtin'        => $item['gtin13'] ?? $item['gtin'] ?? null,
                ];
            }
        }

        return null;
    }

    private function extractFromMicrodata(Crawler $crawler): ?array
    {
        $product = $crawler->filter('[itemtype*="schema.org/Product"]');
        if (!$product->count()) return null;

        $get = fn(string $prop) => $product->filter("[itemprop=\"{$prop}\"]")->first()->count()
            ? trim($product->filter("[itemprop=\"{$prop}\"]")->first()->text(''))
            : null;

        return [
            'name'        => $get('name'),
            'description' => $get('description'),
            'brand'       => $get('brand'),
            'sku'         => $get('sku'),
        ];
    }

    private function extractWithSelectors(Crawler $crawler, array $config): ?array
    {
        if (empty($config['selectors'])) return null;

        $s = $config['selectors'];
        $get = fn(?string $sel) => $sel && $crawler->filter($sel)->count()
            ? trim($crawler->filter($sel)->first()->text(''))
            : null;

        $getHtml = fn(?string $sel) => $sel && $crawler->filter($sel)->count()
            ? $crawler->filter($sel)->first()->html('')
            : null;

        return array_filter([
            'name'        => $get($s['name'] ?? null),
            'description' => $getHtml($s['description'] ?? null),
            'brand'       => $get($s['brand'] ?? null),
            'sku'         => $get($s['sku'] ?? null),
        ]);
    }
}

Извлечение характеристик

private function extractSpecs(Crawler $crawler, array $config): array
{
    $specs = [];

    // Стратегия 1: таблица с двумя колонками
    $crawler->filter('table.specs tr, table.characteristics tr, .attributes-table tr')->each(
        function (Crawler $row) use (&$specs) {
            $cells = $row->filter('td, th');
            if ($cells->count() >= 2) {
                $key = trim($cells->first()->text());
                $val = trim($cells->eq(1)->text());
                if ($key && $val && $key !== $val) {
                    $specs[$key] = $val;
                }
            }
        }
    );

    // Стратегия 2: dl/dt/dd
    if (empty($specs)) {
        $crawler->filter('dl')->each(function (Crawler $dl) use (&$specs) {
            $keys = $dl->filter('dt')->each(fn(Crawler $n) => trim($n->text()));
            $vals = $dl->filter('dd')->each(fn(Crawler $n) => trim($n->text()));
            $specs = array_merge($specs, array_combine($keys, $vals));
        });
    }

    // Стратегия 3: CSS-селекторы из конфига
    if (empty($specs) && !empty($config['specs_selector'])) {
        $crawler->filter($config['specs_selector'])->each(
            function (Crawler $node) use (&$specs, $config) {
                $key = trim($node->filter($config['spec_key_selector'])->text(''));
                $val = trim($node->filter($config['spec_val_selector'])->text(''));
                if ($key && $val) $specs[$key] = $val;
            }
        );
    }

    return $specs;
}

Нормализация данных

Характеристики от разных поставщиков называются по-разному. Нормализатор приводит к единой схеме:

// app/Services/ContentScraper/SpecsNormalizer.php
class SpecsNormalizer
{
    // Словарь синонимов для нормализации ключей
    private array $synonyms = [
        'weight'  => ['Вес', 'Масса', 'Weight', 'Вес товара', 'Масса нетто'],
        'color'   => ['Цвет', 'Color', 'Цвет товара', 'Расцветка'],
        'brand'   => ['Бренд', 'Brand', 'Торговая марка', 'Производитель'],
        'country' => ['Страна', 'Country', 'Страна производства', 'Страна изготовления'],
        'material'=> ['Материал', 'Material', 'Состав'],
    ];

    public function normalize(array $rawSpecs): array
    {
        $normalized = [];

        foreach ($rawSpecs as $rawKey => $value) {
            $normalKey = $this->findNormalKey($rawKey) ?? $this->slug($rawKey);
            $normalized[$normalKey] = $this->normalizeValue($normalKey, $value);
        }

        return $normalized;
    }

    private function findNormalKey(string $rawKey): ?string
    {
        $lower = mb_strtolower(trim($rawKey));
        foreach ($this->synonyms as $normal => $variants) {
            foreach ($variants as $variant) {
                if (mb_strtolower($variant) === $lower) return $normal;
            }
        }
        return null;
    }

    private function normalizeValue(string $key, string $value): mixed
    {
        return match ($key) {
            'weight' => $this->normalizeWeight($value),
            default  => trim($value),
        };
    }

    private function normalizeWeight(string $value): ?float
    {
        // "1.5 кг" → 1500 (граммы), "500 г" → 500
        if (preg_match('/(\d+[\.,]?\d*)\s*(кг|kg)/ui', $value, $m)) {
            return (float) str_replace(',', '.', $m[1]) * 1000;
        }
        if (preg_match('/(\d+[\.,]?\d*)\s*(г|g|gr)/ui', $value, $m)) {
            return (float) str_replace(',', '.', $m[1]);
        }
        return null;
    }
}

Очистка HTML-описаний

// app/Services/ContentScraper/DescriptionCleaner.php
use HTMLPurifier;
use HTMLPurifier_Config;

class DescriptionCleaner
{
    private HTMLPurifier $purifier;

    public function __construct()
    {
        $config = HTMLPurifier_Config::createDefault();
        $config->set('HTML.Allowed', 'p,br,ul,ol,li,strong,b,em,i,h2,h3,h4,table,tr,td,th');
        $config->set('CSS.AllowedProperties', '');
        $config->set('AutoFormat.RemoveEmpty', true);

        $this->purifier = new HTMLPurifier($config);
    }

    public function clean(string $html): string
    {
        // Убираем inline-стили и классы перед очисткой
        $html = preg_replace('/\s+(style|class|id)="[^"]*"/i', '', $html);

        // Заменяем изображения внутри описания на placeholder
        $html = preg_replace('/<img[^>]*>/i', '', $html);

        // Очищаем через HTMLPurifier
        $clean = $this->purifier->purify($html);

        // Нормализуем пробелы
        return preg_replace('/\s+/', ' ', trim($clean));
    }
}

Хранение и версионирование

// Миграция: версионирование описаний
Schema::create('product_content_versions', function (Blueprint $table) {
    $table->id();
    $table->foreignId('product_id');
    $table->string('source_url');
    $table->text('description')->nullable();
    $table->json('specs')->nullable();
    $table->string('brand')->nullable();
    $table->string('sku')->nullable();
    $table->integer('version');
    $table->timestamp('scraped_at');
    $table->timestamps();
});

Версионирование позволяет откатить описание, если поставщик изменил контент на некорректный.

Срок разработки

Парсер описаний + характеристик для одного сайта с нормализацией: 3-5 рабочих дней. Универсальный экстрактор с поддержкой 5+ источников и словарём синонимов: 8-12 дней.