Услуги по разработке парсеров для 1С-Битрикс

Наша компания занимается разработкой, поддержкой и обслуживанием решений на Битрикс и Битрикс24 любой сложности. От простых одностраничных сайтов до сложных интернет магазинов, CRM систем с интеграцией 1С и телефонии. Опыт разработчиков подтвержден сертификатами от вендора.
Предлагаемые услуги
Показано 30 из 45 услугВсе 1626 услуг
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1163
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    811
  • image_bitrix-bitrix-24-1c_development_of_an_online_appointment_booking_widget_for_a_medical_center_594_0.webp
    Разработка на базе Битрикс, Битрикс24, 1С для компании Development of an Online Appointment Booking Widget for a Medical Center
    563
  • image_bitrix-bitrix-24-1c_mirsanbel_458_0.webp
    Разработка на базе 1С Предприятие для компании МИРСАНБЕЛ
    743
  • image_crm_dolbimby_434_0.webp
    Разработка сайта на CRM Битрикс24 для компании DOLBIMBY
    653
  • image_crm_technotorgcomplex_453_0.webp
    Разработка на базе Битрикс24 для компании ТЕХНОТОРГКОМПЛЕКС
    976

Парсеры и автонаполнение для 1С-Битрикс

XMLReader, а не SimpleXML — вот с чего начинается работа с каталогом поставщика на 800 МБ. SimpleXML подтянет весь файл в память, PHP упадёт с fatal error на лимите 512 МБ. XMLReader читает потоково, node за node, потребляя 20-30 МБ на любом объёме. С этой детали стартует любой наш проект по автонаполнению каталога на Битрикс.

Что реально делает парсинг

  • Первичное наполнение каталога — 15 000 карточек с описаниями, характеристиками, фото. Вручную это три месяца контент-менеджера; парсер — неделя с отладкой.
  • Мониторинг цен конкурентов — сбор данных с Ozon, Wildberries, сайтов конкурентов. Конкурент снизил цену на ходовую позицию — узнаёте через два часа, а не через две недели.
  • Агрегация поставщиков — пять прайсов в разных форматах (CSV с CP1251, XML в CommerceML, Excel с объединёнными ячейками) превращаются в единый каталог с общей системой свойств инфоблока.
  • Обогащение карточек — подтягиваем характеристики, инструкции, 3D-модели с сайтов производителей. Без этого карточка товара — пустышка для SEO.
  • Обновление ассортимента — товары, пропавшие из фида поставщика, деактивируются через CIBlockElement::Update($ID, ['ACTIVE' => 'N']). Новые — создаются. Каталог синхронизирован.

Источники и инструменты

Статические сайты — PHP (Goutte, Symfony DomCrawler) или Python (Scrapy, lxml). Скорость: 50-100 страниц/сек. Хватает для каталогов без JS-рендеринга.

SPA и динамические сайты — Puppeteer или Playwright. Бесконечный скролл, AJAX-фильтры, lazy-load картинок — headless-браузер всё это обработает. Скорость падает до 1-10 страниц/сек, но альтернативы нет: данные существуют только после выполнения JavaScript.

Файлы поставщиков:

  • Excel (XLS, XLSX) — PhpSpreadsheet. Осторожно с объединёнными ячейками и формулами — они ломают автоматический маппинг.
  • CSV — fgetcsv() с правильной кодировкой. Поставщики любят CP1251, BOM в UTF-8 и точку с запятой вместо запятой. Всё это нужно детектить и обрабатывать.
  • XML/YML — XMLReader для больших файлов, SimpleXML для фидов до 50 МБ.
  • CommerceML — стандартный формат обмена с 1С. Разбираем import.xml и offers.xml, маппим на структуру инфоблоков.

API — REST-эндпоинты поставщиков, API маркетплейсов (Ozon Seller API, Wildberries API). Работаем в рамках rate limits, обрабатываем пагинацию.

Пайплайн автонаполнения

Четыре этапа. Каждый может сломаться по-своему.

1. Сбор. Парсер обходит источники по cron-расписанию. Сырые данные пишем в промежуточную таблицу — не сразу в b_iblock_element. Логируем всё: сколько страниц обошли, сколько элементов распарсили, где получили 403 или timeout. Без логов отладка парсера — гадание на кофейной гуще.

2. Нормализация. Здесь основная работа:

  • Очистка HTML-тегов, лишних пробелов, Unicode-мусора
  • Единицы измерения: «мм» → «мм», «millimeters» → «мм», «миллиметр» → «мм»
  • Маппинг категорий поставщика → разделы инфоблока Битрикс. У одного поставщика «Ноутбуки», у другого «Ноутбуки и планшеты», у третьего «Laptops» — всё в одну секцию
  • Дедупликация по артикулу, EAN/GTIN. Один товар от трёх поставщиков не должен появиться трижды

3. Загрузка в Битрикс. Через CIBlockElement::Add() для новых элементов, CIBlockElement::Update() для существующих. Изображения: скачиваем, ресайзим через CFile::ResizeImageGet(), конвертируем в WebP. Свойства — через CIBlockElement::SetPropertyValuesEx(). SEO-мета через \Bitrix\Iblock\InheritedProperty\ElementValues. ЧПУ генерируем из транслитерации названия.

4. Обновление. Ключевой момент — не затереть ручные правки контент-менеджера. Обновляем только цену, остатки, активность. Описание и фото, доработанные вручную, помечаем флагом UF_MANUAL_EDIT в свойствах элемента и пропускаем при импорте. Товары, пропавшие из фида — деактивируем, но не удаляем.

Мониторинг цен конкурентов

Отдельная подсистема со своей спецификой:

Параметр Как устроено
Частота От раза в день до каждых 2 часов — зависит от волатильности рынка
Сопоставление По артикулу, EAN, нечёткое сравнение названий через расстояние Левенштейна
Хранение Своя таблица vendor_price_monitor с историей, не инфоблоки
Алерты Telegram/email при отклонении цены конкурента более чем на X%
Автоправила «Держать цену на 3% ниже минимальной среди конкурентов, но не ниже себестоимости + 15%»

Результат — дашборд: ваш товар vs конкуренты, история цен, тренды. Менеджер видит, где можно поднять цену без потери позиции, а где нужно реагировать.

Модуль импорта CSV/XML

Для файлов от поставщиков — кастомный модуль с админкой:

  • Настраиваемый маппинг: «колонка B в файле → свойство BRAND инфоблока»
  • Автодетект кодировки (CP1251, UTF-8, UTF-16) через mb_detect_encoding() с проверкой
  • Загрузка изображений по URL с очередью — чтобы не забить канал
  • Инкрементальное обновление по хешу строки: изменилась строка — обновляем, нет — пропускаем
  • Cron-расписание, отчёт: создано 145, обновлено 892, ошибок 3 (с деталями)

Большие файлы: CSV обрабатываем батчами по 1000 строк через fgetcsv(), XML потоково через XMLReader, фоновое выполнение через очередь агентов Битрикс — никаких PHP-таймаутов.

Правовая сторона

  • robots.txt — уважаем. Crawl-delay — соблюдаем
  • Частота запросов — 1-2 в секунду, не больше. Не нужно DDoS-ить чужой сайт
  • Контент производителей — используем. Уникальные авторские тексты — не копируем
  • Персональные данные — не собираем

Наш процесс

  1. Прототип — парсер для 1-2 источников за 2-3 дня. Оцениваем качество данных, подводные камни (защита Cloudflare, капча, динамическая подгрузка).
  2. Разработка — полный пайплайн: парсер → нормализация → импорт в Битрикс → админка для управления.
  3. Тестирование — прогоняем на полном объёме каталога, проверяем edge-кейсы (пустые поля, кривой HTML, битые картинки).
  4. Запуск — настраиваем cron, мониторинг ошибок через Telegram-бот.
  5. Поддержка — конкурент переделал вёрстку? Обновляем CSS-селекторы в парсере.

Сроки

Задача Сроки
Парсер одного сайта (статический HTML) 3-5 дней
Парсер SPA-сайта (Puppeteer/Playwright, обход защиты) 1-2 недели
Модуль импорта CSV/XML в Битрикс 1-2 недели
Система мониторинга цен (5-10 конкурентов) 2-4 недели
Комплексная система автонаполнения 4-8 недель
Поддержка и адаптация парсеров по подписке