Разработка парсера на Python для 1С-Битрикс

Наша компания занимается разработкой, поддержкой и обслуживанием решений на Битрикс и Битрикс24 любой сложности. От простых одностраничных сайтов до сложных интернет магазинов, CRM систем с интеграцией 1С и телефонии. Опыт разработчиков подтвержден сертификатами от вендора.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1626 услуг

Средняя

~1-2 недели

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1173
Разработка веб-сайта для компании ФИКСПЕР
811
Разработка на базе Битрикс, Битрикс24, 1С для компании Development of an Online Appointment Booking Widget for a Medical Center
564
Разработка на базе 1С Предприятие для компании МИРСАНБЕЛ
745
Разработка сайта на CRM Битрикс24 для компании DOLBIMBY
655
Разработка на базе Битрикс24 для компании ТЕХНОТОРГКОМПЛЕКС
976

Показать больше работ

Разработка парсера на Python для 1С-Битрикс

Python выбирают для парсинга, когда PHP упирается в ограничения: нужен headless-браузер, асинхронная обработка тысяч URL, машинное обучение для классификации контента или работа с антибот-защитой. Обратная сторона — Python не имеет прямого доступа к API Битрикс, поэтому между парсером и CMS всегда есть промежуточный слой.

Почему Python, а не PHP

Конкретные причины, а не абстрактные преимущества:

Асинхронность. asyncio + aiohttp позволяют обрабатывать 100+ параллельных запросов в одном потоке. PHP curl_multi ограничен 20–50 параллельными соединениями на практике.
Headless-браузер. Playwright для Python — зрелый инструмент с полной поддержкой Chromium, Firefox, WebKit. PHP-обёртки для Puppeteer существуют, но значительно менее стабильны.
NLP и ML. Классификация текстов, извлечение сущностей, определение языка — библиотеки spaCy, transformers, langdetect не имеют аналогов в PHP.
Библиотеки для парсинга. BeautifulSoup, lxml, Scrapy — проверенные временем инструменты с огромным сообществом.

Архитектура

Парсер на Python для Битрикс работает как отдельный сервис, взаимодействующий с CMS через один из каналов передачи данных:

[Python Parser] → [Промежуточное хранилище] → [PHP-импортёр → Битрикс]

Варианты промежуточного хранилища:

Способ	Когда использовать	Плюсы	Минусы
JSON-файлы	До 1 000 элементов	Просто, нет зависимостей	Не масштабируется
PostgreSQL/MySQL	1 000–100 000	Транзакции, индексы	Нужна общая БД
REST API Битрикс	Любой объём	Прямая запись в CMS	Медленно (HTTP overhead)
Redis/RabbitMQ	Потоковая обработка	Асинхронность, очереди	Усложнение инфраструктуры

Для большинства проектов оптимален вариант с общей базой данных: Python пишет в промежуточные таблицы, PHP-скрипт читает и импортирует в инфоблоки.

Реализация на Scrapy

Scrapy — фреймворк для парсинга, который берёт на себя очереди URL, retry, throttling, middleware. Структура проекта:

bitrix_parser/
├── scrapy.cfg
├── bitrix_parser/
│   ├── spiders/
│   │   ├── catalog_spider.py
│   │   └── news_spider.py
│   ├── items.py
│   ├── pipelines.py
│   ├── middlewares.py
│   └── settings.py

Spider для парсинга каталога:

import scrapy

class CatalogSpider(scrapy.Spider):
    name = 'catalog'
    start_urls = ['https://example.com/catalog/']

    def parse(self, response):
        for product in response.css('.product-card'):
            yield {
                'name': product.css('h2::text').get(),
                'price': product.css('.price::text').get(),
                'description': product.css('.desc::text').get(),
                'image': product.css('img::attr(src)').get(),
                'url': product.css('a::attr(href)').get(),
            }
        next_page = response.css('.pagination .next::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

Pipeline для записи в базу Битрикс:

import psycopg2

class BitrixPipeline:
    def open_spider(self, spider):
        self.conn = psycopg2.connect(
            host='localhost', port=5433,
            dbname='bitrix_db', user='bitrix'
        )

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        cursor.execute("""
            INSERT INTO parser_staging (name, price, description, image_url, source_url, status)
            VALUES (%s, %s, %s, %s, %s, 'new')
            ON CONFLICT (source_url) DO UPDATE SET
                price = EXCLUDED.price,
                updated_at = NOW()
        """, (item['name'], item['price'], item['description'],
              item['image'], item['url']))
        self.conn.commit()
        return item

Асинхронный парсинг с aiohttp

Для задач, где Scrapy избыточен (простые API, RSS-фиды), асинхронный подход на aiohttp:

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url, timeout=aiohttp.ClientTimeout(total=30)) as resp:
        return await resp.text()

async def parse_all(urls):
    connector = aiohttp.TCPConnector(limit=50)
    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = [fetch(session, url) for url in urls]
        return await asyncio.gather(*tasks, return_exceptions=True)

50 параллельных соединений обрабатывают 10 000 URL за 5–10 минут — против 5–6 часов при последовательной загрузке.

Headless-браузер для SPA

Сайты на React, Vue, Angular отдают пустой HTML. Playwright решает это:

from playwright.async_api import async_playwright

async def parse_spa(url):
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()
        await page.goto(url, wait_until='networkidle')
        content = await page.content()
        await browser.close()
        return content

Ресурсоёмкость: каждый экземпляр Chromium потребляет 100–300 МБ RAM. Для массового парсинга используйте пул из 3–5 экземпляров и очередь задач.

Передача данных в Битрикс

PHP-скрипт на стороне Битрикс забирает данные из промежуточной таблицы:

$rows = $DB->Query("SELECT * FROM parser_staging WHERE status = 'new' LIMIT 100");
while ($row = $rows->Fetch()) {
    $elementId = (new CIBlockElement())->Add([
        'IBLOCK_ID' => CATALOG_IBLOCK_ID,
        'NAME'      => $row['name'],
        'XML_ID'    => md5($row['source_url']),
        // ...
    ]);
    if ($elementId) {
        $DB->Query("UPDATE parser_staging SET status='imported', bx_id={$elementId} WHERE id={$row['id']}");
    }
}

Этот скрипт запускается по cron каждые 5–15 минут и обрабатывает новые записи пакетами.

Деплой и мониторинг

Python-парсер деплоится отдельно от Битрикс:

Systemd-сервис или cron для запуска по расписанию.
Virtual environment (venv) — изоляция зависимостей от системного Python.
Логирование — модуль logging с ротацией файлов или отправкой в syslog.
Мониторинг — скрипт проверяет, что парсер отработал за последние N часов, и отправляет алерт при зависании.

Типичный crontab:

0 1 * * * cd /opt/parsers && /opt/parsers/venv/bin/scrapy crawl catalog 2>> /var/log/parser.log
0 */4 * * * cd /opt/parsers && /opt/parsers/venv/bin/python news_parser.py 2>> /var/log/parser.log

Когда выбирать Python

Критерий	PHP	Python
Простой парсинг RSS/XML	Лучший выбор	Избыточен
JavaScript-рендеринг	Ограниченно	Playwright/Selenium
10 000+ URL за сессию	Сложно	asyncio/Scrapy
Классификация контента	Нет инструментов	spaCy, transformers
Прямой импорт в Битрикс	Нативно	Через промежуточный слой

Python-парсер оправдан при сложных источниках, большом объёме или потребности в обработке текста. Для простых задач PHP-парсер проще в поддержке — одна кодовая база, один стек.

1С Битрикс презентация 1С Битрикс24 презентация 1С Предприятие презентация