Разработка AI-системы автоматического парсинга резюме с job-сайтов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Разработка AI-системы автоматического парсинга резюме с job-сайтов
Простая
~2-3 рабочих дня
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Разработка AI-системы автоматического парсинга резюме с job-сайтов

Массовый парсинг резюме с hh.ru, Superjob, Rabota.ru позволяет автоматически наполнять базу кандидатов без ручного поиска. Система собирает, нормализует и структурирует данные из разных источников.

API vs парсинг

Для России: hh.ru и SuperJob имеют официальные API для работодателей. Это предпочтительный путь — официальный, надёжный, не нарушает ToS.

  • hh.ru API: resume search endpoint, детальные данные резюме. Тариф «Доступ к базе резюме» от 5000 руб/мес
  • SuperJob API: аналогичный функционал
  • Rabota.ru: парсинг (API только для партнёров)

Нормализация данных из разных источников

Каждый job-сайт имеет свою структуру данных. Нормализация к единой схеме:

class NormalizedResume(BaseModel):
    source: str                  # "hh.ru" | "superjob" | "rabota.ru"
    source_id: str               # ID на источнике
    full_name: str
    age: int | None
    city: str | None
    desired_position: str
    desired_salary: int | None
    currency: str

    experience: list[WorkExperience]
    education: list[Education]
    skills: list[str]            # нормализованные навыки
    languages: list[LanguageSkill]
    last_updated: datetime

    # AI-обогащение
    seniority_level: str         # junior/middle/senior/lead — AI оценка
    tech_stack: list[str]        # стек технологий — извлечено AI
    experience_years: float      # суммарный опыт

Дедупликация кандидатов

Один человек размещает резюме на нескольких сайтах. Дедупликация через:

  • Совпадение телефона/email (если открыты)
  • Семантическое сходство опыта работы (эмбеддинги)
  • Fuzzy matching по имени + город + текущий работодатель

Правило: при similarity > 0.85 — предлагать объединение, при > 0.95 — автоматически.

Обновление базы кандидатов

Резюме устаревают. Триггеры обновления: кандидат обновил резюме на источнике (webhook/периодический poll), прошло 30 дней без изменений — проверить актуальность, кандидат откликнулся на вакансию — приоритетное обновление.