Реализация извлечения ключевых фраз (Keyword/Keyphrase Extraction)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1566 услуг

Простая

~2-3 рабочих дня

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1240
Разработка веб-приложения для компании FEEDME
1167
Разработка веб-сайта для компании БЕЛФИНГРУПП
867
Разработка интернет магазина для компании FURNORO
1084
Разработка логотипа компании B2B Advance
563
Разработка веб-приложения для компании Enviok
829

Показать больше работ

Реализация извлечения ключевых фраз (Keyword/Keyphrase Extraction)

Ключевые фразы — короткие n-граммы, отражающие основные темы документа. Применение широкое: индексирование, поиск, теггирование контента, автоматические аннотации.

Методы извлечения

Статистические методы — быстро, без обучения:

YAKE (Yet Another Keyword Extractor): учитывает позицию слова, коллокации, частоту. Работает без корпуса, 5ms/документ
RAKE (Rapid Automatic Keyword Extraction): разбивка по стоп-словам, scoring по co-occurrence
TF-IDF: лучшие слова по TF-IDF весу — эффективно при наличии корпуса для IDF

Граф-based методы:

TextRank (аналог PageRank для слов): строит граф co-occurrence, ранжирует узлы. Реализация: gensim, pytextrank

Семантические методы (лучшее качество):

KeyBERT: эмбеддинги документа и кандидатов сравниваются косинусным сходством

from keybert import KeyBERT
kw_model = KeyBERT(model="cointegrated/rubert-tiny2")
keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 3), top_n=10)

Для русского языка

Статистические методы работают хуже без лемматизации. Правильный пайплайн: лемматизация (pymorphy3) → YAKE/KeyBERT. KeyBERT с rubert-tiny2 даёт хорошее качество при latency ~50ms/документ.

Применение в production

Типичная задача: теггирование 10K статей в день. Оптимальный стек: YAKE для скорости + KeyBERT для топ-документов. Результаты нормализуются (лемматизация, lowercase, дедупликация) и сохраняются в поисковый индекс (Elasticsearch с полем keywords).