Реализация парафраза и рерайтинга текста
Парафраз и рерайтинг — генерация альтернативной формулировки с сохранением смысла. Применения: A/B тестирование маркетинговых текстов, улучшение читаемости, обход детекторов AI-контента, аугментация данных для обучения NLP-моделей.
Подходы к парафразу
API LLM (GPT-4o, Claude): лучшее качество, гибкое управление стилем через промпт. Пример: «Перепиши текст в более формальном стиле, сохраняя все ключевые факты». Latency: 1–5 секунд, стоимость $0.001–0.01/запрос.
Специализированные модели: tuner007/pegasus-paraphrase (английский), cointegrated/rut5-small-parus (русский T5). Работают быстро (200–500ms CPU), но хуже управляются стилем.
Back-translation: перевод на промежуточный язык и обратно. ru → en → ru через MarianMT или Google Translate. Дёшево и быстро, но качество непредсказуемо — модель может изменить структуру предложения.
Управление степенью изменения
Критично для разных задач: аугментация данных требует большого разнообразия, рерайтинг для SEO — минимальных изменений с сохранением ключевых слов.
В промпте: «перепиши, сохраняя 70% оригинальных слов» или «перепиши полностью иными словами».
Для автоматической оценки степени изменения: BERTScore (семантика) + BLEU (лексика). Хороший парафраз: высокий BERTScore (>0.85) + низкий BLEU (<0.4).
Аугментация для обучения
Для создания дополнительных обучающих примеров: 5–10 парафразов на каждый пример увеличивают датасет без ручной разметки. Проверяйте, что метка сохраняется — парафраз «Не рекомендую» для негативного отзыва должен оставаться негативным.







