Разработка AI-системы управления терминологией
Корпоративная терминология — словарь утверждённых переводов отраслевых и продуктовых терминов. Без управления терминологией один и тот же термин переводится по-разному в разных документах, что ведёт к непоследовательности бренда и коммуникационным ошибкам.
Функции системы
Глоссарий с многоязычными соответствиями: для каждого термина — утверждённые переводы на все целевые языки, контекст использования, запрещённые варианты, источник утверждения.
Автоматическое выявление терминов: система анализирует корпус документов компании и предлагает кандидатов на включение в глоссарий. Используются TF-IDF, C-value (для многословных терминов), контрастный анализ с общим языком.
def extract_term_candidates(
domain_corpus: list[str],
general_corpus: list[str],
min_frequency: int = 5
) -> list[TermCandidate]:
# C-value для многословных терминов
cvalue_extractor = CValueExtractor(max_term_length=4)
candidates = cvalue_extractor.extract(domain_corpus)
# Доменная специфичность: высокая TF в домене, низкая в общем корпусе
domain_tf = compute_tf(domain_corpus)
general_tf = compute_tf(general_corpus)
scored = []
for term in candidates:
domain_score = domain_tf.get(term.text, 0)
general_score = general_tf.get(term.text, 0.001)
specificity = domain_score / general_score
if specificity > 5 and term.frequency >= min_frequency:
scored.append(TermCandidate(
text=term.text,
frequency=term.frequency,
specificity=specificity,
sample_contexts=term.contexts[:3]
))
return sorted(scored, key=lambda x: x.specificity, reverse=True)
Проверка терминологии в переводах: при загрузке перевода система проверяет, что все термины из глоссария переведены правильным утверждённым вариантом. Нарушения — в отчёт для корректора.
Workflow утверждения: терминологический комитет получает кандидатов на рассмотрение, утверждает или отклоняет через веб-интерфейс. История изменений с датой и автором.
Интеграция с CAT-инструментами: автоматическая подстановка терминов в SDL Trados, memoQ через плагины или TBX-экспорт (TermBase eXchange).







