Разработка AI-системы управления Translation Memory
Translation Memory (TM) — база данных ранее переведённых сегментов. Повторяющиеся и похожие тексты переводятся автоматически по памяти, снижая стоимость и время локализации. AI расширяет классическую TM: fuzzy matching на основе семантического сходства, а не только строкового.
Архитектура Translation Memory
class TranslationMemorySystem:
def __init__(self, vector_store: VectorStore):
self.vector_store = vector_store
self.encoder = SentenceTransformer("LaBSE") # мультиязычные эмбеддинги
def store(self, segment: TMSegment) -> None:
embedding = self.encoder.encode(segment.source_text)
self.vector_store.upsert(
id=segment.id,
embedding=embedding,
metadata={
"source_text": segment.source_text,
"target_text": segment.target_text,
"source_lang": segment.source_lang,
"target_lang": segment.target_lang,
"domain": segment.domain,
"quality_score": segment.quality_score,
"last_used": segment.last_used.isoformat()
}
)
def find_matches(
self,
query_text: str,
target_lang: str,
min_similarity: float = 0.75,
top_k: int = 5
) -> list[TMMatch]:
embedding = self.encoder.encode(query_text)
results = self.vector_store.search(
embedding=embedding,
filter={"target_lang": target_lang},
top_k=top_k
)
matches = []
for r in results:
if r.score >= min_similarity:
# Уточнение: token-level edit distance для fuzzy %
edit_sim = compute_edit_similarity(query_text, r.metadata["source_text"])
matches.append(TMMatch(
source=r.metadata["source_text"],
target=r.metadata["target_text"],
semantic_similarity=r.score,
edit_similarity=edit_sim,
match_type=self.classify_match(edit_sim)
))
return matches
def classify_match(self, edit_sim: float) -> str:
if edit_sim == 1.0: return "exact" # 100% — берём без изменений
if edit_sim >= 0.95: return "context" # 95-99% — только контекст отличается
if edit_sim >= 0.85: return "fuzzy_high" # 85-94% — минимальная правка
return "fuzzy_low" # 75-84% — требует проверки
Разрешение конфликтов в TM
Одна и та же фраза может иметь несколько вариантов перевода в разных контекстах. Система ранжирует варианты по: доменному соответствию (юридический текст vs маркетинг), дате последнего использования, оценке качества (human review score), частоте использования.
Поддержка TMX-формата
TMX (Translation Memory eXchange) — стандартный формат обмена между CAT-инструментами (SDL Trados, memoQ, Phrase). Импорт исторических TM из существующих систем и экспорт для использования переводчиками.
Автоматическое обновление TM
После проверки и подтверждения перевода человеком — автоматическое добавление в TM. Система отслеживает quality score переводчика: если переводы конкретного исполнителя часто правятся, его сегменты получают низкий приоритет в TM.
Аналитика эффективности
- TM leverage: % контента, покрытого совпадениями из TM — ключевой показатель экономии
- Exact match rate: доля 100%-совпадений
- Repetition rate: внутренние повторы в новом проекте
- Savings: расчётная экономия в часах и стоимости перевода
При TM leverage 40–60% реальная стоимость перевода снижается на 25–40%.







