Интеграция AWS Transcribe для распознавания речи
Amazon Transcribe — управляемый ASR-сервис AWS с нативной интеграцией в экосистему Amazon: S3, Lambda, EventBridge, Comprehend. Оптимален для компаний, уже использующих AWS-инфраструктуру.
Возможности из коробки
- Custom Vocabulary и Custom Language Model для доменной адаптации
- Call Analytics — специализированная модель для колл-центров с автоматическим определением тональности и ключевых моментов
- Medical Transcribe — HIPAA-совместимая версия для медицины
- Автоматическая идентификация PII и её маскирование
Интеграция через boto3
import boto3
import time
transcribe = boto3.client('transcribe', region_name='us-east-1')
transcribe.start_transcription_job(
TranscriptionJobName='meeting-2024-001',
Media={'MediaFileUri': 's3://my-bucket/audio/meeting.mp3'},
MediaFormat='mp3',
LanguageCode='ru-RU',
Settings={
'ShowSpeakerLabels': True,
'MaxSpeakerLabels': 4,
'EnableAutomaticPunctuation': True,
'VocabularyName': 'corporate-vocabulary'
}
)
# Polling статуса
while True:
status = transcribe.get_transcription_job(
TranscriptionJobName='meeting-2024-001'
)
if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
break
time.sleep(30)
Стоимость
Стандартная транскрипция: $0.024/минута. Call Analytics: $0.0288/минута. Medical: $0.05/минута. Первые 60 минут/месяц бесплатно в рамках Free Tier.
Интеграция: 1–2 дня для batch, 3–4 дня для streaming через WebSocket.







