Реализация автоматического транскрибирования интервью

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Реализация автоматического транскрибирования интервью
Простая
от 1 рабочего дня до 3 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Реализация автоматического транскрибирования интервью

Транскрибация интервью нужна журналистам, HR-специалистам, исследователям. Ключевые требования: точная атрибуция реплик двум говорящим (интервьюер/респондент), сохранение пауз и интонационных маркеров, поддержка форматирования вопрос-ответ.

Быстрое решение через API

import assemblyai as aai

config = aai.TranscriptionConfig(
    language_code="ru",
    speaker_labels=True,   # диаризация 2 говорящих
    speakers_expected=2,
    punctuate=True,
    format_text=True,
)

transcriber = aai.Transcriber(config=config)
transcript = transcriber.transcribe("interview.mp3")

# Форматирование в стиле интервью
output = []
current_speaker = None
for utterance in transcript.utterances:
    if utterance.speaker != current_speaker:
        label = "— " if current_speaker else ""
        output.append(f"\n**Спикер {utterance.speaker}:** {utterance.text}")
        current_speaker = utterance.speaker
    else:
        output.append(utterance.text)

print("\n".join(output))

Self-hosted с форматированием Q&A

async def format_as_interview(transcript: dict) -> str:
    """Форматируем транскрипт в стиль интервью"""
    turns = transcript["turns"]

    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "system",
            "content": """Отформатируй транскрипт как журналистское интервью:
            - Определи кто интервьюер, кто респондент
            - Добавь метки: [Вопрос] / [Ответ] или имена если известны
            - Исправь очевидные ошибки распознавания
            - Сохрани оригинальные слова"""
        }, {
            "role": "user",
            "content": "\n".join(f"Спикер {t['speaker']}: {t['text']}" for t in turns)
        }]
    )
    return response.choices[0].message.content

Форматы экспорта для разных платформ

  • Medium / Substack: Markdown с bold-именами
  • Word: стандартное форматирование интервью
  • Notion: автоматическое создание страницы через API

Стоимость транскрибации через AssemblyAI: 1 час интервью ≈ $0.72. Через Whisper self-hosted: ~$0.01–0.05 (стоимость GPU).

Сроки: базовый скрипт транскрибации + форматирование — 1–2 дня. Веб-сервис с загрузкой файлов — 3–5 дней.