Разработка поиска с голосовым вводом в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.
Разработка и поддержка любых видов мобильных приложений:
Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Предлагаемые услуги
Показано 1 из 1 услугВсе 1735 услуг
Разработка поиска с голосовым вводом в мобильном приложении
Средняя
~2-3 рабочих дня
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    756
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    624
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1054
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    947
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    874
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    445

Разработка поиска с голосовым вводом в мобильном приложении

Голосовой поиск — это не просто кнопка с микрофоном. Это цепочка: захват аудио, отправка на распознавание, получение текста, формирование поискового запроса. Если хоть одно звено работает с задержкой или ошибкой, пользователь закрывает приложение. На практике основные проблемы лежат именно в правильной интеграции Speech Recognition API, а не в UI.

Где чаще всего ломается реализация

iOS: неправильная работа с SFSpeechRecognizer

Самая частая ошибка — запускать SFSpeechRecognitionTask без предварительной проверки authorizationStatus. Приложение молчит, пользователь думает, что кнопка сломана. Вторая проблема: разработчики используют SFSpeechURLRecognitionRequest (файловый вариант) вместо SFSpeechAudioBufferRecognitionRequest для live-ввода. Результат — пользователь говорит, ждёт, а транскрипция появляется только после остановки записи.

Правильный подход: AVAudioEngine + SFSpeechAudioBufferRecognitionRequest с shouldReportPartialResults = true. Это даёт частичные результаты по мере речи — ровно то, что пользователь видит в системном Siri.

let request = SFSpeechAudioBufferRecognitionRequest()
request.shouldReportPartialResults = true

recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
    guard let result else { return }
    self.searchBar.text = result.bestTranscription.formattedString
    if result.isFinal {
        self.submitSearch(query: result.bestTranscription.formattedString)
    }
}

let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { buffer, _ in
    request.append(buffer)
}
audioEngine.prepare()
try audioEngine.start()

Android: выбор между SpeechRecognizer и RecognizerIntent

RecognizerIntent запускает системный диалог распознавания — быстро интегрируется, но выглядит чужеродно в UI приложения и не поддерживает EXTRA_PARTIAL_RESULTS на всех устройствах. SpeechRecognizer даёт полный контроль, но требует аккуратной обработки жизненного цикла: нужно вызывать destroy() в onDestroy(), иначе получаем утечку через RecognitionListener.

Для inline-интеграции без системного попапа:

val recognizer = SpeechRecognizer.createSpeechRecognizer(context)
val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
    putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
    putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS, true)
    putExtra(RecognizerIntent.EXTRA_LANGUAGE, "ru-RU")
}

recognizer.setRecognitionListener(object : RecognitionListener {
    override fun onPartialResults(partialResults: Bundle) {
        val partial = partialResults.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
        searchInput.setText(partial?.firstOrNull() ?: "")
    }
    override fun onResults(results: Bundle) {
        val text = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)?.firstOrNull()
        text?.let { submitSearch(it) }
    }
    // ... остальные коллбэки
})
recognizer.startListening(intent)

Flutter: speech_to_text vs прямые Platform Channels

Пакет speech_to_text покрывает 90% задач. Проблема возникает в многоязычных приложениях: localeId нужно передавать явно, иначе на Android распознавание идёт на языке системы, а не приложения.

Как мы это делаем

Для большинства приложений нативный Speech API достаточен и не требует внешних зависимостей. Если нужна более высокая точность или поддержка специфичной терминологии (медицина, юридические термины, технические названия) — подключаем Google Cloud Speech-to-Text или Whisper API от OpenAI: они дают возможность дообучить модель на предметно-специфичном словаре через SpeechContext (Google) или system prompt (Whisper).

Важный момент, который часто упускают: анимация уровня звука во время записи. Она не декоративная — без визуальной обратной связи пользователь не понимает, слышит ли его приложение. На iOS уровень берём из AVAudioRecorder.averagePower(forChannel:), на Android — из MediaRecorder.getMaxAmplitude().

Поисковый запрос после транскрипции проходит нормализацию: убираем слова-паразиты, приводим к нижнему регистру, обрабатываем опечатки транскрипции — «айфон» и «iphone» должны давать одинаковый результат.

Процесс работы

Анализ требований: языки, тип контента (свободная речь или команды), нужна ли offline-поддержка.

Реализация: запрос разрешений, интеграция Speech API, обработка частичных результатов, анимация микрофона.

Нормализация запроса и интеграция с поисковым бэкендом.

Тестирование на реальных устройствах с разными акцентами и в шумных условиях.

Ориентиры по срокам

Базовая интеграция нативного Speech API с UI — 2–3 дня. Если нужна мультиязычная поддержка, offline-режим через локальную модель или интеграция с облачным ASR — 1–1,5 недели.