Разработка поиска с голосовым вводом в мобильном приложении
Голосовой поиск — это не просто кнопка с микрофоном. Это цепочка: захват аудио, отправка на распознавание, получение текста, формирование поискового запроса. Если хоть одно звено работает с задержкой или ошибкой, пользователь закрывает приложение. На практике основные проблемы лежат именно в правильной интеграции Speech Recognition API, а не в UI.
Где чаще всего ломается реализация
iOS: неправильная работа с SFSpeechRecognizer
Самая частая ошибка — запускать SFSpeechRecognitionTask без предварительной проверки authorizationStatus. Приложение молчит, пользователь думает, что кнопка сломана. Вторая проблема: разработчики используют SFSpeechURLRecognitionRequest (файловый вариант) вместо SFSpeechAudioBufferRecognitionRequest для live-ввода. Результат — пользователь говорит, ждёт, а транскрипция появляется только после остановки записи.
Правильный подход: AVAudioEngine + SFSpeechAudioBufferRecognitionRequest с shouldReportPartialResults = true. Это даёт частичные результаты по мере речи — ровно то, что пользователь видит в системном Siri.
let request = SFSpeechAudioBufferRecognitionRequest()
request.shouldReportPartialResults = true
recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
guard let result else { return }
self.searchBar.text = result.bestTranscription.formattedString
if result.isFinal {
self.submitSearch(query: result.bestTranscription.formattedString)
}
}
let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { buffer, _ in
request.append(buffer)
}
audioEngine.prepare()
try audioEngine.start()
Android: выбор между SpeechRecognizer и RecognizerIntent
RecognizerIntent запускает системный диалог распознавания — быстро интегрируется, но выглядит чужеродно в UI приложения и не поддерживает EXTRA_PARTIAL_RESULTS на всех устройствах. SpeechRecognizer даёт полный контроль, но требует аккуратной обработки жизненного цикла: нужно вызывать destroy() в onDestroy(), иначе получаем утечку через RecognitionListener.
Для inline-интеграции без системного попапа:
val recognizer = SpeechRecognizer.createSpeechRecognizer(context)
val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS, true)
putExtra(RecognizerIntent.EXTRA_LANGUAGE, "ru-RU")
}
recognizer.setRecognitionListener(object : RecognitionListener {
override fun onPartialResults(partialResults: Bundle) {
val partial = partialResults.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
searchInput.setText(partial?.firstOrNull() ?: "")
}
override fun onResults(results: Bundle) {
val text = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)?.firstOrNull()
text?.let { submitSearch(it) }
}
// ... остальные коллбэки
})
recognizer.startListening(intent)
Flutter: speech_to_text vs прямые Platform Channels
Пакет speech_to_text покрывает 90% задач. Проблема возникает в многоязычных приложениях: localeId нужно передавать явно, иначе на Android распознавание идёт на языке системы, а не приложения.
Как мы это делаем
Для большинства приложений нативный Speech API достаточен и не требует внешних зависимостей. Если нужна более высокая точность или поддержка специфичной терминологии (медицина, юридические термины, технические названия) — подключаем Google Cloud Speech-to-Text или Whisper API от OpenAI: они дают возможность дообучить модель на предметно-специфичном словаре через SpeechContext (Google) или system prompt (Whisper).
Важный момент, который часто упускают: анимация уровня звука во время записи. Она не декоративная — без визуальной обратной связи пользователь не понимает, слышит ли его приложение. На iOS уровень берём из AVAudioRecorder.averagePower(forChannel:), на Android — из MediaRecorder.getMaxAmplitude().
Поисковый запрос после транскрипции проходит нормализацию: убираем слова-паразиты, приводим к нижнему регистру, обрабатываем опечатки транскрипции — «айфон» и «iphone» должны давать одинаковый результат.
Процесс работы
Анализ требований: языки, тип контента (свободная речь или команды), нужна ли offline-поддержка.
Реализация: запрос разрешений, интеграция Speech API, обработка частичных результатов, анимация микрофона.
Нормализация запроса и интеграция с поисковым бэкендом.
Тестирование на реальных устройствах с разными акцентами и в шумных условиях.
Ориентиры по срокам
Базовая интеграция нативного Speech API с UI — 2–3 дня. Если нужна мультиязычная поддержка, offline-режим через локальную модель или интеграция с облачным ASR — 1–1,5 недели.







