Разработка поиска с голосовым вводом в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Предлагаемые услуги

Показано 1 из 1 услугВсе 1735 услуг

Разработка поиска с голосовым вводом в мобильном приложении

Средняя

~2-3 рабочих дня

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
756
Разработка мобильного приложения для компании XOOMER
624
Разработка мобильного приложения для компании RHL
1054
Разработка мобильного приложения для компании ZIPPY
947
Разработка мобильного приложения для компании Affhome
874
Разработка мобильного приложения для компании FLAVORS
445

Показать больше работ

Разработка поиска с голосовым вводом в мобильном приложении

Голосовой поиск — это не просто кнопка с микрофоном. Это цепочка: захват аудио, отправка на распознавание, получение текста, формирование поискового запроса. Если хоть одно звено работает с задержкой или ошибкой, пользователь закрывает приложение. На практике основные проблемы лежат именно в правильной интеграции Speech Recognition API, а не в UI.

Где чаще всего ломается реализация

iOS: неправильная работа с SFSpeechRecognizer

Самая частая ошибка — запускать SFSpeechRecognitionTask без предварительной проверки authorizationStatus. Приложение молчит, пользователь думает, что кнопка сломана. Вторая проблема: разработчики используют SFSpeechURLRecognitionRequest (файловый вариант) вместо SFSpeechAudioBufferRecognitionRequest для live-ввода. Результат — пользователь говорит, ждёт, а транскрипция появляется только после остановки записи.

Правильный подход: AVAudioEngine + SFSpeechAudioBufferRecognitionRequest с shouldReportPartialResults = true. Это даёт частичные результаты по мере речи — ровно то, что пользователь видит в системном Siri.

let request = SFSpeechAudioBufferRecognitionRequest()
request.shouldReportPartialResults = true

recognitionTask = speechRecognizer.recognitionTask(with: request) { result, error in
    guard let result else { return }
    self.searchBar.text = result.bestTranscription.formattedString
    if result.isFinal {
        self.submitSearch(query: result.bestTranscription.formattedString)
    }
}

let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: format) { buffer, _ in
    request.append(buffer)
}
audioEngine.prepare()
try audioEngine.start()

Android: выбор между SpeechRecognizer и RecognizerIntent

RecognizerIntent запускает системный диалог распознавания — быстро интегрируется, но выглядит чужеродно в UI приложения и не поддерживает EXTRA_PARTIAL_RESULTS на всех устройствах. SpeechRecognizer даёт полный контроль, но требует аккуратной обработки жизненного цикла: нужно вызывать destroy() в onDestroy(), иначе получаем утечку через RecognitionListener.

Для inline-интеграции без системного попапа:

val recognizer = SpeechRecognizer.createSpeechRecognizer(context)
val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
    putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
    putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS, true)
    putExtra(RecognizerIntent.EXTRA_LANGUAGE, "ru-RU")
}

recognizer.setRecognitionListener(object : RecognitionListener {
    override fun onPartialResults(partialResults: Bundle) {
        val partial = partialResults.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
        searchInput.setText(partial?.firstOrNull() ?: "")
    }
    override fun onResults(results: Bundle) {
        val text = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)?.firstOrNull()
        text?.let { submitSearch(it) }
    }
    // ... остальные коллбэки
})
recognizer.startListening(intent)

Flutter: speech_to_text vs прямые Platform Channels

Пакет speech_to_text покрывает 90% задач. Проблема возникает в многоязычных приложениях: localeId нужно передавать явно, иначе на Android распознавание идёт на языке системы, а не приложения.

Как мы это делаем

Для большинства приложений нативный Speech API достаточен и не требует внешних зависимостей. Если нужна более высокая точность или поддержка специфичной терминологии (медицина, юридические термины, технические названия) — подключаем Google Cloud Speech-to-Text или Whisper API от OpenAI: они дают возможность дообучить модель на предметно-специфичном словаре через SpeechContext (Google) или system prompt (Whisper).

Важный момент, который часто упускают: анимация уровня звука во время записи. Она не декоративная — без визуальной обратной связи пользователь не понимает, слышит ли его приложение. На iOS уровень берём из AVAudioRecorder.averagePower(forChannel:), на Android — из MediaRecorder.getMaxAmplitude().

Поисковый запрос после транскрипции проходит нормализацию: убираем слова-паразиты, приводим к нижнему регистру, обрабатываем опечатки транскрипции — «айфон» и «iphone» должны давать одинаковый результат.

Процесс работы

Анализ требований: языки, тип контента (свободная речь или команды), нужна ли offline-поддержка.

Реализация: запрос разрешений, интеграция Speech API, обработка частичных результатов, анимация микрофона.

Нормализация запроса и интеграция с поисковым бэкендом.

Тестирование на реальных устройствах с разными акцентами и в шумных условиях.

Ориентиры по срокам

Базовая интеграция нативного Speech API с UI — 2–3 дня. Если нужна мультиязычная поддержка, offline-режим через локальную модель или интеграция с облачным ASR — 1–1,5 недели.