Разработка AI-ассистента в мобильном приложении на базе Gemini (Google)
Gemini — единственная из топовых моделей с нативным Android SDK от Google. google-ai-android (Generative AI SDK) интегрируется через Gradle без серверного прокси, что упрощает старт. Но для продакшена прямой доступ с мобильного клиента — ошибка: API-ключ в APK извлекаем. Это противоречие между удобством и безопасностью нужно решить на старте проекта.
Google AI SDK: Android и iOS
На Android официальный путь:
// build.gradle.kts
implementation("com.google.ai.client.generativeai:generativeai:0.9.0")
val model = GenerativeModel(
modelName = "gemini-1.5-pro",
apiKey = BuildConfig.GEMINI_API_KEY,
generationConfig = generationConfig {
temperature = 0.7f
maxOutputTokens = 2048
topK = 40
topP = 0.95f
},
safetySettings = listOf(
SafetySetting(HarmCategory.HARASSMENT, BlockThreshold.MEDIUM_AND_ABOVE)
)
)
На iOS — GoogleGenerativeAI через Swift Package Manager. API идентичен, разница только в синтаксисе.
Для Flutter — google_generative_ai пакет покрывает оба платформы.
Мультимодальность: нативное преимущество Gemini
Gemini 1.5 Pro обрабатывает текст, изображения, аудио, видео и PDF в одном запросе с контекстом до 1 миллиона токенов. Для мобильного ассистента это открывает сценарии, недоступные другим моделям: передать 30-минутное видео и попросить резюме, или загрузить аудиозапись встречи для транскрипции с резюме.
Передача изображения через Android SDK:
val image = BitmapFactory.decodeResource(resources, R.drawable.photo)
val content = content {
image(image)
text("Опиши, что происходит на фотографии")
}
val response = model.generateContent(content)
Файлы больше 20 МБ нужно загружать через File API (POST https://generativelanguage.googleapis.com/upload/v1beta/files), а не передавать inline base64. File API хранит файл 48 часов, возвращает file_uri, который используется в дальнейших запросах.
Стриминг и нативный Kotlin coroutines
Gemini Android SDK возвращает Flow<GenerateContentResponse> для стриминга — нативная интеграция с Kotlin coroutines:
viewModelScope.launch {
model.generateContentStream(prompt).collect { chunk ->
val text = chunk.text ?: return@collect
_uiState.update { it + text }
}
}
Это чище, чем ручной парсинг SSE-потока. На iOS аналогичный AsyncThrowingStream<GenerateContentResponse, Error>.
Gemini vs Vertex AI: выбор для продакшена
Google предлагает два пути:
- Google AI (Gemini API) — прямой доступ, простой старт, для MVP и небольших приложений
- Vertex AI — enterprise-вариант с дополнительными возможностями: fine-tuning, корпоративный SLA, данные не используются для обучения, интеграция с Google Cloud IAM
Для мобильного приложения с пользовательскими данными — Vertex AI с серверным прокси. Для прототипа или B2B-инструмента без чувствительных данных — Gemini API достаточно.
Vertex AI SDK на Android: com.google.cloud:google-cloud-aiplatform, но он требует аутентификации через сервисный аккаунт, что подразумевает серверный слой.
Safety Settings и цензура
Gemini имеет встроенную систему блокировок по категориям: HARASSMENT, HATE_SPEECH, SEXUALLY_EXPLICIT, DANGEROUS_CONTENT. По умолчанию порог BLOCK_MEDIUM_AND_ABOVE — довольно агрессивный. Для медицинских или юридических приложений, где нужно обсуждать чувствительные темы, порог снижается до BLOCK_ONLY_HIGH или BLOCK_NONE для конкретных категорий.
Ответ с заблокированным контентом возвращает finishReason: SAFETY, а не ошибку HTTP — нужно явно проверять это поле, иначе пользователь получит пустой ответ без объяснений.
Ориентиры по срокам
Текстовый ассистент с нативным SDK — 1 неделя. Мультимодальный ассистент с File API, стримингом и серверным прокси — 3–4 недели.







