Интеграция Groq для быстрого инференса LLM
Groq использует собственный LPU (Language Processing Unit) — специализированный процессор для инференса языковых моделей. Результат: 500–800 токенов/сек против 50–100 у GPU-провайдеров. Это открывает сценарии, которые раньше были невозможны: real-time transcription с мгновенными ответами, interactive coding assistants без заметных задержек.
Базовая интеграция
from groq import Groq, AsyncGroq
client = Groq(api_key="GROQ_API_KEY")
async_client = AsyncGroq(api_key="GROQ_API_KEY")
# Синхронный запрос — ощутимо быстрее чем другие провайдеры
response = client.chat.completions.create(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": "Объясни концепцию"}],
temperature=0,
max_tokens=1024,
)
print(response.choices[0].message.content)
# Async
async def fast_query(prompt: str) -> str:
response = await async_client.chat.completions.create(
model="llama-3.1-8b-instant", # Экстремально быстрый
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
# Streaming (низкая latency до первого токена)
def stream_fast(prompt: str):
with client.chat.completions.stream(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": prompt}],
) as stream:
for text in stream.text_stream:
yield text
Аудио транскрипция (Whisper на Groq)
# Whisper на Groq — самая быстрая транскрипция в облаке
with open("audio.mp3", "rb") as audio_file:
transcription = client.audio.transcriptions.create(
file=("audio.mp3", audio_file.read()),
model="whisper-large-v3",
language="ru",
response_format="verbose_json", # С таймкодами
)
print(transcription.text)
# Перевод
translation = client.audio.translations.create(
file=("audio.mp3", open("audio.mp3", "rb").read()),
model="whisper-large-v3",
)
Доступные модели Groq
| Модель | Скорость | Контекст | Использование |
|---|---|---|---|
| llama-3.1-70b-versatile | ~330 tok/s | 128K | Общие задачи |
| llama-3.1-8b-instant | ~750 tok/s | 128K | Realtime приложения |
| mixtral-8x7b-32768 | ~500 tok/s | 32K | Длинный контекст |
| gemma2-9b-it | ~500 tok/s | 8K | Быстрые задачи |
| whisper-large-v3 | — | — | Аудио |
Когда Groq — правильный выбор
Groq оптимален для:
- Chatbot с требованием < 500 мс до первого токена
- Realtime code completion (IDE ассистент)
- Пакетная обработка с жёсткими SLA по времени
- Транскрипция аудио в реальном времени
Groq не подходит:
- Задачи с очень большим output (стоимость выше при длинных ответах)
- Когда важна максимальная точность (Llama 70B < Claude Opus/GPT-4o)
- Стоимость при высоких нагрузках
Стоимость Groq
| Модель | Input (1M) | Output (1M) |
|---|---|---|
| Llama 3.1 70B | $0.59 | $0.79 |
| Llama 3.1 8B | $0.05 | $0.08 |
| Whisper Large v3 | $0.111 / час аудио | — |
Сроки
- Базовая интеграция: 0.5 дня
- Realtime чат с streaming: 1–2 дня
- Whisper транскрипция pipeline: 2–3 дня







