Интеграция Meta Llama API через Together AI, Fireworks, Groq
Llama 3 и 3.1/3.2 — самые мощные open-source LLM от Meta, доступные через облачных провайдеров без необходимости собственной инфраструктуры. Together AI, Fireworks AI, Groq предоставляют OpenAI-совместимый API, что упрощает интеграцию и миграцию.
Together AI — самый широкий выбор моделей
from openai import OpenAI
# Together AI использует OpenAI-совместимый API
together_client = OpenAI(
api_key="TOGETHER_API_KEY",
base_url="https://api.together.xyz/v1",
)
response = together_client.chat.completions.create(
model="meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
messages=[{"role": "user", "content": "Объясни работу attention механизма"}],
temperature=0.1,
max_tokens=2048,
)
print(response.choices[0].message.content)
# Доступные модели Llama через Together:
LLAMA_MODELS = [
"meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo", # Максимальное качество
"meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo", # Баланс
"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo", # Быстрый и дешёвый
"meta-llama/Llama-3.2-11B-Vision-Instruct-Turbo", # Мультимодальный
]
Groq — экстремально быстрый инференс
from groq import Groq
groq_client = Groq(api_key="GROQ_API_KEY")
# Groq использует LPU (Language Processing Unit) — специализированное железо
# Скорость: 500–800 токен/сек vs 50–100 токен/сек у GPU-провайдеров
response = groq_client.chat.completions.create(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": "Быстрый ответ нужен"}],
temperature=0,
)
# Доступные модели в Groq:
GROQ_MODELS = [
"llama-3.1-70b-versatile",
"llama-3.1-8b-instant",
"mixtral-8x7b-32768",
"gemma2-9b-it",
]
Fireworks AI — оптимизированный инференс
from openai import OpenAI
fireworks_client = OpenAI(
api_key="FIREWORKS_API_KEY",
base_url="https://api.fireworks.ai/inference/v1",
)
response = fireworks_client.chat.completions.create(
model="accounts/fireworks/models/llama-v3p1-70b-instruct",
messages=[{"role": "user", "content": "Запрос"}],
)
Выбор провайдера
| Провайдер | Скорость | Стоимость 70B | Особенности |
|---|---|---|---|
| Together AI | Средняя | $0.88/1M | Много моделей, fine-tuning |
| Groq | Очень высокая | $0.59/1M | Лучшая для realtime |
| Fireworks | Высокая | $0.90/1M | LoRA поддержка |
Локальный запуск (Ollama)
ollama pull llama3.1:70b
ollama pull llama3.2:3b # Для CPU
local_client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = local_client.chat.completions.create(model="llama3.1:8b", messages=[...])
Сроки
- Интеграция через OpenAI-совместимый API: 0.5 дня
- Сравнительное тестирование провайдеров: 1–2 дня
- Настройка fallback между провайдерами: 1–2 дня







