Интеграция Together AI для запуска открытых LLM

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Интеграция Together AI для запуска открытых LLM
Простая
~1 рабочий день
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Интеграция Together AI для запуска открытых LLM

Together AI предоставляет облачный инференс для 200+ открытых моделей: Llama 3.1, Mistral, Qwen, DeepSeek, Yi и других. OpenAI-совместимый API позволяет мигрировать существующий код без переписывания. Ключевые преимущества: возможность запустить любую open-source модель без собственной GPU-инфраструктуры, fine-tuning собственных моделей.

Базовая интеграция

from openai import OpenAI, AsyncOpenAI

# Together использует OpenAI SDK
client = OpenAI(
    api_key="TOGETHER_API_KEY",
    base_url="https://api.together.xyz/v1",
)

# Выбор модели
MODELS = {
    "quality": "meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo",
    "balanced": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
    "fast": "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    "code": "Qwen/Qwen2.5-Coder-32B-Instruct",
    "reasoning": "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
}

response = client.chat.completions.create(
    model=MODELS["balanced"],
    messages=[{"role": "user", "content": "Задача"}],
    temperature=0.1,
    max_tokens=2048,
)
print(response.choices[0].message.content)

Fine-tuning собственных моделей

# Together позволяет fine-tune открытые модели на собственных данных
import together

together.api_key = "TOGETHER_API_KEY"

# Загружаем датасет (JSONL формат: {"prompt": "...", "completion": "..."})
file_response = together.Files.upload(file="training_data.jsonl")
file_id = file_response["id"]

# Запускаем fine-tuning
ft_response = together.Finetune.create(
    training_file=file_id,
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Reference",
    n_epochs=3,
    batch_size=16,
    learning_rate=1e-5,
    suffix="my-custom-model",
)
ft_job_id = ft_response["id"]

# Проверяем статус
status = together.Finetune.retrieve(ft_job_id)
print(status["status"])  # "running" | "completed" | "failed"

Embeddings

response = client.embeddings.create(
    model="BAAI/bge-large-en-v1.5",  # Один из лучших для поиска
    input=["Первый текст", "Второй текст"],
)
embeddings = [item.embedding for item in response.data]

Сравнение моделей на Together AI

Модель Качество Скорость (токен/с) Стоимость (1M)
Llama 3.1 405B Excellent ~50 $3.50
Llama 3.1 70B Very Good ~150 $0.88
Llama 3.1 8B Good ~400 $0.18
Qwen2.5-Coder 32B Code-specific ~120 $0.80

Сроки

  • Базовая интеграция: 0.5 дня
  • Fine-tuning pipeline: 3–5 дней (+ время обучения)
  • A/B тестирование моделей: 1–2 дня