Интеграция Together AI для запуска открытых LLM

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1566 услуг

Простая

~1 рабочий день

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1218
Разработка веб-приложения для компании FEEDME
1161
Разработка веб-сайта для компании БЕЛФИНГРУПП
853
Разработка интернет магазина для компании FURNORO
1047
Разработка логотипа компании B2B Advance
561
Разработка веб-приложения для компании Enviok
825

Показать больше работ

Интеграция Together AI для запуска открытых LLM

Together AI предоставляет облачный инференс для 200+ открытых моделей: Llama 3.1, Mistral, Qwen, DeepSeek, Yi и других. OpenAI-совместимый API позволяет мигрировать существующий код без переписывания. Ключевые преимущества: возможность запустить любую open-source модель без собственной GPU-инфраструктуры, fine-tuning собственных моделей.

Базовая интеграция

from openai import OpenAI, AsyncOpenAI

# Together использует OpenAI SDK
client = OpenAI(
    api_key="TOGETHER_API_KEY",
    base_url="https://api.together.xyz/v1",
)

# Выбор модели
MODELS = {
    "quality": "meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo",
    "balanced": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
    "fast": "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    "code": "Qwen/Qwen2.5-Coder-32B-Instruct",
    "reasoning": "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
}

response = client.chat.completions.create(
    model=MODELS["balanced"],
    messages=[{"role": "user", "content": "Задача"}],
    temperature=0.1,
    max_tokens=2048,
)
print(response.choices[0].message.content)

Fine-tuning собственных моделей

# Together позволяет fine-tune открытые модели на собственных данных
import together

together.api_key = "TOGETHER_API_KEY"

# Загружаем датасет (JSONL формат: {"prompt": "...", "completion": "..."})
file_response = together.Files.upload(file="training_data.jsonl")
file_id = file_response["id"]

# Запускаем fine-tuning
ft_response = together.Finetune.create(
    training_file=file_id,
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Reference",
    n_epochs=3,
    batch_size=16,
    learning_rate=1e-5,
    suffix="my-custom-model",
)
ft_job_id = ft_response["id"]

# Проверяем статус
status = together.Finetune.retrieve(ft_job_id)
print(status["status"])  # "running" | "completed" | "failed"

Embeddings

response = client.embeddings.create(
    model="BAAI/bge-large-en-v1.5",  # Один из лучших для поиска
    input=["Первый текст", "Второй текст"],
)
embeddings = [item.embedding for item in response.data]

Сравнение моделей на Together AI

Модель	Качество	Скорость (токен/с)	Стоимость (1M)
Llama 3.1 405B	Excellent	~50	$3.50
Llama 3.1 70B	Very Good	~150	$0.88
Llama 3.1 8B	Good	~400	$0.18
Qwen2.5-Coder 32B	Code-specific	~120	$0.80

Сроки

Базовая интеграция: 0.5 дня
Fine-tuning pipeline: 3–5 дней (+ время обучения)
A/B тестирование моделей: 1–2 дня