Интеграция Replicate для запуска открытых AI-моделей
Replicate — облачная платформа для запуска open-source AI-моделей через API без необходимости управлять GPU-инфраструктурой. Содержит тысячи моделей: Stable Diffusion, LLaMA, Whisper, CodeLlama и другие. Оплата — за время GPU.
Установка и базовое использование
import replicate
# Генерация изображения через Stable Diffusion XL
output = replicate.run(
"stability-ai/sdxl:39ed52f2a78e934b3ba6e2a89f5b1c712de7dfea535525255b1aa35c5565e08b",
input={
"prompt": "A photorealistic cat wearing a space suit",
"width": 1024,
"height": 1024,
"num_outputs": 1,
}
)
print(output[0]) # URL изображения
Запуск LLM через Replicate
# LLaMA 2 70B через Replicate
for event in replicate.stream(
"meta/llama-2-70b-chat",
input={
"prompt": "Explain transformer architecture",
"max_new_tokens": 512,
"temperature": 0.7,
"system_prompt": "You are a helpful ML engineer."
}
):
print(str(event), end="")
Async и batch запросы
import asyncio
import replicate
async def run_batch_inference(prompts: list[str]) -> list:
tasks = [
replicate.async_run(
"meta/llama-2-70b-chat",
input={"prompt": p, "max_new_tokens": 256}
)
for p in prompts
]
results = await asyncio.gather(*tasks)
return results
Когда использовать Replicate
Replicate оптимален для: прототипирования (не нужен свой GPU), нерегулярной нагрузки (нет смысла держать GPU 24/7), доступа к моделям которые сложно деплоить самостоятельно (большие диффузионные модели). При постоянной нагрузке собственный деплой через HuggingFace или vLLM дешевле в 5-10 раз.







