Интеграция Humanloop для управления промптами и оценки LLM
Humanloop — платформа для управления LLM приложениями: версионирование промптов, A/B тестирование, сбор human feedback и автоматическая оценка. Отличается от PromptLayer более глубокой интеграцией evaluation пайплайна.
Установка и настройка
pip install humanloop
from humanloop import Humanloop
hl = Humanloop(api_key="hl_...")
# Вызов через Humanloop с трекингом
response = hl.chat(
project="customer-support",
model="gpt-4o",
messages=[
{"role": "system", "content": "You are a helpful customer support agent."},
{"role": "user", "content": user_message}
],
inputs={"customer_name": customer_name}, # Переменные промпта
)
# Логирование обратной связи
hl.log(
project="customer-support",
data_id=response.data_id,
feedback=[{
"type": "rating",
"value": "positive" # или "negative"
}]
)
A/B тестирование промптов
# Определение эксперимента
experiment = hl.experiments.create(
project="customer-support",
name="prompt-ab-test-v3",
config=[
{
"model": "gpt-4o",
"template": "{{system_prompt_v1}}",
"traffic_split": 50
},
{
"model": "gpt-4o",
"template": "{{system_prompt_v2}}",
"traffic_split": 50
}
]
)
# Запрос автоматически роутится в одну из групп
response = hl.chat(
project="customer-support",
experiment_id=experiment.id,
messages=[{"role": "user", "content": user_message}]
)
Evaluation пайплайн
Humanloop поддерживает как human evaluation (через UI), так и автоматическую оценку (LLM-as-judge):
evaluator = hl.evaluators.create(
name="response-quality",
type="llm",
spec={
"model": "gpt-4o",
"prompt": """Rate the following customer support response on a scale 1-5.
Response: {{output}}
Customer query: {{inputs.query}}
Return only a number 1-5.""",
"return_type": "number"
}
)
Humanloop хорошо подходит для команд, которым нужен полный цикл: от версионирования промптов до структурированного сбора feedback от пользователей и автоматической оценки качества.







