Какой индекс выбрать для pgvector?

Для production рекомендуем HNSW (Hierarchical Navigable Small World). Он даёт высокую скорость поиска (миллисекунды) при умеренном потреблении памяти. IVFFlat — альтернатива с меньшей памятью, но с более низкой точностью. Выбор зависит от объёма данных и требований к latency.

Сколько векторов может хранить pgvector?

pgvector эффективно работает до 1–5 миллионов векторов. При правильной настройке индексов (HNSW с m=32) и достаточном RAM (индекс помещается в память) можно работать с 10M+ векторами. Для сценариев >50M векторов лучше рассмотреть специализированные векторные БД.

Как pgvector сравнивается с Pinecone?

pgvector выигрывает в стоимости и простоте: не нужно поднимать отдельный сервис, данные находятся рядом с реляционными таблицами. Pinecone обеспечивает бо́льшую масштабируемость (миллиарды векторов) и встроенные фичи, но требует дополнительной инфраструктуры. Для средних проектов pgvector — более экономичное решение.

Какие операторы расстояния есть в pgvector?

pgvector поддерживает три оператора: (косинусное расстояние), (евклидово расстояние), (отрицательное скалярное произведение). Для семантического поиска в RAG чаще всего используют косинусное расстояние, так как оно нормализует длину вектора.

Какой индекс выбрать для pgvector?

Для production рекомендуем HNSW (Hierarchical Navigable Small World). Он даёт высокую скорость поиска (миллисекунды) при умеренном потреблении памяти. IVFFlat — альтернатива с меньшей памятью, но с более низкой точностью. Выбор зависит от объёма данных и требований к latency.

Сколько векторов может хранить pgvector?

pgvector эффективно работает до 1–5 миллионов векторов. При правильной настройке индексов (HNSW с m=32) и достаточном RAM (индекс помещается в память) можно работать с 10M+ векторами. Для сценариев >50M векторов лучше рассмотреть специализированные векторные БД.

Как pgvector сравнивается с Pinecone?

pgvector выигрывает в стоимости и простоте: не нужно поднимать отдельный сервис, данные находятся рядом с реляционными таблицами. Pinecone обеспечивает бо́льшую масштабируемость (миллиарды векторов) и встроенные фичи, но требует дополнительной инфраструктуры. Для средних проектов pgvector — более экономичное решение.

Какие операторы расстояния есть в pgvector?

pgvector поддерживает три оператора: (косинусное расстояние), (евклидово расстояние), (отрицательное скалярное произведение). Для семантического поиска в RAG чаще всего используют косинусное расстояние, так как оно нормализует длину вектора.

Разработка RAG с pgvector: векторный поиск в PostgreSQL

Q: Какие модели embedding поддерживает pgvector?

pgvector не ограничивает выбор модели — вы можете использовать любую модель, которая выдаёт вектор фиксированной размерности. Чаще всего применяют text-embedding-3-small от OpenAI (1536 dim), BERT-based модели (768 dim) или open-source модели из Sentence Transformers.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка RAG с pgvector: векторный поиск в PostgreSQL

Простой

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1351
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
950
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
922

Показать больше работ

Вы работаете с PostgreSQL, и вдруг понадобился семантический поиск по документам. Поднимать отдельную векторную БД — лишние 3–5 дней настройки, ещё один сервис, новые API, мониторинг. pgvector — расширение PostgreSQL, которое добавляет тип vector и операции косинусного расстояния прямо в вашу знакомую БД. Мы — команда с 10+ летним опытом в AI/ML и сертифицированные инженеры PostgreSQL. За последние годы внедрили RAG с pgvector для 20+ проектов, от стартапов до enterprise. Гарантируем стабильную работу при нагрузке до 10M векторов. Получите бесплатную консультацию — мы оценим ваш проект за один день.

Почему pgvector, а не отдельная векторная БД?

Если ваши данные уже в PostgreSQL, добавление pgvector не требует нового компонента. Сравните с Pinecone:

Параметр	pgvector	Pinecone
Время настройки	1–2 дня	3–5 дней
Дополнительная инфраструктура	Не требуется	Требуется отдельная БД
Latency p99 (1M векторов)	5–15 мс	5–10 мс
Объём данных	До 10M векторов (с HNSW)	До миллиардов
Поддержка SQL	Да	Нет

pgvector лучше для умеренных объёмов (до 5M векторов) и когда не хочется добавлять новый сервис. Для масштабов >50M векторов или ultra-low latency (p99<2ms) Pinecone может быть оправдан, но для 80% RAG-проектов pgvector — оптимальный выбор. pgvector подтверждает, что расширение поддерживает все необходимые операции для семантического поиска.

Как выбрать модель embedding для pgvector?

pgvector совместим с любой моделью, возвращающей вектор фиксированной размерности. Чаще всего применяют text-embedding-3-small от OpenAI (1536 dim), BERT-based модели (768 dim) или open-source модели из Sentence Transformers. Размерность вектора влияет на производительность: 768-dim вектор требует вдвое меньше памяти, чем 1536-dim, но может иметь более низкую точность. Для большинства RAG-проектов рекомендуем text-embedding-3-small: баланс качества и скорости.

Что делать, если pgvector работает медленно?

Если поиск занимает больше 20 мс, проверьте:

Используется ли HNSW индекс? IVFFlat медленнее и менее точен.
Ограничьте количество кандидатов параметром ef_search (по умолчанию 40, можно уменьшить до 20).
Увеличьте work_mem для сортировки результатов.
Проверьте, не фильтруете ли вы по неиндексированному столбцу – это замедляет запрос.

При правильной настройке pgvector выдаёт стабильные 5–15 мс на 1M векторов.

Как настроить RAG pipeline с pgvector?

Шаг 1: Установка pgvector

-- Установка расширения
CREATE EXTENSION IF NOT EXISTS vector;

-- Таблица для документов
CREATE TABLE document_chunks (
    id BIGSERIAL PRIMARY KEY,
    content TEXT NOT NULL,
    source VARCHAR(512),
    doc_type VARCHAR(64),
    page_number INTEGER DEFAULT 0,
    metadata JSONB,
    embedding vector(1536),  -- dimension = модель embedding
    created_at TIMESTAMP DEFAULT NOW()
);

-- HNSW индекс для быстрого поиска
CREATE INDEX ON document_chunks USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);

Шаг 2: Индексация через Python

import psycopg2
from openai import OpenAI
import json

conn = psycopg2.connect("postgresql://user:pass@localhost:5432/ragdb")
openai_client = OpenAI()

def index_chunk(text: str, source: str, doc_type: str, metadata: dict):
    # Получаем embedding
    response = openai_client.embeddings.create(
        model="text-embedding-3-small",
        input=text,
    )
    embedding = response.data[0].embedding

    with conn.cursor() as cur:
        cur.execute("""
            INSERT INTO document_chunks (content, source, doc_type, metadata, embedding)
            VALUES (%s, %s, %s, %s, %s)
        """, (text, source, doc_type, json.dumps(metadata), embedding))
    conn.commit()

Шаг 3: Векторный поиск с фильтрацией

def search_similar(query: str, doc_type: str = None, limit: int = 5) -> list:
    query_embedding = openai_client.embeddings.create(
        model="text-embedding-3-small",
        input=query,
    ).data[0].embedding

    sql = """
        SELECT content, source, doc_type, metadata,
               1 - (embedding <=> %s::vector) AS similarity
        FROM document_chunks
        WHERE ($2::text IS NULL OR doc_type = $2)
        ORDER BY embedding <=> %s::vector
        LIMIT %s
    """

    with conn.cursor() as cur:
        cur.execute(sql, (query_embedding, doc_type, query_embedding, limit))
        results = cur.fetchall()

    return [
        {"text": r[0], "source": r[1], "similarity": r[4]}
        for r in results
    ]

Операторы pgvector:

Оператор	Функция	Типичное использование
`<=>`	Косинусное расстояние	Семантический поиск (RAG)
`<->`	Евклидово расстояние	Поиск по L2 норме
`<#>`	Отрицательное скалярное произведение	Для моделей с нормализованными векторами

Советы по настройке производительности pgvector

Для HNSW индекса выбирайте m=16–32 и ef_construction=64–200. Чем выше ef_construction, тем точнее поиск, но больше время построения.
Убедитесь, что индекс помещается в shared_buffers. Для 1M векторов размерности 1536 с HNSW (m=32) требуется около 1.5 ГБ RAM.
Используйте parallel query: PostgreSQL автоматически распараллеливает поиск для больших таблиц.
Мониторьте cache hit ratio: если ниже 99%, увеличьте shared_buffers.

Что входит в работу?

Аналитика: оценка объёмов данных, выбор модели embedding, проектирование схемы.
Настройка pgvector: установка расширения, создание индексов (HNSW/IVFFlat), настройка параметров PostgreSQL для высокой нагрузки.
Ingestion pipeline: Python-скрипты для разбивки документов, генерации embeddings и записи в таблицу.
RAG-пайплайн: реализация поиска, ранжирования, формирования промпта для LLM.
Тестирование: замеры latency (p99), точности (Recall@k), стресс-тест.
Документация: описание архитектуры, инструкция по эксплуатации, дамп для восстановления.
Поддержка: 2 недели постинга — помогаем с доработками под ваши сценарии.

Сроки ориентировочно

Этап	Длительность
Настройка pgvector + таблица	1 день
Ingestion pipeline	2–4 дня
RAG-пайплайн	3–5 дней
Тестирование и доработка	2–3 дня
Итого	1–2 недели

Стоимость рассчитывается индивидуально — зависит от объёма данных и сложности интеграции. Закажите внедрение RAG с pgvector — мы поможем спроектировать решение под ваши объёмы данных.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.