Чанкинг документов для RAG (Recursive, Semantic, Sentence-level)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Чанкинг документов для RAG (Recursive, Semantic, Sentence-level)
Средняя
от 1 рабочего дня до 3 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1240
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1167
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    867
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1084
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    563
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    829

Чанкинг документов для RAG (Recursive, Semantic, Sentence-level)

Чанкинг — разбивка документов на фрагменты для индексации в векторную БД. Размер и границы чанков критически влияют на качество RAG: слишком маленькие фрагменты теряют контекст, слишком большие — снижают точность поиска и превышают context window модели.

Стратегии чанкинга

Fixed-size chunking — самый простой, самый плохой:

def fixed_size_chunk(text: str, chunk_size: int = 500,
                     overlap: int = 50) -> list[str]:
    tokens = text.split()  # Упрощённо
    chunks = []
    for i in range(0, len(tokens), chunk_size - overlap):
        chunk = ' '.join(tokens[i:i + chunk_size])
        chunks.append(chunk)
    return chunks

Проблема: разрезает предложения и абзацы посередине.

Recursive character text splitter (LangChain) — разбивает по иерархии разделителей:

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,      # ~250 слов
    chunk_overlap=200,     # 50-слово перекрытие
    separators=[
        "\n\n",  # Параграфы (приоритет)
        "\n",    # Строки
        ". ",    # Предложения
        ", ",    # Части предложений
        " ",     # Слова (последний resort)
        ""       # Символы
    ]
)

chunks = splitter.create_documents(
    texts=[document_text],
    metadatas=[{"source": "document.pdf", "page": 1}]
)

Semantic chunking — разбивка по смысловым границам:

from sentence_transformers import SentenceTransformer
import numpy as np

class SemanticChunker:
    def __init__(self, model_name: str = 'all-MiniLM-L6-v2',
                 threshold: float = 0.7):
        self.model = SentenceTransformer(model_name)
        self.threshold = threshold

    def chunk(self, text: str) -> list[str]:
        # Разбивка на предложения
        sentences = self._split_into_sentences(text)
        if len(sentences) < 2:
            return [text]

        # Эмбеддинги предложений
        embeddings = self.model.encode(sentences)

        # Поиск семантических разрывов
        chunks = []
        current_chunk = [sentences[0]]

        for i in range(1, len(sentences)):
            # Косинусное сходство соседних предложений
            sim = np.dot(embeddings[i], embeddings[i-1]) / (
                np.linalg.norm(embeddings[i]) * np.linalg.norm(embeddings[i-1])
            )

            if sim < self.threshold:
                # Семантический разрыв — создаём новый чанк
                chunks.append(' '.join(current_chunk))
                current_chunk = []

            current_chunk.append(sentences[i])

        if current_chunk:
            chunks.append(' '.join(current_chunk))

        # Объединение слишком маленьких чанков
        return self._merge_small_chunks(chunks, min_words=50)

Document structure-aware chunking — сохранение иерархии документа:

class StructureAwareChunker:
    def chunk_markdown(self, text: str, max_chunk_tokens: int = 300) -> list[dict]:
        """Разбивка с учётом заголовков Markdown"""
        sections = re.split(r'\n(#{1,3}\s+.+)', text)
        chunks = []
        current_section_header = "Introduction"

        for part in sections:
            if re.match(r'#{1,3}\s+', part):
                current_section_header = part.strip()
            else:
                # Разбиваем раздел на под-чанки если он большой
                sub_chunks = self._split_section(part, max_chunk_tokens)
                for sub_chunk in sub_chunks:
                    if sub_chunk.strip():
                        chunks.append({
                            'text': sub_chunk,
                            'section': current_section_header,
                            # Хлебные крошки для атрибуции
                            'breadcrumb': current_section_header
                        })

        return chunks

Оптимальные параметры чанкинга по типу контента

Тип документа Стратегия Chunk size Overlap
Техническая документация Structural 500-1000 100-200
Научные статьи Semantic 800-1500 150-300
FAQ / Q&A По вопросам 100-300 0
Код По функциям Variable 0
Новости/блоги Recursive 400-800 80-150
Чаты По сессиям 300-700 50

Chunk metadata и parent-child индексация

Small-to-big retrieval — индексируем маленькие чанки для точного поиска, но в контекст передаём большие родительские чанки:

class ParentChildIndexer:
    def index(self, document: str) -> list[dict]:
        # Родительские чанки (большие, для контекста)
        parent_splitter = RecursiveCharacterTextSplitter(
            chunk_size=2000, chunk_overlap=200
        )
        parents = parent_splitter.split_text(document)

        all_chunks = []
        for p_idx, parent in enumerate(parents):
            # Дочерние чанки (маленькие, для поиска)
            child_splitter = RecursiveCharacterTextSplitter(
                chunk_size=300, chunk_overlap=50
            )
            children = child_splitter.split_text(parent)

            for child in children:
                all_chunks.append({
                    'child_text': child,       # Для эмбеддинга и поиска
                    'parent_text': parent,     # Для передачи в LLM
                    'parent_idx': p_idx
                })

        return all_chunks

Правильный выбор стратегии чанкинга улучшает relevance retrieval на 15-30% по сравнению с наивным fixed-size подходом.