AI-система дедупликации и очистки данных

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1Все 1566 услуг
AI-система дедупликации и очистки данных
Средний
~2-4 недели
Часто задаваемые вопросы

Направления AI-разработки

Этапы разработки AI-решения

Последние работы

  • image_website-b2b-advance_0.webp
    Разработка сайта компании B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    901
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1119
  • image_logo-advance_0.webp
    Разработка логотипа компании B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    853

Реализация AI-дедупликации и очистки данных

Дедупликация — это не просто DROP DUPLICATES(). Реальные дубликаты выглядят как "Иван Иванов" и "I. Ivanov", или "ООО Ромашка" и "ООО «Ромашка»". Fuzzy matching + ML-классификация находит такие пары. LLM добавляет семантическое понимание: какую запись считать эталонной и как объединить атрибуты.

Fuzzy дедупликация записей

import pandas as pd
import numpy as np
from anthropic import Anthropic
from rapidfuzz import fuzz, process
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
import re

class AIDeduplicator:
    def __init__(self, threshold: float = 0.85):
        self.llm = Anthropic()
        self.threshold = threshold
        self.classifier = None

    def deduplicate_persons(self, df: pd.DataFrame,
                             name_col: str,
                             email_col: str = None,
                             phone_col: str = None) -> pd.DataFrame:
        """Дедупликация персон с fuzzy matching"""
        # Нормализация имён
        df['_name_norm'] = df[name_col].apply(self._normalize_name)
        if email_col:
            df['_email_norm'] = df[email_col].apply(self._normalize_email)
        if phone_col:
            df['_phone_norm'] = df[phone_col].apply(self._normalize_phone)

        # Поиск дубликатов через блокировку + fuzzy match
        duplicate_pairs = self._find_duplicate_pairs(df, name_col, email_col)

        # Объединение кластеров дубликатов
        clusters = self._build_clusters(duplicate_pairs, len(df))

        # Выбор эталонной записи в каждом кластере
        result = self._merge_clusters(df, clusters, name_col)

        return result

    def _normalize_name(self, name: str) -> str:
        if pd.isna(name):
            return ""
        name = str(name).lower().strip()
        name = re.sub(r'\s+', ' ', name)
        # Нормализация кириллица/латиница
        name = re.sub(r'[^\w\s-]', '', name)
        return name

    def _normalize_email(self, email: str) -> str:
        if pd.isna(email):
            return ""
        return str(email).lower().strip()

    def _normalize_phone(self, phone: str) -> str:
        if pd.isna(phone):
            return ""
        # Оставляем только цифры
        digits = re.sub(r'\D', '', str(phone))
        # Нормализация российских номеров
        if len(digits) == 11 and digits[0] == '8':
            digits = '7' + digits[1:]
        return digits[-10:] if len(digits) >= 10 else digits

    def _find_duplicate_pairs(self, df: pd.DataFrame,
                               name_col: str,
                               email_col: str = None) -> list[tuple]:
        """Поиск пар дубликатов через блокировку"""
        pairs = []
        names = df['_name_norm'].tolist()

        # Быстрая блокировка: первые 3 буквы имени
        blocks = {}
        for idx, name in enumerate(names):
            if len(name) >= 3:
                key = name[:3]
                if key not in blocks:
                    blocks[key] = []
                blocks[key].append(idx)

        # Fuzzy matching внутри блоков
        for block_indices in blocks.values():
            if len(block_indices) < 2:
                continue

            for i in range(len(block_indices)):
                for j in range(i + 1, len(block_indices)):
                    idx_a, idx_b = block_indices[i], block_indices[j]
                    name_a = names[idx_a]
                    name_b = names[idx_b]

                    # Несколько метрик схожести
                    ratio = fuzz.token_sort_ratio(name_a, name_b) / 100
                    partial = fuzz.partial_ratio(name_a, name_b) / 100
                    combined_score = (ratio * 0.7 + partial * 0.3)

                    # Бонус за совпадение email/телефона
                    if email_col and '_email_norm' in df.columns:
                        email_a = df['_email_norm'].iloc[idx_a]
                        email_b = df['_email_norm'].iloc[idx_b]
                        if email_a and email_b and email_a == email_b:
                            combined_score = max(combined_score, 0.95)

                    if combined_score >= self.threshold:
                        pairs.append((idx_a, idx_b, combined_score))

        return pairs

    def _build_clusters(self, pairs: list[tuple],
                         total_records: int) -> list[list[int]]:
        """Union-Find для объединения в кластеры"""
        parent = list(range(total_records))

        def find(x):
            if parent[x] != x:
                parent[x] = find(parent[x])
            return parent[x]

        def union(x, y):
            px, py = find(x), find(y)
            if px != py:
                parent[px] = py

        for idx_a, idx_b, _ in pairs:
            union(idx_a, idx_b)

        # Группировка по корневым элементам
        from collections import defaultdict
        clusters = defaultdict(list)
        for i in range(total_records):
            clusters[find(i)].append(i)

        # Только кластеры с дубликатами
        return [c for c in clusters.values() if len(c) > 1]

    def _merge_clusters(self, df: pd.DataFrame, clusters: list[list[int]],
                         name_col: str) -> pd.DataFrame:
        """Объединение дубликатов с выбором эталонной записи"""
        rows_to_drop = set()
        updates = {}

        for cluster in clusters:
            cluster_df = df.iloc[cluster]

            # Эвристика: наиболее полная запись = эталон
            completeness = cluster_df.notna().sum(axis=1)
            canonical_idx = cluster[completeness.argmax()]

            # LLM для сложных случаев (конфликты в атрибутах)
            conflicts = self._detect_conflicts(cluster_df, name_col)
            if conflicts:
                resolution = self._resolve_conflicts_with_llm(cluster_df, conflicts)
                updates[canonical_idx] = resolution

            rows_to_drop.update(set(cluster) - {canonical_idx})

        # Применение обновлений и удаление дубликатов
        df_result = df.copy()
        for idx, update in updates.items():
            for col, val in update.items():
                if col in df_result.columns:
                    df_result.at[idx, col] = val

        df_result = df_result.drop(index=list(rows_to_drop)).reset_index(drop=True)

        return df_result

    def _detect_conflicts(self, cluster_df: pd.DataFrame,
                            name_col: str) -> dict:
        """Обнаружение конфликтующих значений в кластере"""
        conflicts = {}
        for col in cluster_df.columns:
            if col.startswith('_'):
                continue
            unique_vals = cluster_df[col].dropna().unique()
            if len(unique_vals) > 1:
                conflicts[col] = unique_vals.tolist()
        return conflicts

    def _resolve_conflicts_with_llm(self, cluster_df: pd.DataFrame,
                                     conflicts: dict) -> dict:
        """LLM выбирает правильное значение при конфликте"""
        records = cluster_df.to_dict('records')
        records_str = json.dumps(records, ensure_ascii=False, default=str)

        response = self.llm.messages.create(
            model="claude-3-5-sonnet-20241022",
            max_tokens=300,
            messages=[{
                "role": "user",
                "content": f"""These are duplicate records that need to be merged.

Records:
{records_str[:800]}

Conflicting fields: {list(conflicts.keys())}

For each conflicting field, choose the most accurate/complete value.
Return JSON: {{"field_name": "chosen_value"}}"""
            }]
        )
        try:
            import json
            return json.loads(response.content[0].text)
        except Exception:
            return {}

AI-очистка текстовых данных

class AIDataCleaner:
    """Очистка и стандартизация текстовых полей"""

    def __init__(self):
        self.llm = Anthropic()

    def clean_addresses(self, addresses: list[str]) -> list[dict]:
        """Парсинг и стандартизация адресов"""
        batch_size = 10
        results = []

        for i in range(0, len(addresses), batch_size):
            batch = addresses[i:i + batch_size]
            addresses_str = "\n".join([f"{j+1}. {a}" for j, a in enumerate(batch)])

            response = self.llm.messages.create(
                model="claude-3-5-sonnet-20241022",
                max_tokens=500,
                messages=[{
                    "role": "user",
                    "content": f"""Parse and standardize these addresses.

{addresses_str}

Return JSON array: [{{"original": "...", "country": "...", "city": "...", "street": "...", "building": "...", "apartment": "...", "postal_code": "..."}}]
Use null for missing fields."""
                }]
            )

            try:
                import json
                batch_results = json.loads(response.content[0].text)
                results.extend(batch_results)
            except Exception:
                results.extend([{'original': a, 'error': 'parse_failed'} for a in batch])

        return results

    def standardize_companies(self, company_names: list[str]) -> list[dict]:
        """Стандартизация юридических форм компаний"""
        batch = company_names[:20]  # Пакет
        names_str = "\n".join([f"{i+1}. {n}" for i, n in enumerate(batch)])

        response = self.llm.messages.create(
            model="claude-3-5-sonnet-20241022",
            max_tokens=400,
            messages=[{
                "role": "user",
                "content": f"""Standardize company names. Extract legal form and clean name.

{names_str}

Return JSON: [{{"original": "...", "legal_form": "ООО|ОАО|ИП|Ltd|Inc|...", "clean_name": "name without legal form", "country": "RU|US|..."}}]"""
            }]
        )

        try:
            import json
            return json.loads(response.content[0].text)
        except Exception:
            return [{'original': n} for n in batch]

Fuzzy дедупликация 1M записей: 15-30 минут (зависит от среднего размера блоков). Точность обнаружения дубликатов при threshold=0.85: precision ~92%, recall ~88%. LLM-разрешение конфликтов применяется только к 5-10% пар (остальные объединяются автоматически), что делает стоимость AI-обработки приемлемой.