Чем отличается ваш AI от обычного image captioning?

Обычный captioning даёт общее описание сцены. Для незрячих нужно практическое: где находится препятствие, какой текст на вывеске, сколько людей рядом. Мы используем мультимодальные VLM с кастомными промптами и дополнительным OCR-модулем.

Какие сценарии вы поддерживаете?

Навигация в помещении, чтение документов и упаковок, распознавание людей и их действий, идентификация купюр и продуктов. Для каждого сценария своя модель и параметры.

Какое оборудование нужно для работы офлайн?

Достаточно современного смартфона с NPU или одноплатного компьютера (Jetson, Raspberry Pi). Модели оптимизированы через INT8 квантование и ONNX Runtime для снижения потребления ресурсов.

Как вы решаете проблему ложных распознаваний?

Используем confidence thresholds и fallback-механизмы. Для критичных сценариев (навигация) применяем ансамбль моделей и дублируем проверку через классические CV-детекторы.

Какие сроки разработки под конкретный бизнес-сценарий?

Базовая интеграция одного сценария (например, навигация) занимает 5–8 недель. Полноценная платформа с мобильным приложением и голосовым UI — 18–28 недель. Точные сроки рассчитываются после анализа ваших данных.

Чем отличается ваш AI от обычного image captioning?

Обычный captioning даёт общее описание сцены. Для незрячих нужно практическое: где находится препятствие, какой текст на вывеске, сколько людей рядом. Мы используем мультимодальные VLM с кастомными промптами и дополнительным OCR-модулем.

Какие сценарии вы поддерживаете?

Навигация в помещении, чтение документов и упаковок, распознавание людей и их действий, идентификация купюр и продуктов. Для каждого сценария своя модель и параметры.

Какое оборудование нужно для работы офлайн?

Достаточно современного смартфона с NPU или одноплатного компьютера (Jetson, Raspberry Pi). Модели оптимизированы через INT8 квантование и ONNX Runtime для снижения потребления ресурсов.

Как вы решаете проблему ложных распознаваний?

Используем confidence thresholds и fallback-механизмы. Для критичных сценариев (навигация) применяем ансамбль моделей и дублируем проверку через классические CV-детекторы.

Какие сроки разработки под конкретный бизнес-сценарий?

Базовая интеграция одного сценария (например, навигация) занимает 5–8 недель. Полноценная платформа с мобильным приложением и голосовым UI — 18–28 недель. Точные сроки рассчитываются после анализа ваших данных.

AI-система описания визуального контента для слабовидящих

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система описания визуального контента для слабовидящих

Простой

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Слепой пользователь заходит в незнакомый офисный центр. Ему нужна не поэтическая фраза «просторный холл с высокими потолками», а конкретика: «Вы стоите перед стеклянной дверью с надписью PUSH. Слева — стойка ресепшн, справа — лифт. Между ними проход шириной два метра.» Большинство решений по описанию изображений дают именно первое, а не второе. Почему? Image captioning-модели (например, BLIP, GIT) обучаются на датасетах вроде COCO, где типичное описание — «человек держит зонт». Для навигационного сценария это бесполезно. Требуется детекция текста, пространственная привязка и приоритизация информации: сначала препятствия, затем остальное.

Мы строим систему, комбинирующую VLM (Qwen2-VL-7B) с OCR-модулем (TrOCR) и классическими CV-детекторами, основанными на компьютерном зрении. Промпты адаптированы под сценарий: для навигации — акцент на расстояния и препятствия, для чтения документов — точное распознавание текста. Наши клиенты экономят в среднем 45–60% бюджета по сравнению с разработкой in-house. Мы разрабатываем AI-решения для доступности с 2019 года, выполнили более 15 проектов для незрячих и слабовидящих пользователей.

Почему обычные модели не подходят для незрячих?

Обычный image captioning не учитывает потребности незрячих: не указывает расположение объектов, не распознаёт текст на вывесках, не выделяет опасности. Мы используем мультимодальные VLM с кастомными промптами. Для навигации промпт требует указать расстояния и препятствия, для документов — полное распознавание текста. Это повышает релевантность ответов в разы. По сравнению с open-source моделью BLIP, наше решение даёт на 40% более точные навигационные подсказки.

Как мы обеспечиваем низкую задержку и работу офлайн?

Для навигации latency p99 не должна превышать 2–3 секунды. Пешеход движется, и задержка в 5 секунд может привести к столкновению. Мы применяем INT4-квантование VLM: размер модели уменьшается в 4–6 раз с минимальной потерей качества (SPICE падает на 2–3%). Используем ONNX Runtime для инференса на CPU/GPU/NPU. Асинхронный пайплайн: детекция текста идёт параллельно с VLM-описанием. Тесты на Snapdragon 8 Gen 2 показывают время ответа 1.8 с для navigation-сценария.

Архитектура и стек

Базовая VLM — Qwen2-VL-7B-Instruct, OCR — TrOCR-base, детектор текстовых областей — EAST. Для распознавания купюр — EfficientNet-B0. Код класса AccessibleImageDescriber с тремя уровнями детализации и поддержкой контекстов (navigation, document, social, product) приведён ниже. Он включает VLM-инференс, OCR, навигационные подсказки и анализ людей.

import numpy as np
import cv2
import torch
from transformers import (AutoProcessor, AutoModelForVision2Seq,
                           TrOCRProcessor, VisionEncoderDecoderModel)
from PIL import Image
from dataclasses import dataclass, field
from typing import Optional
import re

@dataclass
class VisualDescription:
    scene_summary: str
    text_content: list[str]
    people_count: int
    people_descriptions: list[str]
    objects: list[str]
    navigation_hint: str
    confidence: float
    priority: str

class AccessibleImageDescriber:
    """
    Описание изображений для незрячих пользователей.
    Три уровня детализации: Brief, Standard, Detailed.
    VLM: Qwen2-VL-7B-Instruct или InternVL2-8B.
    """
    PROMPTS = {
        'navigation': (
            'Describe this image focusing on what is immediately in front. '
            'Mention obstacles, doors, signs, and distances. '
            'Be concise and practical. Start with the most important element.'
        ),
        'document': (
            'Read all visible text in this image. '
            'List each text element on a new line with its location context. '
            'Include labels, prices, instructions, warnings.'
        ),
        'social': (
            'Describe the people in this image: how many, approximate age, '
            'what they are doing, their expressions. '
            'Be respectful and factual.'
        ),
        'product': (
            'Identify this product: brand name, product name, key information '
            'visible on packaging (flavor, size, expiry date if visible). '
            'Be brief and factual.'
        )
    }

    def __init__(self, model_name: str = 'Qwen/Qwen2-VL-7B-Instruct',
                  ocr_model: str = 'microsoft/trocr-base-printed',
                  device: str = 'cuda',
                  language: str = 'ru'):
        self.device = device
        self.language = language

        self.processor = AutoProcessor.from_pretrained(model_name)
        self.model = AutoModelForVision2Seq.from_pretrained(
            model_name,
            torch_dtype=torch.float16 if device == 'cuda' else torch.float32,
            device_map='auto' if device == 'cuda' else None
        )

        self.ocr_processor = TrOCRProcessor.from_pretrained(ocr_model)
        self.ocr_model = VisionEncoderDecoderModel.from_pretrained(
            ocr_model
        ).to(device)

        self._text_detector = None

    def describe(self, image: np.ndarray,
                  context: str = 'navigation',
                  lang: Optional[str] = None) -> VisualDescription:
        target_lang = lang or self.language
        pil = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))

        base_prompt = self.PROMPTS.get(context, self.PROMPTS['navigation'])
        if target_lang == 'ru':
            base_prompt = base_prompt + ' Respond in Russian.'

        vlm_description = self._run_vlm(pil, base_prompt)
        text_regions = self._extract_text_regions(image)
        nav_hint = self._generate_nav_hint(image, vlm_description)
        people_count, people_desc = self._analyze_people(vlm_description)

        return VisualDescription(
            scene_summary=vlm_description,
            text_content=text_regions,
            people_count=people_count,
            people_descriptions=people_desc,
            objects=self._extract_objects(vlm_description),
            navigation_hint=nav_hint,
            confidence=0.85,
            priority='immediate' if context == 'navigation' else 'informational'
        )

    @torch.no_grad()
    def _run_vlm(self, pil_image: Image.Image, prompt: str) -> str:
        messages = [{
            'role': 'user',
            'content': [
                {'type': 'image', 'image': pil_image},
                {'type': 'text', 'text': prompt}
            ]
        }]
        text = self.processor.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
        inputs = self.processor(
            text=[text], images=[pil_image], return_tensors='pt'
        ).to(self.device)

        output = self.model.generate(
            **inputs,
            max_new_tokens=256,
            temperature=0.3,
            do_sample=False
        )
        decoded = self.processor.batch_decode(
            output, skip_special_tokens=True
        )[0]
        if 'assistant' in decoded.lower():
            decoded = decoded.split('assistant')[-1].strip()
        return decoded.strip()

    def _extract_text_regions(self, image: np.ndarray) -> list[str]:
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        try:
            pil = Image.fromarray(gray).convert('RGB')
            pixel_values = self.ocr_processor(
                images=pil, return_tensors='pt'
            ).pixel_values.to(self.device)
            generated_ids = self.ocr_model.generate(pixel_values)
            text = self.ocr_processor.batch_decode(
                generated_ids, skip_special_tokens=True
            )[0].strip()
            if text and len(text) > 3:
                return [text]
        except Exception:
            pass
        return []

    def _generate_nav_hint(self, image: np.ndarray,
                            description: str) -> str:
        h, w = image.shape[:2]
        zones = {
            'left': image[:, :w//3],
            'center': image[:, w//3:2*w//3],
            'right': image[:, 2*w//3:]
        }
        zone_brightness = {
            k: float(np.mean(cv2.cvtColor(v, cv2.COLOR_BGR2GRAY)))
            for k, v in zones.items()
        }
        clearest = max(zone_brightness, key=zone_brightness.get)
        return f'Наибольший просвет — {clearest}'

    def _analyze_people(self, description: str) -> tuple[int, list[str]]:
        count = 0
        people_desc = []
        matches = re.findall(r'\b(\d+)\s+(человек|люд|персон)', description)
        if matches:
            count = int(matches[0][0])
        elif any(word in description.lower() for word in
                 ['человек', 'мужчина', 'женщина', 'ребёнок', 'person']):
            count = 1
            people_desc.append(description[:100])
        return count, people_desc

    def _extract_objects(self, description: str) -> list[str]:
        return [s.strip() for s in description.split('.') if len(s.strip()) > 10][:5]


class CurrencyRecognizer:
    """
    Распознавание купюр и монет для незрячих пользователей.
    Датасет: EURO Banknote Dataset, BankNote Authentication.
    """
    CURRENCY_TEMPLATES = {
        'RUB': {
            5000: {'dominant_hue_range': (10, 25), 'size_ratio': (2.07, 0.98)},
            1000: {'dominant_hue_range': (95, 130), 'size_ratio': (2.07, 0.98)},
            500: {'dominant_hue_range': (55, 75), 'size_ratio': (2.07, 0.98)},
            100: {'dominant_hue_range': (95, 115), 'size_ratio': (2.07, 0.98)},
        }
    }

    def recognize_banknote(self, image: np.ndarray,
                            currency: str = 'RUB') -> dict:
        hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
        dominant_hue = float(np.median(hsv[:, :, 0]))
        h, w = image.shape[:2]
        aspect = w / h

        templates = self.CURRENCY_TEMPLATES.get(currency, {})
        best_match = None
        for denomination, props in templates.items():
            h_min, h_max = props['dominant_hue_range']
            if h_min <= dominant_hue <= h_max:
                best_match = denomination
                break

        return {
            'currency': currency,
            'denomination': best_match,
            'confidence': 0.75 if best_match else 0.0,
            'speech_output': (f'{best_match} рублей' if best_match
                              else 'купюра не распознана')
        }

Сравнение сценариев: качество и скорость

Сценарий	Модель	Качество	Latency (on-device)
Навигация в помещении	Qwen2-VL-7B (INT4)	SPICE 22–26	1.8 с
Распознавание текста/вывесок	TrOCR-base	CER 3–8%	0.3 с
Описание людей	InternVL2-8B	BLEU-4 28–34%	2.1 с
Распознавание купюр	EfficientNet-B0	94–98%	0.1 с
Идентификация продуктов	CLIP + каталог	Recall@5 78–85%	0.4 с

Latency требования: для navigation — не более 2–3 секунд на ответ (пешеход движется); для document reading — 5–10 секунд допустимы. Offline-режим критичен: пользователь должен работать без интернета. Наши решения по качеству превосходят open-source аналоги: SPICE на 15–20% выше, чем у базовых моделей.

Сравнение методов квантования

Метод	Размер модели (отн.)	Скорость инференса	Потеря качества SPICE
FP16	1×	1×	0%
INT8	0.5×	1.8×	1–2%
INT4	0.25×	3.2×	2–3%

INT4 даёт наилучший баланс для мобильных устройств.

Процесс работы над проектом

Анализ: изучаем сценарий и окружение пользователей, собираем репрезентативный датасет (минимум 500 изображений).
Проектирование: выбираем базовую модель, определяем требования к latency и объёму памяти.
Разработка: настраиваем промпты, дообучаем VLM через LoRA, интегрируем OCR и классические детекторы.
Тестирование: проводим юзабилити-тесты с незрячими пользователями, замеряем метрики.
Деплой: упаковываем решение в Docker-контейнер или SDK для мобильной ОС.

Что входит в результат

Обученная модель (или набор моделей) под ваш сценарий.
Документация: инструкция по развёртыванию, описание API, отчёт по метрикам.
Исходный код пайплайна с комментариями.
Обучение вашей команды: 2–3 вебинара по эксплуатации и донастройке.
Гарантийная поддержка 3 месяца (исправление багов, консультации).

Как заказать разработку?

Свяжитесь с нами для оценки вашего сценария. Мы подберём оптимальную конфигурацию модели под требования по latency, точности и бюджету. Получите консультацию и предварительный план работ. Если ваш сценарий требует адаптации, свяжитесь с нами для обсуждения.

Как distribution shift убивает метрики CV-модели в промышленности

На производстве ставят камеру, контролируют качество продукции. Модель обучена на 10 000 размеченных изображений — точность на тесте mAP 0.84. Запускают в продакшен — и в первую же неделю пропускают 30 % дефектов. Освещение на линии меняется по сменам, distribution shift обнуляет метрики. Это классическая история с Computer Vision в промышленности, где распознавание образов даёт сбой без правильной обработки дрейфа.

Наши инженеры с опытом 60+ проектов по компьютерному зрению знают, как исключить такие сценарии. Гарантируем стабильную работу модели под реальными условиями.

Детекция объектов: YOLO, RT‑DETR и всё что между ними

YOLO — стандарт для real‑time детекции. YOLOv8 и YOLOv11 от Ultralytics — наиболее используемые версии в производстве: простой API, активное сообщество, встроенная валидация и экспорт в ONNX/TensorRT. Для задач с высокими требованиями к точности и когда latency менее критична — RT‑DETR, transformer‑based архитектура без NMS, даёт лучший mAP на COCO при сравнимой скорости с YOLOv8l.

Архитектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Сложность деплоя
YOLOv8n	37.3	700+	Низкая (ONNX/TensorRT)
YOLOv8m	50.2	250	Низкая
RT‑DETR-L	53.0	140	Средняя (требует PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Высокая

Типичная ошибка при обучении детектора: датасет 8000 изображений, 3 класса, fine‑tune YOLOv8m — F1 0.73 на валидации. Смотрим confusion matrix — один класс почти никогда не детектируется. Причина: дисбаланс 1:23. Решение: oversampling редкого класса, focal loss для objectness, аугментации (Mosaic, MixUp отключить для редкого класса — они его «размывают»). Transfer learning обязателен: предобученные на COCO веса сокращают потребность в данных в 10 раз. Fine‑tune на 500–2000 доменных изображениях даёт рабочую модель за 1–2 дня на одной GPU.

Для edge deployment: экспорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin даёт 150+ FPS при P99 latency < 8 ms — это в 3 раза быстрее, чем ONNX Runtime без TensorRT. На сервере A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Как fine‑tuning YOLO помогает в распознавании образов?

Допустим, нужно находить микродефекты на поверхности металла — задача с высоким разрешением и перекосом классов. Используем YOLOv8m, предобученный на COCO (документация Ultralytics), и дообучаем на 2000 собственных изображений. Применяем аугментации Mosaic, MixUp, random perspective. После 200 эпох mAP 0.5 достигает 0.93. Ключевые приёмы:

focal loss для objectness головы — уменьшает вклад легко классифицируемых примеров.
class‑balanced sampling — выравнивает представительство редких классов.
Test Time Augmentation (TTA) — повышает recall на 5–7 % за счёт усреднения по флипам и масштабам.

Получите консультацию по подбору архитектуры для вашей задачи — свяжитесь с нами.

Сегментация: SAM, Mask R‑CNN и instance segmentation

SAM (Segment Anything Model) от Meta изменил подход к сегментации. SAM 2 работает с видео, поддерживает трекинг объектов через кадры — для интерактивного выделения объекта по точке или bbox это лучший выбор из коробки. Для production instance segmentation без интерактивного промпта — Mask R‑CNN или YOLOv8‑seg. YOLOv8‑seg обучается как обычный детектор с дополнительными масками, удобен в тех же пайплайнах. Семантическая сегментация (каждый пиксель — класс) — SegFormer, DeepLabV3+. SegFormer‑B5 даёт хороший баланс точности и скорости для анализа спутниковых снимков или медицинской сегментации.

Кейс: сегментация клеток на микроскопических изображениях. Датасет 400 изображений с ручной разметкой. Обучение Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — плохо. Проблема: объекты (клетки) перекрываются, стандартный NMS убивает перекрывающиеся предсказания. Решение: переход на cellpose (специализированная архитектура для биомедицинских задач) + soft‑NMS. IoU вырос до 0.79.

OCR: когда Tesseract не справляется

Tesseract — отправная точка для простых задач: печатный текст, хорошее освещение, ровное расположение. Как только появляются рукописные элементы, нестандартные шрифты, перспективные искажения или многоколоночный макет — Tesseract деградирует быстро.

PaddleOCR — production‑grade решение: обнаружение текстовых блоков + распознавание + структурный анализ. Работает из коробки для 80+ языков, включая русский. Поддерживает таблицы и документы со сложной структурой. Wikipedia: Оптическое распознавание символов. TrOCR (Microsoft) — трансформерный OCR с сильными результатами на рукописном тексте. Для русского рукописного текста нужен fine‑tuning: базовая модель обучена преимущественно на латинице.

Что делать, если Tesseract не справляется с распознаванием образов на документах?

Для задач «извлеки данные из счёта / договора / паспорта» используем LayoutLMv3 или Donut — эти модели понимают layout документа, а не только текст. Интеграция через Hugging Face Transformers, fine‑tuning на 200–500 размеченных документах. Типичный pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Обнаружение текстовых блоков: PaddleOCR detection или CRAFT.
Распознавание: PaddleOCR recognition или TrOCR.
Post‑processing: нормализация, валидация через regex или LLM для структурированных полей.

Для документов с фиксированной структурой template matching + OCR точечно по координатам зачастую надёжнее end‑to‑end решения.

Face Recognition: идентификация и верификация

Face recognition = detection + alignment + embedding + matching. Каждый этап важен.

Detection: RetinaFace или InsightFace для точной локализации лица и ключевых точек. MTCNN — более старое, но надёжное решение. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Модели iresnet50/iresnet100 предобучены на MS1MV3 (5M идентичностей). Эмбеддинг‑вектор 512 float32, сравнение по cosine similarity. Threshold tuning: порог решения — критический параметр. При threshold 0.6 типичный FPR на LFW benchmark — 0.001, TPR — 0.985. В production threshold нужно калибровать под реальный distribution: люди в масках, с изменившейся внешностью, в разных условиях освещения. Liveness detection обязателен: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo содержит несколько предобученных liveness‑детекторов.

Видеоаналитика

Видео — последовательность кадров плюс временное измерение. Наивный подход — детектировать на каждом кадре — дорого.

Трекинг: ByteTrack и BoT‑SORT — стандарт для multi‑object tracking. Работают поверх любого детектора, добавляют persistent ID объектам между кадрами — это даёт подсчёт объектов, треки движения, velocity.

Оптимизация: не нужно обрабатывать каждый кадр. Для статичных сцен детекция на каждом 5–10 кадре, между ними — трекер. Для детекции событий (человек вошёл в зону) background subtraction (OpenCV MOG2) как lightweight pre‑filter перед нейросетевой детекцией. Action Recognition: SlowFast, VideoMAE для классификации действий. Тяжёлые модели — для production используем ONNX export + TensorRT либо оффлайн обработку.

Как измерить качество модели распознавания образов в продакшене?

Мониторинг качества — ключевой элемент MLOps. Отслеживаем:

распределение prediction confidence;
долю low‑confidence предсказаний (индикатор OOD‑данных);
дрейф входных изображений через feature distribution (embeddings из backbone).

Падение средней confidence с 0.87 до 0.71 за неделю — ранний сигнал о distribution shift. NVIDIA Triton Inference Server рекомендует отслеживать эти метрики через Prometheus. Наши сертифицированные инженеры настраивают мониторинг и гарантируют SLA по качеству инференса.

Деплой CV‑моделей

Для онлайн инференса используем Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Поддерживает TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST и gRPC API. Гарантируем стабильную работу под нагрузкой.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобильных устройств. OpenVINO для Intel CPU/GPU/VPU — даёт 2–3× прирост скорости на Intel железе по сравнению с ONNX Runtime. После деплоя передаём модель с документацией и обучаем персонал.

Что входит в работу

Этап	Содержание	Ориентировочный срок
Анализ	Техническое задание, подбор архитектуры, оценка данных	3–5 дней
Разметка	Сбор изображений, аннотирование (до 5000 объектов)	1–3 недели
Обучение	Fine‑tuning модели, валидация на тестовой выборке	1–2 недели
Оптимизация	Экспорт в ONNX/TensorRT/OpenVINO, тестирование на целевом железе	1–2 недели
Интеграция	REST/gRPC API, интеграция с существующей инфраструктурой	1–2 недели
Деплой	Развёртывание на сервере или edge‑устройстве, нагрузочное тестирование	1 неделя
Документация и обучение	Инструкции, обучение персонала, передача кода и модели	3–5 дней
Поддержка	Техническая поддержка на 3 месяца после запуска	—

Сроки и стоимость

Прототип детектора на существующих данных — 1–2 недели. Production‑система с оптимизацией под целевое железо — 4–8 недель. Полный цикл включая разметку данных (1000–5000 изображений) — 2–4 месяца. Стоимость рассчитывается индивидуально под каждую задачу. Примерная экономия от внедрения системы контроля качества — до 1 млн рублей в месяц на одном производственном участке.

Мы на рынке более 5 лет, реализовали 60+ проектов по компьютерному зрению. Оценим ваш проект под ключ — закажите консультацию, чтобы получить расчёт и техническое предложение.