Сколько HD-потоков может обрабатывать DeepStream на Jetson Orin AGX?

Jetson Orin AGX обрабатывает до 32 HD-потоков с моделью YOLOv8n FP16 при 30 FPS на поток. Всё зависит от модели и сложности постинга.

Какие модели детекции поддерживает DeepStream?

DeepStream поддерживает детекторы через TensorRT: YOLO (v3–v8), SSD, Faster R-CNN, а также классификаторы и сегментаторы. Для YOLO требуется кастомный парсер, который мы подключаем.

Сложно ли интегрировать DeepStream с существующей VMS?

Интеграция с Milestone, Genetec или другими VMS возможна через RTSP-вывод или HTTP API. Поток метаданных публикуется в Kafka/MQTT, откуда VMS забирает данные. Обычно интеграция занимает 2–4 недели.

Нужен ли GPU для работы DeepStream на Edge?

DeepStream использует GPU NVIDIA (Jetson или dGPU). На Jetson встроенный GPU с ускорителями декодирования. На x86 требуется карта NVIDIA с поддержкой CUDA. Без GPU фреймворк не работает.

Какие гарантии вы даёте на внедрение DeepStream?

Гарантируем стабильную работу пайплайна при заявленной нагрузке, фиксируем метрики FPS и latency p99. После внедрения предоставляем документацию и 2 месяца поддержки.

Сколько HD-потоков может обрабатывать DeepStream на Jetson Orin AGX?

Jetson Orin AGX обрабатывает до 32 HD-потоков с моделью YOLOv8n FP16 при 30 FPS на поток. Всё зависит от модели и сложности постинга.

Какие модели детекции поддерживает DeepStream?

DeepStream поддерживает детекторы через TensorRT: YOLO (v3–v8), SSD, Faster R-CNN, а также классификаторы и сегментаторы. Для YOLO требуется кастомный парсер, который мы подключаем.

Сложно ли интегрировать DeepStream с существующей VMS?

Интеграция с Milestone, Genetec или другими VMS возможна через RTSP-вывод или HTTP API. Поток метаданных публикуется в Kafka/MQTT, откуда VMS забирает данные. Обычно интеграция занимает 2–4 недели.

Нужен ли GPU для работы DeepStream на Edge?

DeepStream использует GPU NVIDIA (Jetson или dGPU). На Jetson встроенный GPU с ускорителями декодирования. На x86 требуется карта NVIDIA с поддержкой CUDA. Без GPU фреймворк не работает.

Какие гарантии вы даёте на внедрение DeepStream?

Гарантируем стабильную работу пайплайна при заявленной нагрузке, фиксируем метрики FPS и latency p99. После внедрения предоставляем документацию и 2 месяца поддержки.

Настройка NVIDIA DeepStream для Edge-видеоаналитики

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Настройка NVIDIA DeepStream для Edge-видеоаналитики

Средний

~2-3 дня

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Представьте: 200 RTSP-потоков с камер, а CPU-сервер захлебывается на 10 потоках. DeepStream на Jetson Orin решает это — аппаратное декодирование и GPU-инференс дают 32 потока на одной плате. Но настройка пайплайна требует понимания GStreamer и TensorRT. Мы настраиваем пайплайны видеоаналитики на базе NVIDIA DeepStream для Edge-устройств. DeepStream SDK — GStreamer-based фреймворк с аппаратным ускорением: декодирование RTSP, детекция объектов, трекинг, публикация метаданных в Kafka — всё на Jetson или GPU. На Jetson Orin обрабатываем 16+ HD-потоков в реальном времени, что в 10 раз больше, чем аналоги на OpenCV и Intel Xeon. Опыт 30+ проектов видеоаналитики подтверждает надёжность решения.

Архитектура DeepStream пайплайна

GStreamer плагины DeepStream формируют линейный пайплайн:

[RTSP/File/USB] → nvv4l2decoder → nvstreammux → nvinfer → nvtracker
                                                    ↓
[Kafka/MQTT/File] ← nvmsgbroker ← nvmsgconv ← nvdsosd ← nvinfer (secondary)

nvv4l2decoder: Hardware decode (H.264/H.265/AV1) через Jetson VPU. Zero-copy в GPU memory — нет CPU→GPU transfer.

nvstreammux: Мультиплексирует N потоков в batch. batch-size=8 → один вызов инференса для 8 кадров одновременно.

nvinfer: TensorRT engine внутри. Поддерживает detector (YOLO, SSD), classifier, segmentor. Конфиг через .txt файл — model engine, batch size, precision.

nvtracker: Multi-object tracking. Алгоритмы: IOU, NvSORT, NvDeepSORT (с ReID), NvDCF (correlation filter). DeepSORT: Re-ID сеть для удержания ID при перекрытиях.

nvmsgconv + nvmsgbroker: Конвертация метаданных bbox/trackID/class в JSON, публикация в Kafka, MQTT, Azure IoT Hub, AWS IoT.

Почему DeepStream на Edge эффективнее CPU-решений?

Сравнение с OpenCV на CPU показывает: DeepStream на Jetson Orin AGX обрабатывает 32 HD-потока с YOLOv8n FP16 при 30 FPS, тогда как OpenCV на Intel Xeon справляется с 2–3 потоками. Причина — аппаратное декодирование, zero-copy и TensorRT на GPU. Экономия на облачных вычислениях достигает 3–5 раз за счёт локальной обработки.

Конфигурация под конкретные задачи

Охранное видеонаблюдение (16 RTSP-камер)

[primary-gie]
model-engine-file=yolov8n.engine
batch-size=16
interval=0          # каждый кадр
network-type=0      # detector

[tracker]
tracker-width=640
tracker-height=384
ll-lib-file=/opt/nvidia/deepstream/lib/libnvds_nvmultiobjecttracker.so
ll-config-file=nvdcf_tracking.yml

Производственный контроль качества (1–2 камеры высокого разрешения): batch-size=1, interval=0, primary detector → secondary classifier (дефект/норма). Высокое разрешение: tile-based inference через nvdspreprocess с overlapping tiles.

Подсчёт людей в зонах: nvinfer → nvtracker → nvdsanalytics. nvdsanalytics: ROI counting, line crossing detection, direction detection. Всё через конфиг без написания кода.

Как интегрировать кастомные модели YOLO?

Экспорт модели в ONNX: yolo export model=yolov8n.pt format=onnx
Конвертация ONNX в TensorRT engine: trtexec --onnx=yolov8n.onnx --saveEngine=yolov8n.engine --fp16
Написание custom parser (C++) для разбора output-тензора в NvDsInferObjectDetectionInfo.
Подключение engine и parser в конфиг DeepStream.

Если не хотите писать парсер с нуля, используем готовые решения: Ultralytics GitHub для экспорта напрямую в TensorRT или DeepStream-Yolo с готовыми парсерами для разных версий YOLO.

Пример custom parser:

extern "C" bool NvDsInferParseCustomYoloV8(
    std::vector<NvDsInferLayerInfo> const& outputLayersInfo,
    NvDsInferNetworkInfo const& networkInfo,
    NvDsInferParseDetectionParams const& detectionParams,
    std::vector<NvDsInferObjectDetectionInfo>& objectList) {
    // парсинг тензора → NvDsInferObjectDetectionInfo
}

Python биндинги (pyds)

Для кастомной логики в probe callbacks:

def osd_sink_pad_buffer_probe(pad, info, u_data):
    gst_buffer = info.get_buffer()
    batch_meta = pyds.gst_buffer_get_nvds_batch_meta(hash(gst_buffer))

    for frame_meta in pyds.NvDsFrameMetaList(batch_meta.frame_meta_list):
        for obj_meta in pyds.NvDsObjectMetaList(frame_meta.obj_meta_list):
            if obj_meta.class_id == PERSON_CLASS:
                # кастомная логика: фильтрация, алерты, запись
                obj_meta.rect_params.border_color.set(1.0, 0, 0, 1.0)

Probe на любой pad пайплайна — полный доступ к метаданным без остановки потока.

Деплой на Jetson

JetPack: последняя версия включает все зависимости. Установка: apt install deepstream-7.0. Сертифицированные инженеры NVIDIA настраивают окружение.

TensorRT engine генерация:

trtexec --onnx=yolov8n.onnx \
        --saveEngine=yolov8n.engine \
        --fp16 \
        --workspace=2048 \
        --minShapes=input:1x3x640x640 \
        --optShapes=input:8x3x640x640 \
        --maxShapes=input:16x3x640x640

Engine генерируется на конкретном устройстве — не переносим между разными Jetson SKU.

Контейнеризация: nvcr.io/nvidia/deepstream:7.0-gc-triton-devel. Docker на Jetson с --runtime nvidia. Оркестрация через docker-compose или K3s.

Масштабирование и мониторинг

Метрики: DeepStream Prometheus exporter — FPS per source, inference time, tracker update time, drop frame ratio. Grafana dashboard.

Multi-node: Kafka как транспорт метаданных между узлами. Каждый Jetson — producer. Центральный сервер — consumer + агрегация.

Удалённое управление: DeepStream App Framework с REST API (ds-server): добавление/удаление RTSP источников без перезапуска пайплайна.

Сравнение производительности

Платформа	Потоков HD	Модель	FPS/поток
Jetson Orin AGX	32	YOLOv8n FP16	30
Jetson Orin NX 16G	16	YOLOv8n FP16	30
Jetson Orin Nano	4	YOLOv8n INT8	25
RTX 4090 (x86)	64+	YOLOv8s FP16	30

Решение	Потоков HD	FPS/поток	Стоимость инфраструктуры
DeepStream на Jetson Orin	32	30	Низкая
OpenCV на Intel Xeon	2	25	Высокая

DeepStream на Jetson обеспечивает в 10 раз больше потоков при значительно меньших затратах. Внедрение может сократить расходы на серверное оборудование до 80%.

Что входит в работу

Аудит текущей инфраструктуры и требований.
Проектирование пайплайна: выбор модели, параметры, интеграции.
Кастомизация моделей (fine-tuning, quantization INT8/FP16).
Разработка custom parsers и probe callbacks.
Интеграция с VMS (Milestone, Genetec) и внешними системами (Kafka, MQTT).
Документация и обучение операторов.
Гарантия стабильной работы 6 месяцев.

Инвестиции в DeepStream окупаются за 6–12 месяцев за счёт отказа от дорогих CPU-серверов и сокращения трафика на облачные сервисы.

Сроки: 4–8 недель

Базовая конфигурация с готовой моделью — 1–2 недели. Кастомные парсеры, интеграция с VMS, сложная бизнес-логика — 6–8 недель.

Свяжитесь с нами — оценим ваш проект за 2 дня. Получите консультацию сертифицированного инженера NVIDIA. GStreamer

Edge AI и оптимизация: деплой моделей без облака

Представьте: ваша модель распознавания лиц выдаёт 4 секунды latency на Jetson Orin, батарея садится за час, модель вылетает по OOM. Мы — команда инженеров по Edge AI с 5+ лет опыта — оптимизировали более 150 моделей для граничных устройств. Без профилирования и правильного выбора квантизации или дистилляции проект обречён. Разрыв между исследовательским кодом и edge-деплоем — отдельная инженерная дисциплина, мы помогаем её освоить за 2–16 недель под ключ. Услуги Edge AI и оптимизация моделей — это не просто экспорт, а системная работа с железом.

Почему просто «экспортировать модель» не работает

PyTorch-модель с float32 и batch_size=32 не готова к edge. Типичные проблемы:

ResNet-50 в fp32 занимает 98 MB, inference на Cortex-A78 — 380 мс. После INT8-квантизации torch.ao.quantization — 24 MB, 95 мс. Экспорт в ONNX + TensorRT на Jetson — 28 мс.
YOLOv8m на Raspberry Pi 5 в fp32 — 2.8 fps. TFLite INT8 — 9.4 fps. С XNNPACK делегатом — 14 fps.
Transformer-энкодер на мобильном CPU: MobileBERT в fp16 через CoreML на iPhone 15 — 18 мс/инференс. distilbert-base-uncased в ONNX — 42 мс.

Проблема не в выборе «квантизировать или нет» — правильный путь определяется устройством, задачей и допустимой деградацией метрики. Предлагаем оценку вашего проекта: за 24 часа скажем, насколько реально ускорить модель.

Какой метод квантизации выбрать для вашей задачи?

PTQ (Post-Training Quantization) — быстрый путь. Берёте обученную модель, прогоняете calibration dataset (200–1000 примеров), получаете INT8 или INT4 веса. Инструменты: torch.ao.quantization, ONNX Runtime quantization tool, bitsandbytes. Деградация точности: 0.5–2% на классификации. Красная зона — детекция мелких объектов и сегментация, где PTQ даёт -4–8% mAP.

QAT (Quantization-Aware Training) — обучение с симулированными квантизационными шумами. Дороже (переобучение), но деградация 0.1–0.5%. Оправдано, когда PTQ неприемлем. В PyTorch — torch.ao.quantization.prepare_qat().

GPTQ / AWQ — для LLM. AWQ лучше сохраняет качество при 4-bit квантизации. llm-compressor от Neural Magic или autoawq — основные библиотеки.

Метод	Время реализации	Деградация точности	Инструменты
PTQ	1–2 дня	0.5–2% (до 8% на детекции)	torch.ao, ONNX RT, bitsandbytes
QAT	1–3 недели	0.1–0.5%	torch.ao.prepare_qat, TF Quantization
GPTQ/AWQ	3–7 дней	1–3% (LLM)	autoawq, llm-compressor

Экономия от выбора правильного метода: до 350 000 ₽ в год на облачных инстансах за счёт снижения latency и энергопотребления. Стоимость проекта рассчитывается индивидуально — диапазон от 100 000 до 500 000 ₽ в зависимости от сложности модели.

Прунинг и дистилляция

Структурный прунинг удаляет каналы или слои. torch.nn.utils.prune — базовый инструмент. Для transformer — прунинг attention heads (LTP, movement pruning). Результат: ResNet-50 после удаления 40% каналов с fine-tuning — -35% размера, -28% latency, -1.2% top-1 accuracy.

Knowledge distillation — обучаем маленькую student имитировать большую teacher. Классика через KLDivLoss на soft labels. Feature distillation на промежуточных слоях эффективнее. Hugging Face DistilBERT: 66M vs 110M параметров, -40% latency, -3% на GLUE. Согласно Wikipedia, это техника сжатия модели.

Комбинированный подход: дистилляция → прунинг → QAT. Даёт максимальный эффект на ограниченном железе. Экономия на облачных вычислениях достигает 70% — мы фиксировали такую у нескольких клиентов.

Целевые платформы и инструменты

Платформа	Предпочтительный формат	Инструмент	Специфика
NVIDIA Jetson	TensorRT engine	`trtexec`, `torch2trt`	INT8 calibration, DLA offload
Apple Silicon / iOS	CoreML (.mlmodel)	`coremltools`	ANE (Neural Engine) автоматически
Android	TFLite (.tflite)	`tf.lite.TFLiteConverter`	GPU delegate, NNAPI
x86 CPU	ONNX + ORT	`onnxruntime`	AVX-512, VNNI
Arm Cortex	TFLite / ONNX	`ort-arm`, `tflite`	XNNPACK, NEON
Qualcomm NPU	QNN (.dlc)	Qualcomm AI Hub	Hexagon DSP

TensorRT — главный инструмент для NVIDIA edge. TRT строит граф с fusion операторов, выбирает оптимальные ядра. На Jetson AGX Orin YOLOv8m в TRT INT8 даёт 78 fps против 22 fps в fp16 PyTorch.

Практический кейс: детекция дефектов на производственной линии

Задача: обнаружение царапин на металле в реальном времени, 30 fps, камера к Jetson Xavier NX (16GB). Исходная модель YOLOv8l mAP50 0.91, inference на сервере 28 мс, на Jetson в fp16 — 110 мс (9 fps). Не подходит.

Шаги оптимизации:

Переход на YOLOv8m — mAP50 0.887 (-2.3%), 68 мс
Экспорт в TensorRT FP16 через yolo export format=engine half=True — 31 мс (32 fps)
INT8 calibration на 500 кадрах — 22 мс (45 fps), mAP50 0.879

Итого: деградация 3.5% при 5× ускорении. Клиент получил engine и документацию. Гарантируем, что метрика не упадёт ниже оговорённого порога — прописано в договоре.

Пример профилирования модели (latency по слоям)

Срез профиля YOLOv8m на Jetson Xavier NX (fp16):

Convolution (layer 1–5): 12 ms
Bottleneck (layer 6–10): 8 ms
Head (detection): 11 ms

Узкое место — последние слои head'а. После квантования head'а отдельно latency head снизилась до 4 ms.

Что входит в работу

Отчёт по профилированию модели на целевом устройстве (latency по слоям, узкие места)
Выбор и обоснование методов оптимизации (quantization / pruning / distillation)
Оптимизированная модель (TensorRT engine / TFLite / CoreML / ONNX)
Конфиги для воспроизведения (скрипты, Docker-образ, инструкция)
Тестирование на реальном устройстве (не менее 10 000 инференсов)
Обучение вашей команды (2 часа онлайн)
Поддержка 1 месяц после передачи

Как заказать оптимизацию модели

Оставьте заявку на сайте или свяжитесь с нами любым удобным способом.
Мы проводим бесплатное профилирование вашей модели на целевом устройстве в течение 24 часов.
Готовим план оптимизации с оценкой trade-off (скорость vs качество).
Вы утверждаете план — мы приступаем к работе.
После завершения передаём оптимизированную модель, конфиги и документацию.
Проводим обучение вашей команды и предоставляем месячную поддержку.

Сроки: оптимизация готовой модели — 2–4 недели. Разработка с нуля под edge — 6–16 недель.

Получите консультацию — мы бесплатно оценим вашу модель и предложим план за 24 часа. Закажите бесплатное профилирование прямо сейчас.