Какие модели можно конвертировать в Core ML?

Core ML поддерживает модели из PyTorch, TensorFlow/Keras, ONNX, а также популярные архитектуры компьютерного зрения (ResNet, YOLO), NLP (BERT, transformers) и другие. Ограничения связаны с отсутствием эквивалентов для некоторых кастомных операций.

Какой инструмент лучше: coremltools или mlx-lm?

coremltools — универсальный инструмент для большинства задач, поддерживает конвертацию и квантование. mlx-lm ориентирован на LLM и эффективнее для трансформеров на Apple Silicon. Выбор зависит от типа модели: для сетей небольшого размера используйте coremltools, для больших языковых моделей — mlx-lm.

Как проверить, что модель корректно работает после конвертации?

Мы сравниваем выходы исходной модели и Core ML на тестовых данных, измеряем максимальную абсолютную ошибку (Max Abs Error). Для Float16 допускается ошибка менее 1e-4. Дополнительно прогоняем модель на реальных Apple-устройствах и контролируем скорость инференса.

Влияет ли конвертация на точность модели?

Конвертация может снизить точность из-за квантования (Float32→Float16 или INT8). Мы применяем послеобученную оптимизацию и тестируем на репрезентативной выборке. В большинстве случаев падение точности не превышает 0.5%, а производительность увеличивается в 2–3 раза.

Сколько времени занимает конвертация модели?

Время зависит от сложности модели и желаемой оптимизации. Простая конвертация без квантования — от нескольких часов до 1 дня. С полной оптимизацией под ANE, квантованием и тестированием — от 2 до 5 дней.

Какие модели можно конвертировать в Core ML?

Core ML поддерживает модели из PyTorch, TensorFlow/Keras, ONNX, а также популярные архитектуры компьютерного зрения (ResNet, YOLO), NLP (BERT, transformers) и другие. Ограничения связаны с отсутствием эквивалентов для некоторых кастомных операций.

Какой инструмент лучше: coremltools или mlx-lm?

coremltools — универсальный инструмент для большинства задач, поддерживает конвертацию и квантование. mlx-lm ориентирован на LLM и эффективнее для трансформеров на Apple Silicon. Выбор зависит от типа модели: для сетей небольшого размера используйте coremltools, для больших языковых моделей — mlx-lm.

Как проверить, что модель корректно работает после конвертации?

Мы сравниваем выходы исходной модели и Core ML на тестовых данных, измеряем максимальную абсолютную ошибку (Max Abs Error). Для Float16 допускается ошибка менее 1e-4. Дополнительно прогоняем модель на реальных Apple-устройствах и контролируем скорость инференса.

Влияет ли конвертация на точность модели?

Конвертация может снизить точность из-за квантования (Float32→Float16 или INT8). Мы применяем послеобученную оптимизацию и тестируем на репрезентативной выборке. В большинстве случаев падение точности не превышает 0.5%, а производительность увеличивается в 2–3 раза.

Сколько времени занимает конвертация модели?

Время зависит от сложности модели и желаемой оптимизации. Простая конвертация без квантования — от нескольких часов до 1 дня. С полной оптимизацией под ANE, квантованием и тестированием — от 2 до 5 дней.

Оптимизация ML-моделей под Core ML для Apple устройств

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Оптимизация ML-моделей под Core ML для Apple устройств

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1349
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

При попытке развернуть обученную модель на iPhone разработчики часто сталкиваются с несовместимостью: PyTorch или TensorFlow напрямую не работают на Apple Silicon. Без конвертации в Core ML вы теряете доступ к Neural Engine (ANE) — а это 15-кратный прирост производительности и 10-кратное снижение энергопотребления. Типичный сценарий: вы обучили YOLOv8 детекцию объектов под PyTorch и хотите запустить её на iPhone в реальном времени. Прямой экспорт через torch.onnx часто падает из-за неподдерживаемых операций — например, torch.nn.functional.scaled_dot_product_attention или кастомных слоёв. Мы помогли десяткам команд перенести модели от компьютерного зрения до LLM под iOS и macOS.

Почему Apple Neural Engine критичен для производительности?

Apple Neural Engine — это специализированный сопроцессор, выполняющий матричные операции в 16-битном формате. Для нейросетей он даёт до 15-кратного ускорения и 10-кратного снижения энергопотребления по сравнению с CPU. Однако ANE принимает только модели, конвертированные в Core ML с 16-битным или квантованным представлением. Если ваша модель задействует операции, не совместимые с ANE (например, динамические разрешения или кастомные активации), инференс будет выполнен на CPU или GPU, что съедает батарею и фреймы.

Как конвертировать PyTorch модель в Core ML?

Основной инструмент — библиотека coremltools от Apple. Она поддерживает конвертацию из PyTorch, TensorFlow/Keras, ONNX. Пример для PyTorch:

Пример кода для конвертации

import coremltools as ct
import torch

model = torch.load('model.pth')
traced_model = torch.jit.trace(model, example_input)
coreml_model = ct.convert(traced_model, inputs=[ct.TensorType(shape=example_input.shape)])
coreml_model.save('model.mlpackage')

В результате получаем файл .mlpackage, который можно запускать на iPhone, iPad, Mac через MLModel. При конвертации важно учитывать формат входных данных и динамические размеры. Для моделей с изменяемой последовательностью (NLP) используйте ct.EnumeratedShapes.

Сравнение инструментов конвертации

Инструмент	Поддерживаемые фреймворки	Особенности
coremltools	PyTorch, TensorFlow, ONNX	универсальный, квантование, палетизация
mlx-lm	HuggingFace Transformers	оптимизирован для LLM на Apple Silicon
ONNX→Core ML	через coremltools	промежуточный конверт

Выбор инструмента зависит от архитектуры: для классических свёрточных сетей достаточно coremltools, для LLM (например, LLaMA 3) лучше использовать mlx-lm — он даёт прирост скорости до 40% за счёт оптимизации под MPS-граф.

Что делать с неподдерживаемыми операциями?

Не все операции имеют прямой аналог в Core ML. Типичные решения:

заменить кастомный слой на поддерживаемый (например, torch.nn.functional.leaky_relu на ct.nn.leaky_relu);
реализовать операцию через ct.CompositeOp;
предварительно упростить модель — заменить редкие функции на стандартные.

Например, при конвертации YOLOv8 мы столкнулись с операцией nn.Upsample mode='bilinear' — coremltools поддерживает только 'nearest' через слой upsample_bilinear. Решение — заменить mode перед трассировкой. В сложных случаях используем ct.converters.onnx как промежуточный формат.

Оптимизация под Neural Engine

ANE лучше всего работает со статичными размерами тензоров и квантованием. Мы используем 8-битное квантование (linear_symmetric) или 4-битную палетизацию для уменьшения размера модели. Это даёт прирост скорости до 30% на ANE без заметного падения качества. Типичные метрики после оптимизации:

Тип квантования	Размер модели	Падение точности (top-1)	Прирост скорости
Float32	100%	—	1x
Float16	50%	<0.1%	2x
INT8 (линейный)	25%	0.2–0.5%	3x
4-bit палетка	12%	0.5–1%	4x

Для моделей с high-level embeddings (например, BERT) используем квантование через ct.quantize_weights с калибровкой на репрезентативной выборке.

Как протестировать модель после конвертации?

После конвертации обязательно сравниваем выходы обеих версий на тестовой выборке. Контролируем max absolute error — для Float16 он не должен превышать 1e-4. Дополнительно прогоняем модель на iPhone, iPad и Mac, измеряем задержку (p99) и энергопотребление. В нашей практике p99 latency для YOLOv8 на iPhone 15 Pro составляет 2 мс, а энергопотребление снижается на 80% по сравнению с запуском на CPU.

Сколько времени занимает конвертация?

Время зависит от сложности модели и желаемой оптимизации. Простая конвертация без квантования занимает от нескольких часов до одного дня. Если нужна полная оптимизация под ANE, квантование и тестирование на устройствах — рассчитывайте на срок от двух до пяти дней. Мы всегда предоставляем предварительную оценку после анализа вашей модели.

Что входит в работу

Анализ модели и определение стратегии конвертации.
Конвертация с выбором оптимальных настроек (квантование, динамика).
Оптимизация под ANE и тестирование на реальных устройствах.
Предоставление готового .mlpackage с документацией.
Поддержка при интеграции в приложение на Swift/Objective-C.

Почему выбирают нас

Наш опыт — более 50 успешно конвертированных моделей для iOS и macOS. Сертифицированные инженеры Apple (ADP, WWDC участники). Мы гарантируем работоспособность модели на всех целевых устройствах. Среднее время проекта — от нескольких дней до двух недель в зависимости от сложности.

Получите консультацию по конвертации вашей модели: мы проанализируем архитектуру, подберём оптимальные инструменты и предоставим реалистичные сроки. Закажите тестовую конвертацию одной модели — увидите результат до начала полноценной работы.

Edge AI и оптимизация: деплой моделей без облака

Представьте: ваша модель распознавания лиц выдаёт 4 секунды latency на Jetson Orin, батарея садится за час, модель вылетает по OOM. Мы — команда инженеров по Edge AI с 5+ лет опыта — оптимизировали более 150 моделей для граничных устройств. Без профилирования и правильного выбора квантизации или дистилляции проект обречён. Разрыв между исследовательским кодом и edge-деплоем — отдельная инженерная дисциплина, мы помогаем её освоить за 2–16 недель под ключ. Услуги Edge AI и оптимизация моделей — это не просто экспорт, а системная работа с железом.

Почему просто «экспортировать модель» не работает

PyTorch-модель с float32 и batch_size=32 не готова к edge. Типичные проблемы:

ResNet-50 в fp32 занимает 98 MB, inference на Cortex-A78 — 380 мс. После INT8-квантизации torch.ao.quantization — 24 MB, 95 мс. Экспорт в ONNX + TensorRT на Jetson — 28 мс.
YOLOv8m на Raspberry Pi 5 в fp32 — 2.8 fps. TFLite INT8 — 9.4 fps. С XNNPACK делегатом — 14 fps.
Transformer-энкодер на мобильном CPU: MobileBERT в fp16 через CoreML на iPhone 15 — 18 мс/инференс. distilbert-base-uncased в ONNX — 42 мс.

Проблема не в выборе «квантизировать или нет» — правильный путь определяется устройством, задачей и допустимой деградацией метрики. Предлагаем оценку вашего проекта: за 24 часа скажем, насколько реально ускорить модель.

Какой метод квантизации выбрать для вашей задачи?

PTQ (Post-Training Quantization) — быстрый путь. Берёте обученную модель, прогоняете calibration dataset (200–1000 примеров), получаете INT8 или INT4 веса. Инструменты: torch.ao.quantization, ONNX Runtime quantization tool, bitsandbytes. Деградация точности: 0.5–2% на классификации. Красная зона — детекция мелких объектов и сегментация, где PTQ даёт -4–8% mAP.

QAT (Quantization-Aware Training) — обучение с симулированными квантизационными шумами. Дороже (переобучение), но деградация 0.1–0.5%. Оправдано, когда PTQ неприемлем. В PyTorch — torch.ao.quantization.prepare_qat().

GPTQ / AWQ — для LLM. AWQ лучше сохраняет качество при 4-bit квантизации. llm-compressor от Neural Magic или autoawq — основные библиотеки.

Метод	Время реализации	Деградация точности	Инструменты
PTQ	1–2 дня	0.5–2% (до 8% на детекции)	torch.ao, ONNX RT, bitsandbytes
QAT	1–3 недели	0.1–0.5%	torch.ao.prepare_qat, TF Quantization
GPTQ/AWQ	3–7 дней	1–3% (LLM)	autoawq, llm-compressor

Экономия от выбора правильного метода: до 350 000 ₽ в год на облачных инстансах за счёт снижения latency и энергопотребления. Стоимость проекта рассчитывается индивидуально — диапазон от 100 000 до 500 000 ₽ в зависимости от сложности модели.

Прунинг и дистилляция

Структурный прунинг удаляет каналы или слои. torch.nn.utils.prune — базовый инструмент. Для transformer — прунинг attention heads (LTP, movement pruning). Результат: ResNet-50 после удаления 40% каналов с fine-tuning — -35% размера, -28% latency, -1.2% top-1 accuracy.

Knowledge distillation — обучаем маленькую student имитировать большую teacher. Классика через KLDivLoss на soft labels. Feature distillation на промежуточных слоях эффективнее. Hugging Face DistilBERT: 66M vs 110M параметров, -40% latency, -3% на GLUE. Согласно Wikipedia, это техника сжатия модели.

Комбинированный подход: дистилляция → прунинг → QAT. Даёт максимальный эффект на ограниченном железе. Экономия на облачных вычислениях достигает 70% — мы фиксировали такую у нескольких клиентов.

Целевые платформы и инструменты

Платформа	Предпочтительный формат	Инструмент	Специфика
NVIDIA Jetson	TensorRT engine	`trtexec`, `torch2trt`	INT8 calibration, DLA offload
Apple Silicon / iOS	CoreML (.mlmodel)	`coremltools`	ANE (Neural Engine) автоматически
Android	TFLite (.tflite)	`tf.lite.TFLiteConverter`	GPU delegate, NNAPI
x86 CPU	ONNX + ORT	`onnxruntime`	AVX-512, VNNI
Arm Cortex	TFLite / ONNX	`ort-arm`, `tflite`	XNNPACK, NEON
Qualcomm NPU	QNN (.dlc)	Qualcomm AI Hub	Hexagon DSP

TensorRT — главный инструмент для NVIDIA edge. TRT строит граф с fusion операторов, выбирает оптимальные ядра. На Jetson AGX Orin YOLOv8m в TRT INT8 даёт 78 fps против 22 fps в fp16 PyTorch.

Практический кейс: детекция дефектов на производственной линии

Задача: обнаружение царапин на металле в реальном времени, 30 fps, камера к Jetson Xavier NX (16GB). Исходная модель YOLOv8l mAP50 0.91, inference на сервере 28 мс, на Jetson в fp16 — 110 мс (9 fps). Не подходит.

Шаги оптимизации:

Переход на YOLOv8m — mAP50 0.887 (-2.3%), 68 мс
Экспорт в TensorRT FP16 через yolo export format=engine half=True — 31 мс (32 fps)
INT8 calibration на 500 кадрах — 22 мс (45 fps), mAP50 0.879

Итого: деградация 3.5% при 5× ускорении. Клиент получил engine и документацию. Гарантируем, что метрика не упадёт ниже оговорённого порога — прописано в договоре.

Пример профилирования модели (latency по слоям)

Срез профиля YOLOv8m на Jetson Xavier NX (fp16):

Convolution (layer 1–5): 12 ms
Bottleneck (layer 6–10): 8 ms
Head (detection): 11 ms

Узкое место — последние слои head'а. После квантования head'а отдельно latency head снизилась до 4 ms.

Что входит в работу

Отчёт по профилированию модели на целевом устройстве (latency по слоям, узкие места)
Выбор и обоснование методов оптимизации (quantization / pruning / distillation)
Оптимизированная модель (TensorRT engine / TFLite / CoreML / ONNX)
Конфиги для воспроизведения (скрипты, Docker-образ, инструкция)
Тестирование на реальном устройстве (не менее 10 000 инференсов)
Обучение вашей команды (2 часа онлайн)
Поддержка 1 месяц после передачи

Как заказать оптимизацию модели

Оставьте заявку на сайте или свяжитесь с нами любым удобным способом.
Мы проводим бесплатное профилирование вашей модели на целевом устройстве в течение 24 часов.
Готовим план оптимизации с оценкой trade-off (скорость vs качество).
Вы утверждаете план — мы приступаем к работе.
После завершения передаём оптимизированную модель, конфиги и документацию.
Проводим обучение вашей команды и предоставляем месячную поддержку.

Сроки: оптимизация готовой модели — 2–4 недели. Разработка с нуля под edge — 6–16 недель.

Получите консультацию — мы бесплатно оценим вашу модель и предложим план за 24 часа. Закажите бесплатное профилирование прямо сейчас.