Развёртывание LLM на Edge-устройствах
LLM на edge — не marketing buzz. Это решение реальных проблем: приватность данных, работа без интернета, latency критичные приложения. Но требования к hardware и выбор модели — ключевые инженерные решения.
Спектр Edge-устройств для LLM
Apple Silicon (M-серия): лучший edge-LLM hardware на сегодня. Unified memory позволяет использовать GPU полосу пропускания для LLM без PCIe ограничений. M2 Ultra: 192 GB unified memory — Llama 3 70B в float16. Стек: MLX framework или llama.cpp с Metal.
NVIDIA Jetson Orin: 64 GB для Orin AGX. CUDA-native, DeepSpeed/TensorRT-LLM. Production edge AI сервер.
x86 Server (без GPU): llama.cpp с AVX-512. Llama 3 8B Q4: 10–20 token/sec. Для low-throughput корпоративных задач.
ARM Server (Ampere, AWS Graviton): хорошая цена/производительность для batch inference.
Выбор модели для edge
| Размер параметров | RAM требование (Q4) | Применение |
|---|---|---|
| 1–3B | 1.5–2.5 GB | Mobile devices, MCU (TinyML) |
| 7–8B | 5–6 GB | Raspberry Pi 5, low-end desktop |
| 13B | 9 GB | Mid-range edge server |
| 70B | 40 GB | Jetson Orin AGX, M2 Ultra |
Serving стек
Ollama: простейший деплой, OpenAI-compatible API, auto-management моделей. Production-ready для одного инстанса.
vLLM (если CUDA доступен): лучшая throughput через PagedAttention. Для concurrent requests.
llama-server: часть llama.cpp, OpenAI-compatible, легковесный.
Оптимизации для edge
Speculative decoding (draft model + target model) — 2–3x ускорение при минимальных ресурсах. KV-cache quantization. Context window ограничение (меньше контекст = меньше памяти).
Пайплайн: 2–4 недели
Hardware оценка, выбор модели и квантизации, настройка serving, интеграция с приложением, нагрузочное тестирование.







