AI на устройстве
On-device + Cloud = гибридный интеллект
Роутинг запросов
Классификатор на устройстве определяет, где лучше обработать запрос — локально или в облаке.
Классификатор
On-device классификатор
0.5B параметров, <100ms
простое / приватное / офлайн
Локально
On-device LLM
1.5B, 15 tok/s
сложное / креативное
Облако
Cloud API (Claude)
100+ tok/s
Модели на устройстве
Бенчмарки на RK3588 NPU (6 TOPS, INT8). Скорость зависит от размера модели и квантизации.
Qwen2.5-0.5B
0.5B
~600 MB
Qwen2.5-1.5B
1.5B
~1.5 GB
DeepSeek-R1-Distill-1.5B
1.5B
~1.5 GB
Phi-3-mini 3.8B
3.8B
~3.8 GB
RK3588 NPU: только W8A8 квантизация, макс. 16K контекст, 6 TOPS
Голосовой пайплайн
Полный цикл обработки голоса на устройстве — от микрофона до динамика.
STT
SenseVoice
<500ms
400 MB
LLM
Qwen 1.5B
15 tok/s
1.5 GB
Итого: ~2-2.5 GB RAM, ~1-2s end-to-end
Сравнение сред выполнения
| Runtime |
NPU |
CPU |
Для чего |
| RKLLM |
Да (единственный!) |
Нет |
LLM на NPU |
| llama.cpp |
Нет |
Да (NEON) |
LLM на CPU, fallback |
| sherpa-onnx |
Да (для STT) |
Да |
Речь: STT / TTS / VAD с NPU |
| Piper |
Нет |
Да |
TTS, 0.2 RTF (5x realtime) |
На устройстве vs Облако
На устройстве
Скорость
15 tok/s
Качество
Базовое
Первый токен
200-500ms
Стоимость
$0
Офлайн
Да
Приватность
Полная
Облако (Claude)
Скорость
100+ tok/s
Качество
Отличное
Первый токен
+сеть latency
Стоимость
$0.04-15/M tok
Офлайн
Нет
Приватность
Данные идут в облако
Стратегия: Гибрид
On-device для простых, приватных и офлайн задач. Cloud для сложного рассуждения и креативных задач.