AI-First OS

AI на устройстве

On-device + Cloud = гибридный интеллект

Роутинг запросов

Классификатор на устройстве определяет, где лучше обработать запрос — локально или в облаке.

Вход
Запрос пользователя
Классификатор
On-device классификатор
0.5B параметров, <100ms
простое / приватное / офлайн
Локально
On-device LLM
1.5B, 15 tok/s
сложное / креативное
Облако
Cloud API (Claude)
100+ tok/s

Модели на устройстве

Бенчмарки на RK3588 NPU (6 TOPS, INT8). Скорость зависит от размера модели и квантизации.

Qwen2.5-0.5B
0.5B ~600 MB
25-35 tok/s
Llama 3.2-1B
1B ~1 GB
20-30 tok/s
Qwen2.5-1.5B
1.5B ~1.5 GB
15 tok/s
DeepSeek-R1-Distill-1.5B
1.5B ~1.5 GB
15 tok/s
Phi-3-mini 3.8B
3.8B ~3.8 GB
6.5 tok/s
Qwen2.5-7B
7B ~7 GB
3-4 tok/s

RK3588 NPU: только W8A8 квантизация, макс. 16K контекст, 6 TOPS

Голосовой пайплайн

Полный цикл обработки голоса на устройстве — от микрофона до динамика.

Микрофон
 
Вход
VAD
Silero
<50ms
50 MB
STT
SenseVoice
<500ms
400 MB
LLM
Qwen 1.5B
15 tok/s
1.5 GB
TTS
Piper
<200ms
50 MB
Динамик
 
Выход
Итого: ~2-2.5 GB RAM, ~1-2s end-to-end

Сравнение сред выполнения

Runtime NPU CPU Для чего
RKLLM Да (единственный!) Нет LLM на NPU
llama.cpp Нет Да (NEON) LLM на CPU, fallback
sherpa-onnx Да (для STT) Да Речь: STT / TTS / VAD с NPU
Piper Нет Да TTS, 0.2 RTF (5x realtime)

На устройстве vs Облако

На устройстве
Скорость 15 tok/s
Качество Базовое
Первый токен 200-500ms
Стоимость $0
Офлайн Да
Приватность Полная
Облако (Claude)
Скорость 100+ tok/s
Качество Отличное
Первый токен +сеть latency
Стоимость $0.04-15/M tok
Офлайн Нет
Приватность Данные идут в облако
Стратегия: Гибрид
On-device для простых, приватных и офлайн задач. Cloud для сложного рассуждения и креативных задач.