Apple Neural Engine, Qualcomm Hexagon i MediaTek AI chips umożliwiają uruchamianie modeli 7B+ lokalnie na telefonie. Era prywatnego AI bez wysyłania danych do chmury.
Apple M4 Neural Engine ma 38 TOPS (tera-operations-per-second) — wystarczająco do uruchomienia Llama 3.1 8B z płynną wydajnością. iPhone 16 Pro z modelem Apple Intelligence przetwarza większość zadań lokalnie, wysyłając do chmury tylko złożone zapytania. Qualcomm Snapdragon 8 Elite z dedykowanym NPU umożliwia to samo na Android.
Implikacje: prywatność — dane nie opuszczają urządzenia; offline AI — działa bez internetu; latencja — brak opóźnień sieciowych. Zastosowania: real-time translation (tłumaczenie w słuchawkach bez internetu), AI photo editing na urządzeniu, voice assistant bez chmury, inteligentne filtrowanie spamu i notyfikacji. Wyzwania: modele >7B wymagają splitu między NPU/GPU urządzenia, aktualizacja modeli wymaga OTA update.
Przyszłość 2027: modele 30B na flagowych smartfonach, AI które 'zna cię' bez sharing danych z chmurą.