Nowa era sztucznej inteligencji na urządzeniach mobilnych

Rozwój sztucznej inteligencji w ostatnich latach sprawił, że coraz częściej spotykamy się z jej zastosowaniem na urządzeniach mobilnych, w systemach IoT czy wbudowanych rozwiązaniach. Przetwarzanie danych bezpośrednio na urządzeniach końcowych poprawia prywatność, zmniejsza opóźnienia i zwiększa ogólną responsywność systemów. Jednak wdrażanie dużych modeli językowych (LLM) na tego typu sprzęcie stawia przed inżynierami ogromne wyzwania związane z wymaganiami obliczeniowymi oraz pamięciowymi.

Problemy z wdrażaniem dużych modeli językowych na urządzeniach mobilnych

LLM to potężne modele, które mogą składać się z miliardów parametrów. Ich działanie wymaga ogromnych zasobów pamięci i mocy obliczeniowej, co znacznie przewyższa możliwości większości urządzeń mobilnych i wbudowanych. Wprawdzie techniki kwantyzacji pomagają zmniejszyć rozmiar modeli i obniżyć zapotrzebowanie na energię, ale tradycyjny sprzęt jest zoptymalizowany przede wszystkim do symetrycznych obliczeń, co ogranicza wsparcie dla operacji o mieszanej precyzji. Brak natywnej obsługi niskobitowych operacji obliczeniowych utrudnia wdrażanie LLM na urządzeniach mobilnych i systemach IoT.

Dotychczasowe metody uruchamiania LLM na urządzeniach końcowych korzystają z formatów o wysokiej precyzji, takich jak FP32 i FP16. Choć zapewniają one stabilność numeryczną, wymagają dużej ilości pamięci i energii. Zastosowanie kwantyzacji do niższych wartości, np. int8 lub int4, pozwala ograniczyć zużycie zasobów, jednak często powoduje problemy ze zgodnością ze sprzętem. Inną metodą jest dekwantyzacja, która ponownie rozszerza skompresowane modele przed wykonaniem obliczeń, jednak wprowadza dodatkowe opóźnienia i niweluje korzyści wydajnościowe. Dodatkowo, klasyczna procedura mnożenia macierzowego (GEMM) wymaga jednolitej precyzji, co utrudnia optymalizację wydajności na różnych architekturach sprzętowych.

Nowe podejście Microsoftu do optymalizacji LLM

Naukowcy z Microsoftu opracowali innowacyjne rozwiązania, które umożliwiają efektywne stosowanie niskobitowej kwantyzacji dla LLM na urządzeniach końcowych. W swoich badaniach zaprezentowali trzy kluczowe technologie:

1. Kompilator Ladder Data Type – narzędzie przekształcające modele niskobitowe w formaty zgodne ze sprzętem, minimalizując jednocześnie utratę wydajności.
2. Biblioteka T-MAC mpGEMM – usprawniająca mieszane obliczenia precyzyjne poprzez zastosowanie tablic wyszukiwania (LUT) zamiast tradycyjnych operacji mnożenia.
3. Architektura sprzętowa LUT Tensor Core – specjalnie zaprojektowany akcelerator optymalizujący przetwarzanie niskobitowych danych, zwiększający efektywność energetyczną i wydajność obliczeniową.

Dzięki tym technikom naukowcy stworzyli praktyczne ramy umożliwiające sprawne uruchamianie dużych modeli językowych na urządzeniach mobilnych i wbudowanych, bez konieczności korzystania ze specjalistycznych procesorów graficznych czy wysokowydajnych akceleratorów.

Jak działają nowe technologie?

Pierwszy element, kompilator Ladder Data Type, umożliwia efektywne zarządzanie reprezentacjami danych o niskiej precyzji. Konwertuje on formaty, które nie są natywnie obsługiwane przez sprzęt, na zoptymalizowane odpowiedniki, dzięki czemu nowoczesne modele głębokiego uczenia mogą korzystać z niestandardowych typów danych bez utraty wydajności.

Kolejnym kluczowym rozwiązaniem jest biblioteka T-MAC mpGEMM, która optymalizuje obliczenia poprzez zastosowanie tablic wyszukiwania (LUT) zamiast tradycyjnych operacji mnożenia. Pozwala to uniknąć konieczności dekwantyzacji, co znacząco poprawia efektywność działania na procesorach.

Ostatnią innowacją jest architektura LUT Tensor Core – specjalny akcelerator zoptymalizowany pod kątem niskobitowej kwantyzacji. Dzięki niemu można uzyskać wyższą wydajność przy jednoczesnym ograniczeniu poboru mocy.

Wydajność nowych technologii w praktyce

Przeprowadzone testy wykazały znaczącą poprawę efektywności tych rozwiązań. Kompilator Ladder Data Type osiągnął nawet 14,6-krotne przyspieszenie w porównaniu do tradycyjnych kompilatorów sieci neuronowych.

W praktycznych zastosowaniach na urządzeniach końcowych biblioteka T-MAC mpGEMM zapewniła następujące wyniki:
48 tokenów na sekundę dla modelu 3B BitNet-b1.58 na laptopie Surface z układem Qualcomm Snapdragon X Elite,
11 tokenów na sekundę na Raspberry Pi 5, co stanowi znaczną poprawę w stosunku do dotychczasowych metod,
30 tokenów na sekundę dla 2-bitowego modelu 7B Llama,
20 tokenów na sekundę dla 4-bitowego modelu 7B Llama.

Dodatkowo, architektura LUT Tensor Core osiągnęła 11,2-krotną poprawę efektywności energetycznej i 20,9-krotne zwiększenie gęstości obliczeniowej.

Wnioski

Badania Microsoftu pokazują, że niskobitowa kwantyzacja może skutecznie zmniejszyć rozmiar modeli i umożliwić ich efektywne wykorzystanie na urządzeniach mobilnych oraz wbudowanych. Dzięki bibliotece T-MAC możliwe jest znaczące przyspieszenie wnioskowania modeli poprzez eliminację klasycznych operacji mnożenia, a kompilator Ladder Data Type ułatwia integrację niestandardowych formatów danych z istniejącym sprzętem.

Co więcej, optymalizacja pod kątem niskiego poboru energii sprawia, że LLM mogą być teraz wdrażane na szeroką skalę – od wydajnych laptopów, przez smartfony, aż po niskomocowe urządzenia IoT. Te innowacje stanowią przełom w wykorzystaniu sztucznej inteligencji na urządzeniach końcowych, umożliwiając rozwój bardziej zaawansowanych i dostępnych aplikacji AI w różnych sektorach technologii.