Nowe rozwiązanie dla AI na urządzeniach brzegowych: OmniVision-968M

Edge AI, czyli sztuczna inteligencja działająca na urządzeniach brzegowych, od dawna zmaga się z problemem równoważenia efektywności i wydajności. Główne wyzwania obejmują duży rozmiar modeli, ich wysokie zapotrzebowanie na zasoby obliczeniowe oraz problemy z opóźnieniami. Modele tworzone z myślą o chmurze często nie radzą sobie na urządzeniach o ograniczonych zasobach, takich jak smartfony, tablety czy urządzenia IoT. W efekcie dochodzi do nadmiernego zużycia baterii, wolniejszych czasów reakcji oraz problemów z łącznością.

W ostatnich latach rośnie zapotrzebowanie na lżejsze, ale wciąż wydajne modele. Przede wszystkim w zastosowaniach takich jak rzeczywistość rozszerzona, inteligentni asystenci domowi oraz przemysłowy Internet Rzeczy (IoT), które wymagają szybkiego przetwarzania danych wizualnych i tekstowych. Jednakże te rozwiązania napotykają dodatkowe trudności, takie jak wyższe wskaźniki generowania błędnych odpowiedzi (tzw. „halucynacje”) oraz mało wiarygodne wyniki w zadaniach takich jak odpowiedzi na pytania wizualne czy opis obrazów, gdzie kluczowa jest precyzja i jakość.

OmniVision-968M – Nowy standard w modelach językowych dla urządzeń brzegowych

Nexa AI, dostrzegając te wyzwania, wprowadziła na rynek model OmniVision-968M, najmniejszy na świecie model językowy oparty na wizji (VLM) przeznaczony dla urządzeń brzegowych. OmniVision-968M został zaprojektowany z myślą o znaczącym zmniejszeniu liczby tokenów obrazów aż dziewięciokrotnie – z 729 do zaledwie 81 – co pozwala na znaczną redukcję opóźnień i obciążenia obliczeniowego. Opracowany na bazie architektury LLaVA (Large Language and Vision Assistant), model ten osiąga nowy poziom kompaktowości i wydajności, idealny do działania na urządzeniach brzegowych.

Model ten jest szczególnie istotny dla rozwiązań wymagających przetwarzania danych na poziomie urządzeń, takich jak wearables, smartfony czy sprzęt IoT. Dzięki zmniejszeniu liczby tokenów obrazów oraz zoptymalizowanej architekturze, OmniVision-968M pozwala na znaczną poprawę wydajności przy jednoczesnym obniżeniu zużycia energii.

Kluczowe elementy architektury OmniVision-968M

Architektura OmniVision-968M opiera się na trzech głównych komponentach:

1. Model bazowy językowy: Główny model tekstowy, Qwen2.5-0.5B-Instruct, odpowiada za przetwarzanie danych językowych.

2. Koder wizji: SigLIP-400M, z rozdzielczością 384 i rozmiarem patcha 14×14, generuje osadzenia obrazów.

3. Warstwa projekcji: Wielowarstwowy perceptron (MLP) dopasowuje osadzenia kodera wizji do przestrzeni tokenowej modelu językowego. W porównaniu do standardowej architektury LLaVA, projektor w OmniVision-968M redukuje liczbę tokenów obrazów aż 9-krotnie.

Optymalizacja dla urządzeń brzegowych

OmniVision-968M jest idealnym rozwiązaniem dla urządzeń o ograniczonych zasobach, takich jak smartfony czy urządzenia IoT. Redukcja liczby tokenów obrazów z 729 do 81 to istotny krok w kierunku optymalizacji modeli językowych opartych na wizji. Dzięki temu model jest prawie dziewięć razy bardziej efektywny w przetwarzaniu tokenów w porównaniu do wcześniejszych rozwiązań. Zmniejszenie liczby tokenów bezpośrednio przekłada się na mniejsze zapotrzebowanie na moc obliczeniową oraz krótsze czasy reakcji, co jest kluczowe w zastosowaniach brzegowych.

Co więcej, model wykorzystuje technikę treningu Direct Preference Optimization (DPO), bazującą na zaufanych źródłach danych, co pozwala na zredukowanie ryzyka halucynacji, czyli generowania błędnych lub niedokładnych wyników. Dzięki temu OmniVision-968M oferuje wyższą niezawodność, szczególnie w zadaniach takich jak odpowiedzi na pytania wizualne oraz opisywanie obrazów – gdzie precyzja i niezawodność są kluczowe.

Zastosowanie w różnych branżach

Wstępne testy pokazały, że OmniVision-968M skraca czas wnioskowania o 35% w porównaniu do wcześniejszych modeli, jednocześnie utrzymując lub nawet poprawiając dokładność w zadaniach, takich jak odpowiadanie na pytania wizualne czy generowanie opisów obrazów. Te osiągnięcia mogą przyczynić się do szybszej adopcji modelu w różnych branżach, które wymagają szybkich i energooszczędnych interakcji AI. Sektory takie jak opieka zdrowotna, inteligentne miasta czy przemysł motoryzacyjny mogą zyskać na wdrożeniu OmniVision-968M, który zapewnia efektywność przy jednoczesnym niskim zużyciu energii.

Podsumowanie

OmniVision-968M od Nexa AI odpowiada na jedno z najważniejszych wyzwań w dziedzinie sztucznej inteligencji: potrzebę wydajnych modeli językowych opartych na wizji, które mogą działać bezproblemowo na urządzeniach brzegowych. Redukcja liczby tokenów obrazów, optymalizacja architektury LLaVA oraz zastosowanie treningu DPO to istotne innowacje, które sprawiają, że OmniVision-968M jest modelem gotowym do pracy w rzeczywistych zastosowaniach. Dzięki temu modelowi świat zbliża się do wizji wszechobecnej sztucznej inteligencji, gdzie inteligentne, połączone urządzenia mogą realizować złożone zadania lokalnie, bez potrzeby stałego wsparcia chmurowego.