Nowa generacja systemów multimodalnych – przełom w rozumieniu wizualnym
Multimodalne modele językowe (MLLM), wykorzystujące różnorodne sygnały sensoryczne w jednym spójnym systemie, zyskują na znaczeniu w dążeniu do stworzenia sztucznej inteligencji o ogólnych zdolnościach poznawczych. Jednak pomimo obiecujących perspektyw, te zaawansowane modele wciąż borykają się z wieloma wyzwaniami w zakresie zadań opartych na analizie wizualnej. Kluczowe problemy, takie jak rozpoznawanie obiektów, lokalizacja czy analiza ruchu, nadal są dalekie od możliwości ludzkiego mózgu. Choć badania oraz skalowanie modeli przynoszą pewne postępy, droga do osiągnięcia ludzkiego poziomu zrozumienia wizualnego pozostaje trudna i niejasna. Współczesne prace badawcze podkreślają złożoność rozwoju adaptacyjnych i inteligentnych systemów multimodalnych, które mogłyby interpretować różnorodne dane sensoryczne z precyzją i elastycznością zbliżoną do człowieka.
Problemy modeli MLLM w zrozumieniu wizualnym
Obecne podejścia badawcze skupiły się na łączeniu enkoderów wizyjnych, modeli językowych oraz odpowiednich modułów komunikacyjnych za pomocą technik tzw. strojenia instrukcjami (instruction tuning). Pozwala to na realizację złożonych zadań, takich jak generowanie opisów obrazów czy odpowiadanie na zapytania wizualne. Innowacyjne rozwiązania obejmują różne aspekty, takie jak architektura modelu, jego wielkość, dobór danych treningowych czy optymalizacja wydajności. Dodatkowo, modele obsługujące wideo (video-capable MLLMs) wykazały zdolność do przetwarzania sekwencji obrazów i rozumienia zmian w czasie oraz przestrzeni. Jednak mimo postępów, precyzyjne zadania wizualne, takie jak segmentacja obrazów czy analiza temporalna, pozostają wyzwaniem. W odpowiedzi na te trudności, opracowano dwie główne strategie: metodologię „pixel-to-sequence” (P2S) oraz „pixel-to-embedding” (P2E).
InternVideo2.5 – nowy standard w multimodalnych modelach wideo
Zespół badawczy z Shanghai AI Laboratory, Uniwersytetu Nankińskiego oraz Chińskiej Akademii Nauk w Shenzhen zaproponował innowacyjny model InternVideo2.5. Celem było przezwyciężenie kluczowych ograniczeń w rozumieniu szczegółowych informacji wizualnych wideo oraz złożonych struktur temporalnych. Model ten wprowadza nowe podejście do przetwarzania długiego i bogatego kontekstu (LRC – Long and Rich Context), integrując gęste adnotacje wizualne z multimodalnymi modelami językowymi za pomocą bezpośredniej optymalizacji preferencji. Kluczowym rozwiązaniem jest także zastosowanie adaptacyjnej hierarchicznej kompresji tokenów, co pozwala na tworzenie bardziej kompaktowych reprezentacji czasowo-przestrzennych.
Architektura InternVideo2.5 obejmuje dynamiczne próbkowanie wideo, przetwarzając od 64 do 512 klatek, przy czym każda 8-klatkowa sekwencja jest kompresowana do 128 tokenów, co daje 16 tokenów na klatkę. Model wykorzystuje głowicę Temporal Head opartą na architekturze CG-DETR i Mask Head z wstępnie wytrenowanymi wagami SAM2. Do ekstrakcji cech wideo zastosowano InternVideo2, a przetwarzanie cech zapytań odbywa się za pośrednictwem modelu językowego. W celu optymalizacji zdolności czasowo-przestrzennych, system używa dwuwarstwowych wielowarstwowych perceptronów (MLP) do kodowania pozycyjnego i przestrzennego.
Wyniki i przewaga InternVideo2.5
Model InternVideo2.5 osiągnął imponujące wyniki w benchmarkach oceniających rozumienie wideo, zarówno w przypadku krótkich, jak i długich sekwencji wideo. W porównaniu do podstawowego modelu InternVL2.5 zaobserwowano znaczące poprawy, w tym wzrost o ponad 3 punkty w testach MVBench oraz Perception Test dla krótkich sekwencji wideo. Model ten przewyższa również konkurencyjne rozwiązania, takie jak GPT4-o czy Gemini-1.5-Pro, w zadaniach zrozumienia spatiotemporalnego. Dodatkowo, ocena Needle-In-The-Haystack (NIAH) potwierdziła zdolność modelu do skutecznego zapamiętywania i przypominania informacji, nawet w złożonych zadaniach obejmujących 5 000 klatek wideo.
Przyszłość badań nad multimodalnymi systemami AI
InternVideo2.5 udowadnia, że integracja długiego i bogatego kontekstu jest kluczowym elementem rozwoju systemów multimodalnych. Nowe podejście, wykorzystujące optymalizację preferencji i hierarchiczną kompresję tokenów, otwiera nowe możliwości w zakresie rozumienia wizualnego, takich jak śledzenie obiektów czy analiza złożonych struktur czasowo-przestrzennych. Niemniej jednak wyzwania, takie jak wysokie koszty obliczeniowe oraz potrzeba dalszych badań nad technikami przetwarzania kontekstu, pozostają. Tym samym InternVideo2.5 stanowi jedynie krok naprzód w długiej drodze do opracowania w pełni funkcjonalnych systemów multimodalnych o ludzkich możliwościach poznawczych.
Podsumowując, rozwój modeli takich jak InternVideo2.5 pokazuje, że sztuczna inteligencja coraz lepiej radzi sobie z integracją złożonych danych sensorycznych. Przyszłość badań w tej dziedzinie zapowiada się obiecująco, oferując możliwość dalszej poprawy zdolności AI w zakresie analizy wizualnej i jej zastosowań w rzeczywistości.