MILS – Nowa Era dla Sztucznej Inteligencji Multimodalnej

Współczesne modele językowe (LLM), choć niezwykle zaawansowane, mają ograniczenia w zakresie pracy z multimodalnymi treściami, takimi jak obrazy, wideo czy dźwięki. Wynika to z ich pierwotnego przeznaczenia – przetwarzania tekstu. Tradycyjne podejścia do multimodalnej sztucznej inteligencji (AI) opierają się na modelach wyspecjalizowanych w konkretnych zadaniach, które wymagają obszernie oznaczonych zbiorów danych. Niestety, takie podejścia są nie tylko zasobożerne, ale również ograniczone w kontekście elastyczności i dostosowania do nowych zadań.

Problemy z obecnymi systemami multimodalnymi

Konwencjonalne systemy AI, takie jak modele CLIP do łączenia tekstu z obrazem czy modele dyfuzyjne do generowania multimediów, są zależne od ogromnych zbiorów danych treningowych. Nawet podejścia zero-shot, jak ZeroCap czy MeaCap, które próbują działać na podstawie minimalnych danych, mają swoje ograniczenia. Ich architektura jest sztywna, a proces optymalizacji oparty na gradientach ogranicza adaptację do nowych zadań. Trzy główne problemy tych metod to: zależność od oznaczonych danych, niemożność wyjścia poza zakres zbiorów treningowych oraz ograniczenia w elastyczności. Bez rozwiązania tych problemów AI multimodalna pozostaje ograniczona do konkretnych zastosowań i danych.

MILS – Przełomowe rozwiązanie od Meta

Badacze z Meta zaproponowali nowe podejście – MILS (Multimodal Iterative LLM Solver). To ramowe rozwiązanie do optymalizacji w czasie rzeczywistym, które wzbogaca modele językowe o możliwość rozumowania multimodalnego bez potrzeby dodatkowego treningu. MILS działa w iteracyjnym cyklu, w którym wykorzystuje dwa kluczowe komponenty: GENERATOR i OCENIAJĄCY. GENERATOR, którym jest model językowy, tworzy propozycje rozwiązań dla zadań multimodalnych, takich jak opisy obrazów, wideo czy dźwięków. OCENIAJĄCY, czyli wcześniej wytrenowany model multimodalny, ocenia te propozycje pod kątem spójności, trafności i zgodności z danymi wejściowymi. Proces ten jest powtarzany wielokrotnie, co pozwala na ciągłe doskonalenie wyników. Dzięki temu MILS umożliwia generalizację zero-shot w różnych modalnościach, takich jak tekst, obrazy, wideo i dźwięki.

Jak działa MILS?

MILS stosuje metodę optymalizacji, która nie wymaga modyfikacji parametrów istniejących modeli. Przykładowo, do opisywania obrazów framework wykorzystuje model Llama 3.1 8B jako GENERATOR i modele oparte na CLIP jako OCENIAJĄCY. Proces polega na iteracyjnej optymalizacji opisów, aż do uzyskania najbardziej trafnego i szczegółowego opisu. Podobna procedura stosowana jest w przypadku analizy wideo, gdzie oceny dokonuje model ViCLIP, oraz w przypadku dźwięków, wykorzystując model ImageBind jako OCENIAJĄCY. W zadaniach generowania obrazów MILS optymalizuje tekstowe opisy, zanim zostaną przesłane do modeli dyfuzyjnych, co prowadzi do generowania obrazów o wyższej jakości. Co więcej, framework wspiera transfer stylu, umożliwiając generowanie zoptymalizowanych opisów edycji, które prowadzą do bardziej spójnych wizualnie transformacji. Jednym z najciekawszych zastosowań MILS jest tzw. arytmetyka między modalnościami, pozwalająca na łączenie różnych typów danych, takich jak opisy dźwięków i obrazów, w jednolitą reprezentację multimodalną.

Wyniki i potencjał MILS

MILS osiągnął imponujące wyniki w testach zero-shot, przewyższając wcześniejsze rozwiązania zarówno w zadaniach opisywania, jak i generowania. W kontekście opisywania obrazów generuje bardziej naturalne i precyzyjne opisy niż inne modele zero-shot. W przypadku wideo i dźwięków, nawet bez specyficznego treningu, przewyższa modele trenowane na ogromnych zbiorach danych. W generowaniu obrazów MILS optymalizuje jakość i wierność generowanych treści, a jego prace są preferowane przez ludzkich oceniających w większości przypadków. Transfer stylu z MILS jest bardziej dokładny, co prowadzi do wizualnie lepszych transformacji. Innowacyjna arytmetyka modalności pozwala na tworzenie spójnych wyjść z różnych typów danych wejściowych.

Nowy standard w multimodalnej AI

MILS to rewolucja w dziedzinie AI, oferująca możliwość pracy z multimodalnymi treściami bez potrzeby czasochłonnego treningu. Dzięki iteracyjnemu mechanizmowi optymalizacji w czasie rzeczywistym framework pozwala na dynamiczne rozwiązywanie zróżnicowanych zadań. Przy użyciu już istniejących modeli językowych i multimodalnych MILS stanowi przełomowe rozwiązanie, które wskazuje nowy kierunek dla elastycznych i skalowalnych systemów AI. Otwiera on drzwi do bardziej zaawansowanych zastosowań, od opisywania treści, przez generowanie obrazów, aż po transfer stylu, redefiniując możliwości sztucznej inteligencji w wielu dziedzinach.