Przełom w generowaniu obrazów i wideo: Wprowadzenie Polynomial Mixer (PoM)

Generowanie obrazów i wideo przeszło ogromną ewolucję w ciągu ostatnich lat, przechodząc drogę od skomplikowanego wyzwania technologicznego do zadania, które obecnie można w dużej mierze rozwiązać za pomocą komercyjnych narzędzi, takich jak Stable Diffusion czy Sora. Kluczowym elementem, który umożliwił ten postęp, jest zastosowanie mechanizmu Multihead Attention (MHA) w architekturach transformerów. Dzięki swojej zdolności do skalowania, MHA znacząco przyczyniło się do poprawy modeli generatywnych. Jednak ten rozwój wiąże się z istotnymi wyzwaniami obliczeniowymi.

Transformery charakteryzują się kwadratową złożonością obliczeniową, co oznacza, że zwiększenie rozdzielczości generowanego obrazu prowadzi do wykładniczego wzrostu wymagań procesorowych. Na przykład podwojenie rozdzielczości obrazu wiąże się z 16-krotnym wzrostem kosztów obliczeniowych, a generowanie wideo wymaga jeszcze większej mocy obliczeniowej. Ta ograniczona skalowalność stanowi znaczącą barierę w budowie dużych modeli generatywnych o wysokiej jakości wizualnej.

Alternatywy dla klasycznych modeli generatywnych

Aby zniwelować te trudności, badacze skupili się na alternatywnych podejściach, takich jak modele dyfuzyjne i szybkie metody zarządzania uwagą. Modele dyfuzyjne wykorzystują architekturę U-Net z wbudowanymi warstwami uwagi, które uczą się przekształcać zaszumione obrazy w bardziej naturalne reprezentacje. Proces ten odbywa się w dwóch etapach: przetwarzania naprzód i wstecz. Innym podejściem są próby redukcji złożoności mechanizmu uwagi, takie jak Reformer, który aproksymuje macierze uwagi, czy Linformer, który projektuje klucze i wartości w przestrzeniach o niższych wymiarach.

Z kolei modele oparte na dynamicznych stanach (State-Space Models – SSM) oferują liniową złożoność obliczeniową. Chociaż są one obiecujące, posiadają pewne ograniczenia – w tym trudności w obsłudze zmian przestrzennych oraz brak elastyczności w modelowaniu sekwencji o różnej długości.

Polynomial Mixer (PoM) – nowa era w generowaniu treści wizualnych

Z myślą o przezwyciężeniu ograniczeń klasycznych transformerów, zespół badaczy z Francji (LIGM, Ecole Nationale des Ponts et Chaussées, IP Paris, Univ Gustave Eiffel oraz LIX) zaproponował nowatorskie rozwiązanie o nazwie Polynomial Mixer (PoM). Ten mechanizm stanowi zamiennik dla MHA, eliminując problemy związane z jego kwadratową złożonością. PoM wprowadza liniową złożoność obliczeniową względem liczby tokenów, ponieważ koduje całą sekwencję w eksplicytnym stanie modelu. Jednocześnie zachowuje uniwersalne możliwości aproksymowania sekwencji.

Budowa i działanie PoM w generacji obrazów i wideo

PoM został zaimplementowany w dwóch wersjach: dla generowania obrazów oraz wideo. W przypadku obrazów model korzysta z warstw Polymorpher, przypominających architekturę AdaLN znaną z DiT. Obrazy są początkowo kodowane za pomocą autoenkodera wariacyjnego (VAE), a następnie tokeny wizualne są wzbogacane o dwuwymiarowe kodowanie pozycyjne bazujące na funkcji cosinusowej. Embeddingi klas i kroków czasowych są następnie sumowane, co pozwala modelowi lepiej rozróżniać generowane treści.

Każdy blok modelu zawiera moduły modulacji, mechanizmy PoM oraz sieci feed-forward. PoM zazwyczaj wykorzystuje drugiego rzędu wielomiany oraz dwukrotne rozszerzenie współczynników. Ponadto, zastosowano cross-modalne operacje PoM, które agregują informacje pomiędzy tokenami tekstowymi i wizualnymi, co wspiera generację bardziej złożonych i spójnych treści.

Wyniki eksperymentów i potencjał PoM

Oceny ilościowe wykazały, że PoM osiąga imponujące rezultaty. W generacji obrazów model uzyskał wynik FID na poziomie 2,46 podczas testów przeprowadzonych według standardowych ram ADM, co wskazuje na wyższą jakość generowanych obrazów w porównaniu z porównywalnymi modelami DiT. Co warto podkreślić, model PoM trenowano jedynie przez połowę liczby kroków wymaganych przez inne architektury.

Jakościowe testy pokazały, że PoM jest w stanie generować obrazy w wysokiej rozdzielczości do 1024 × 1024 pikseli na zestawie danych ImageNet. Chociaż niektóre kategorie obrazów wykazywały chwilowe problemy z przetrenowaniem w wyższych rozdzielczościach (spowodowane ograniczoną ilością danych), wyniki te nadal wskazują na potencjał PoM jako zamiennika dla MHA, który nie wymaga znaczących modyfikacji architektonicznych.

Przyszłość generatywnych modeli

Wprowadzenie Polynomial Mixer otwiera nowe perspektywy dla generowania obrazów i wideo. Dzięki liniowej złożoności i zdolności zachowania uniwersalnych właściwości aproksymacyjnych, PoM stoi na czele rewolucji w dziedzinie modeli generatywnych. W przyszłości badacze planują rozszerzenie badań na długie sekwencje wideo o wysokiej rozdzielczości oraz na multimodalne modele językowe, które integrują tekst, obraz i dźwięk.

Wykorzystanie takich podejść, jak PoM, może znacząco wpłynąć na rozwój sektora sztucznej inteligencji, czyniąc generowanie treści wizualnych bardziej efektywnym i dostępnym dla szerszego grona użytkowników.