Przełom w generowaniu obrazów i wideo: Wprowadzenie Polynomial Mixer (PoM)
Generowanie obrazów i wideo przeszło ogromną ewolucję w ciągu ostatnich lat, przechodząc drogę od skomplikowanego wyzwania technologicznego do zadania, które obecnie można w dużej mierze rozwiązać za pomocą komercyjnych narzędzi, takich jak Stable Diffusion czy Sora. Kluczowym elementem, który umożliwił ten postęp, jest zastosowanie mechanizmu Multihead Attention (MHA) w architekturach transformerów. Dzięki swojej zdolności do skalowania, MHA znacząco przyczyniło się do poprawy modeli generatywnych. Jednak ten rozwój wiąże się z istotnymi wyzwaniami obliczeniowymi.
Transformery charakteryzują się kwadratową złożonością obliczeniową, co oznacza, że zwiększenie rozdzielczości generowanego obrazu prowadzi do wykładniczego wzrostu wymagań procesorowych. Na przykład podwojenie rozdzielczości obrazu wiąże się z 16-krotnym wzrostem kosztów obliczeniowych, a generowanie wideo wymaga jeszcze większej mocy obliczeniowej. Ta ograniczona skalowalność stanowi znaczącą barierę w budowie dużych modeli generatywnych o wysokiej jakości wizualnej.
—
Alternatywy dla klasycznych modeli generatywnych
Aby zniwelować te trudności, badacze skupili się na alternatywnych podejściach, takich jak modele dyfuzyjne i szybkie metody zarządzania uwagą. Modele dyfuzyjne wykorzystują architekturę U-Net z wbudowanymi warstwami uwagi, które uczą się przekształcać zaszumione obrazy w bardziej naturalne reprezentacje. Proces ten odbywa się w dwóch etapach: przetwarzania naprzód i wstecz. Innym podejściem są próby redukcji złożoności mechanizmu uwagi, takie jak Reformer, który aproksymuje macierze uwagi, czy Linformer, który projektuje klucze i wartości w przestrzeniach o niższych wymiarach.
Z kolei modele oparte na dynamicznych stanach (State-Space Models – SSM) oferują liniową złożoność obliczeniową. Chociaż są one obiecujące, posiadają pewne ograniczenia – w tym trudności w obsłudze zmian przestrzennych oraz brak elastyczności w modelowaniu sekwencji o różnej długości.
—
Polynomial Mixer (PoM) – nowa era w generowaniu treści wizualnych
Z myślą o przezwyciężeniu ograniczeń klasycznych transformerów, zespół badaczy z Francji (LIGM, Ecole Nationale des Ponts et Chaussées, IP Paris, Univ Gustave Eiffel oraz LIX) zaproponował nowatorskie rozwiązanie o nazwie Polynomial Mixer (PoM). Ten mechanizm stanowi zamiennik dla MHA, eliminując problemy związane z jego kwadratową złożonością. PoM wprowadza liniową złożoność obliczeniową względem liczby tokenów, ponieważ koduje całą sekwencję w eksplicytnym stanie modelu. Jednocześnie zachowuje uniwersalne możliwości aproksymowania sekwencji.
—
Budowa i działanie PoM w generacji obrazów i wideo
PoM został zaimplementowany w dwóch wersjach: dla generowania obrazów oraz wideo. W przypadku obrazów model korzysta z warstw Polymorpher, przypominających architekturę AdaLN znaną z DiT. Obrazy są początkowo kodowane za pomocą autoenkodera wariacyjnego (VAE), a następnie tokeny wizualne są wzbogacane o dwuwymiarowe kodowanie pozycyjne bazujące na funkcji cosinusowej. Embeddingi klas i kroków czasowych są następnie sumowane, co pozwala modelowi lepiej rozróżniać generowane treści.
Każdy blok modelu zawiera moduły modulacji, mechanizmy PoM oraz sieci feed-forward. PoM zazwyczaj wykorzystuje drugiego rzędu wielomiany oraz dwukrotne rozszerzenie współczynników. Ponadto, zastosowano cross-modalne operacje PoM, które agregują informacje pomiędzy tokenami tekstowymi i wizualnymi, co wspiera generację bardziej złożonych i spójnych treści.
—
Wyniki eksperymentów i potencjał PoM
Oceny ilościowe wykazały, że PoM osiąga imponujące rezultaty. W generacji obrazów model uzyskał wynik FID na poziomie 2,46 podczas testów przeprowadzonych według standardowych ram ADM, co wskazuje na wyższą jakość generowanych obrazów w porównaniu z porównywalnymi modelami DiT. Co warto podkreślić, model PoM trenowano jedynie przez połowę liczby kroków wymaganych przez inne architektury.
Jakościowe testy pokazały, że PoM jest w stanie generować obrazy w wysokiej rozdzielczości do 1024 × 1024 pikseli na zestawie danych ImageNet. Chociaż niektóre kategorie obrazów wykazywały chwilowe problemy z przetrenowaniem w wyższych rozdzielczościach (spowodowane ograniczoną ilością danych), wyniki te nadal wskazują na potencjał PoM jako zamiennika dla MHA, który nie wymaga znaczących modyfikacji architektonicznych.
—
Przyszłość generatywnych modeli
Wprowadzenie Polynomial Mixer otwiera nowe perspektywy dla generowania obrazów i wideo. Dzięki liniowej złożoności i zdolności zachowania uniwersalnych właściwości aproksymacyjnych, PoM stoi na czele rewolucji w dziedzinie modeli generatywnych. W przyszłości badacze planują rozszerzenie badań na długie sekwencje wideo o wysokiej rozdzielczości oraz na multimodalne modele językowe, które integrują tekst, obraz i dźwięk.
Wykorzystanie takich podejść, jak PoM, może znacząco wpłynąć na rozwój sektora sztucznej inteligencji, czyniąc generowanie treści wizualnych bardziej efektywnym i dostępnym dla szerszego grona użytkowników.