Nowy sposób generowania obrazów – Masked Autoencoder Tokenizer

Problemy modeli dyfuzyjnych

Modele dyfuzyjne odgrywają kluczową rolę w generowaniu obrazów o wysokiej jakości, stopniowo przekształcając losowy szum w realistyczne przedstawienia. Jednak ich ogromnym wyzwaniem jest wysoki koszt obliczeniowy, zwłaszcza gdy operują bezpośrednio na surowych danych obrazowych o wysokiej rozdzielczości. Aby zwiększyć wydajność tych systemów bez utraty jakości generowanych obrazów, badacze poszukują nowych metod optymalizacji przestrzeni latentnej.

Wyzwanie związane z przestrzenią latentną

Jednym z najważniejszych aspektów modeli dyfuzyjnych jest jakość i struktura przestrzeni latentnej, której zadaniem jest przechowywanie skompresowanej reprezentacji obrazu. Popularne podejścia, takie jak Wariacyjne Autoenkodery (VAE), były wykorzystywane do regulacji tej przestrzeni, ale ich główną wadą jest kompromis między płynnością reprezentacji a jakością szczegółów na poziomie pikseli. Z kolei klasyczne autoenkodery (AE), które nie stosują ograniczeń wariacyjnych, potrafią wiernie odtwarzać obrazy, ale kosztem chaotycznej i nieuporządkowanej przestrzeni latentnej. Przez to modele dyfuzyjne działające na takiej przestrzeni mają trudności z uzyskaniem stabilnych i realistycznych wyników.

Aby uzyskać optymalną równowagę między strukturą przestrzeni latentnej a dokładnością rekonstrukcji, niezbędne jest zastosowanie nowego podejścia do tokenizacji danych.

Nowe podejście – Masked Autoencoder Tokenizer (MAETok)

Zespół naukowców z Carnegie Mellon University, The University of Hong Kong, Peking University oraz AMD opracował innowacyjny sposób na rozwiązanie tego problemu – Masked Autoencoder Tokenizer (MAETok). Został on zaprojektowany w oparciu o technikę maskowania danych podczas treningu autoenkodera, co pozwala na uzyskanie uporządkowanej przestrzeni latentnej i jednocześnie utrzymanie wysokiej jakości generowanych obrazów.

MAETok łączy technologię Masked Autoencoders (MAE) i Vision Transformers (ViT). Jego działanie polega na podzieleniu obrazu wejściowego na fragmenty i przetworzeniu ich przez sieć neuronową, która dodatkowo operuje na zestawie uczonych tokenów latentnych. W trakcie treningu część tych tokenów jest losowo maskowana, zmuszając model do odtworzenia brakujących fragmentów na podstawie dostępnych informacji. Dzięki temu mechanizmowi model uczy się bardziej reprezentatywnych i uporządkowanych cech obrazów, co przekłada się na lepszą jakość generowanych wyników.

Dodatkowo, w celu dalszego udoskonalenia przestrzeni latentnej, stosowane są pomocnicze płytkie dekodery, które przewidują cechy zamaskowanych fragmentów obrazu. W przeciwieństwie do wariacyjnych autoenkoderów MAETok nie wymaga restrykcyjnych ograniczeń statystycznych, co upraszcza proces treningu i zwiększa jego efektywność.

Wyniki i wydajność MAETok

Skuteczność MAETok została dokładnie przetestowana w eksperymentach na benchmarkach generowania obrazów z zestawu ImageNet. Wyniki pokazują, że nowy model zapewnia najwyższą jakość obrazów, jednocześnie znacząco redukując wymagania obliczeniowe.

Najważniejsze osiągnięcia MAETok:
– Używa jedynie 128 tokenów latentnych, co znacznie upraszcza przetwarzanie.
– Osiąga generatywną metrykę Frechet Inception Distance (gFID) na poziomie 1,69 dla obrazów o rozdzielczości 512×512 pikseli, co świadczy o wysokiej jakości generowanych obrazów.
– Przyspiesza proces treningu 76-krotnie w porównaniu do tradycyjnych metod.
– Zwiększa przepustowość inferencji (generowania obrazów) 31-krotnie.
– Model został wytrenowany na bazie SiT-XL z 675 milionami parametrów, przewyższając dotychczasowe najlepsze podejścia oparte na VAE.

Badania pokazują również, że przestrzeń latentna o mniejszej liczbie trybów mieszanki Gaussowskiej (GMM) obniża straty dyfuzyjne, co skutkuje jeszcze lepszą jakością generowanych obrazów.

Przyszłość generatywnych modeli obrazu

Sukces MAETok podkreśla, jak istotne jest odpowiednie strukturyzowanie przestrzeni latentnej w modelach dyfuzyjnych. Dzięki zastosowaniu mechanizmu maskowania badaczom udało się osiągnąć optymalną równowagę między jakością rekonstrukcji a efektywnością obliczeniową.

Opracowane rozwiązanie stanowi solidną podstawę do dalszego rozwoju technologii generatywnych, oferując sposób na zwiększenie skalowalności modeli dyfuzyjnych bez utraty jakości generowanych obrazów. Możliwe jest, że w przyszłości podejście MAETok znajdzie zastosowanie w szerokiej gamie aplikacji, od edycji grafiki po generowanie fotorealistycznych treści dla gier i filmów.