Generowanie wideo z wykorzystaniem sztucznej inteligencji (AI) jest jednym z dynamicznie rozwijających się obszarów badań. Obecnie najwięcej uwagi poświęca się tworzeniu sekwencji wideo o wysokiej spójności czasowej i doskonałej jakości obrazu. Technologia ta ma na celu zapewnienie, aby obrazy w poszczególnych klatkach były ze sobą harmonijnie połączone, a szczegóły były zachowane nawet przy dłuższych sekwencjach filmowych. Modele oparte na uczeniu maszynowym, takie jak Diffusion Transformers (DiTs), wyprzedzają pod względem jakości wcześniejsze metody, takie jak GAN-y czy VAE. Pomimo to, jak tylko te modele stają się coraz bardziej złożone, problemem staje się koszt obliczeniowy i opóźnienia przy generowaniu wideo o wysokiej rozdzielczości. Naukowcy koncentrują się teraz na poprawie wydajności tych modeli, aby umożliwić szybsze generowanie wideo w czasie rzeczywistym, nie obniżając przy tym jakości produktu końcowego.

Jednym z najważniejszych wyzwań w tej dziedzinie jest złożoność obliczeniowa obecnych modeli generowania wideo o wysokiej jakości. Tworzenie skomplikowanych, atrakcyjnych wizualnie sekwencji filmowych wymaga ogromnej mocy obliczeniowej, zwłaszcza gdy modele muszą radzić sobie z dłuższymi filmami w wysokiej rozdzielczości. To powoduje spowolnienie procesu wnioskowania, co utrudnia generowanie wideo w czasie rzeczywistym. Wiele aplikacji wideo wymaga modeli, które przetwarzają dane w szybkim tempie, jednocześnie dostarczając materiał o wysokiej jakości. Kluczowym problemem jest znalezienie optymalnej równowagi pomiędzy szybkością przetwarzania a jakością końcowego materiału. Szybsze metody zazwyczaj tracą na szczegółowości, podczas gdy metody zapewniające wysoką jakość są zazwyczaj bardziej zasobożerne i wolniejsze.

Na przestrzeni lat wprowadzono różne metody usprawniające modele generowania wideo z myślą o zmniejszeniu zużycia zasobów i uproszczeniu procesów obliczeniowych. Tradycyjne podejścia, takie jak distylacja krokowa (step-distillation), dyfuzja latentna (latent diffusion) oraz techniki buforowania (caching), pomogły w realizacji tego celu. Distylacja krokowa pozwala zmniejszyć liczbę kroków potrzebnych do osiągnięcia odpowiedniej jakości, upraszczając złożone zadania. Z kolei techniki dyfuzji latentnej poprawiają stosunek jakości do opóźnienia. Caching natomiast przechowuje wcześniej obliczone kroki, aby uniknąć zbędnych obliczeń. Mimo to, te metody mają swoje ograniczenia, zwłaszcza jeśli chodzi o elastyczność w dostosowywaniu się do unikalnych cech każdej sekwencji wideo. Często prowadzi to do nieefektywności, zwłaszcza w przypadku filmów o dużej różnorodności w kwestii złożoności, ruchu czy tekstur.

Naukowcy z Meta AI oraz Stony Brook University wprowadzili nowatorskie rozwiązanie o nazwie Adaptive Caching (AdaCache), które przyspiesza działanie transformatorów dyfuzji wideo bez potrzeby dodatkowego szkolenia modeli. AdaCache to technika nie wymagająca treningu, która może być zintegrowana z różnymi modelami DiT wideo, co pozwala na dynamiczne buforowanie obliczeń i tym samym skrócenie czasu przetwarzania. Dzięki adaptacji do unikalnych potrzeb każdej sekwencji wideo, AdaCache potrafi efektywnie alokować zasoby obliczeniowe tam, gdzie są one najbardziej potrzebne. Zaprojektowana z myślą o minimalizacji opóźnień przy jednoczesnym zachowaniu jakości wideo, AdaCache to elastyczne i proste w implementacji rozwiązanie, które poprawia wydajność różnych modeli generowania wideo.

AdaCache działa, buforując pewne obliczenia resztkowe w architekturze transformatora, co pozwala na ich ponowne wykorzystanie w trakcie kolejnych kroków przetwarzania. To podejście jest wyjątkowo wydajne, ponieważ unika powtarzania tych samych operacji, co jest częstą przeszkodą w generowaniu wideo. Model wykorzystuje harmonogram buforowania dostosowany do każdej sekwencji wideo, aby określić, w którym momencie należy obliczenia ponownie przeprowadzić, a kiedy można wykorzystać wcześniej zapisane dane. Harmonogram ten opiera się na metryce oceniającej tempo zmian danych pomiędzy klatkami. Dodatkowo, badacze wprowadzili mechanizm regulacji ruchu (Motion Regularization, MoReg) do AdaCache, który alokuje więcej zasobów obliczeniowych do scen o dużym natężeniu ruchu, wymagających większej dbałości o szczegóły. Dzięki lekkiej metryce odległości oraz czynnikowi regulacji opartego na ruchu, AdaCache zapewnia zrównoważoną równowagę między szybkością a jakością, dostosowując skupienie obliczeniowe do zawartości i dynamiki wideo.

Testy przeprowadzone przez zespół badawczy wykazały, że AdaCache znacząco przyspiesza proces przetwarzania i jednocześnie zachowuje wysoką jakość generowanych materiałów wideo. Przykładowo, w teście obejmującym generowanie wideo 720p o długości 2 sekund przy użyciu Open-Sora, AdaCache przyspieszyła proces do 4,7 razy w porównaniu do wcześniejszych metod, przy jednoczesnym utrzymaniu porównywalnej jakości wideo. Dodatkowo, różne warianty AdaCache, takie jak „AdaCache-fast” i „AdaCache-slow”, oferują opcje dostosowane do indywidualnych potrzeb, czy to pod kątem szybkości, czy jakości. Dzięki MoReg, AdaCache wykazała również poprawę jakości, zbliżając się do preferencji widzów w ocenie wizualnej i przewyższając tradycyjne metody buforowania. Benchmarki prędkości na różnych modelach DiT potwierdziły wyższość AdaCache, z przyspieszeniami od 1,46x do 4,7x w zależności od konfiguracji i wymagań jakościowych.

Podsumowując, AdaCache stanowi istotny postęp w generowaniu wideo, oferując elastyczne rozwiązanie dla odwiecznego problemu równowagi między opóźnieniami a jakością wideo. Dzięki adaptacyjnemu buforowaniu i regulacji opartej na ruchu, naukowcy stworzyli metodę, która jest nie tylko wydajna, ale też praktyczna w szerokim zakresie zastosowań w czasie rzeczywistym oraz w produkcji wideo o wysokiej jakości. AdaCache, dzięki swojej elastycznej, „plug-and-play” naturze, może być łatwo zintegrowane z istniejącymi systemami generowania wideo, bez potrzeby kosztownego przeszkalania modeli, co czyni je obiecującym narzędziem w przyszłości generowania wideo.