W rzeczywistych sytuacjach agenci często muszą radzić sobie z ograniczoną widocznością otoczenia, co utrudnia podejmowanie decyzji. Na przykład, agent kierujący samochodem musi zapamiętać znaki drogowe zauważone chwilę wcześniej, aby dostosować swoją prędkość. Przechowywanie wszystkich obserwacji jest jednak nieefektywne ze względu na ograniczenia pamięci. Z tego powodu agenci muszą nauczyć się kompresować reprezentacje zebranych danych. Wyzwanie to jest jeszcze bardziej złożone w zadaniach ciągłych, gdzie kluczowe informacje z przeszłości muszą być efektywnie zachowane, ale nie zawsze można je utrzymać w pełni. Konstrukcja stanu w trybie inkrementalnym staje się kluczowa w częściowo obserwowalnym środowisku online reinforcement learning (uczeniu ze wzmocnieniem), gdzie sieci neuronowe rekurencyjne (RNN), takie jak LSTM, radzą sobie z sekwencjami skutecznie, ale trudne są do trenowania. Z kolei transformatory potrafią uchwycić zależności długoterminowe, ale ich wymagania obliczeniowe są znacznie wyższe.
Rozszerzenia architektur Transformerów
Istnieją różne podejścia, które rozszerzają transformery liniowe, aby lepiej radzić sobie z danymi sekwencyjnymi. Jedna z architektur wykorzystuje metodę skalarną bramek, która kumuluje wartości w czasie, podczas gdy inne implementacje dodają elementy rekurencyjne i nieliniowe aktualizacje do lepszego uczenia się z zależności sekwencyjnych, choć to może zmniejszyć efektywność równoległości przetwarzania. Ponadto, niektóre modele selektywnie obliczają rzadkie uwagi lub przechowują poprzednie aktywacje, co pozwala im analizować dłuższe sekwencje bez znaczących kosztów pamięciowych. Ostatnie innowacje obniżają złożoność mechanizmu self-attention, co poprawia zdolność transformerów do przetwarzania długich kontekstów w sposób efektywny. Chociaż transformatory są powszechnie stosowane w offline reinforcement learning, ich wykorzystanie w ustawieniach bezmodelowych dopiero zaczyna się rozwijać.
Nowe architektury Transformer od Uniwersytetu Alberty i Amii
Naukowcy z Uniwersytetu Alberty oraz organizacji Amii opracowali dwie nowe architektury transformerów, dedykowane częściowo obserwowalnym zadaniom w online reinforcement learning. Modele te, nazwane GaLiTe i AGaLiTe, mają na celu rozwiązanie problemów związanych z wysokimi kosztami obliczeniowymi oraz wymaganiami pamięciowymi, które są typowe dla tradycyjnych transformerów. Zastosowane mechanizmy bramek w self-attention pozwalają na efektywne zarządzanie i aktualizowanie informacji, co zapewnia stałe koszty inferencji i lepsze wyniki w przypadku długoterminowych zależności. Testy przeprowadzone w środowiskach 2D i 3D, takich jak T-Maze i Craftax, pokazały, że modele te przeważają lub dorównują najnowszemu modelowi GTrXL, zmniejszając zużycie pamięci i koszty obliczeniowe o ponad 40%, a AGaLiTe uzyskało nawet o 37% lepszą wydajność w złożonych zadaniach.
GaLiTe i AGaLiTe: Innowacyjne podejście do reinforcement learning
Gated Linear Transformer (GaLiTe) poprawia transformery liniowe, rozwiązując kluczowe ograniczenia, takie jak brak mechanizmu do usuwania przestarzałych informacji oraz zależność od wyboru funkcji jądra. GaLiTe wprowadza mechanizm bramek do kontrolowania przepływu informacji, co pozwala na selektywne przechowywanie pamięci, a także parametrystyczną mapę cech do obliczania wektorów klucza i zapytań bez potrzeby stosowania specyficznych funkcji jądra. Dla dalszej optymalizacji, Approximate Gated Linear Transformer (AGaLiTe) korzysta z aproksymacji niskiego rzędu, co pozwala na redukcję zapotrzebowania na pamięć, przechowując stany rekurencyjne jako wektory zamiast macierzy. Ta metoda pozwala na zaoszczędzenie zarówno przestrzeni, jak i czasu w porównaniu z innymi architekturami, zwłaszcza w złożonych zadaniach reinforcement learning.
Testy i wyniki AGaLiTe
Badanie oceniało model AGaLiTe na kilku zadaniach częściowo obserwowalnych w reinforcement learning. W tych środowiskach agenci muszą korzystać z pamięci, aby radzić sobie z różnymi poziomami niepełnej obserwowalności, na przykład przypominając sobie pojedyncze wskazówki w T-Maze, integrując informacje w czasie w CartPole czy nawigując w złożonych środowiskach, takich jak Mystery Path, Craftax i Memory Maze. Wyposażony w zoptymalizowany mechanizm self-attention, AGaLiTe osiągnął wysokie wyniki, przewyższając tradycyjne modele, takie jak GTrXL i GRU, zarówno pod względem efektywności, jak i wydajności obliczeniowej. Wyniki wskazują, że projekt AGaLiTe znacząco redukuje liczbę operacji i zużycie pamięci, oferując ogromne korzyści w zadaniach reinforcement learning, które wymagają obsługi rozległego kontekstu.
Podsumowanie
Transformery są niezwykle skuteczne w przetwarzaniu danych sekwencyjnych, ale mają swoje ograniczenia w online reinforcement learning ze względu na wysokie wymagania obliczeniowe oraz konieczność przechowywania całych danych historycznych dla mechanizmu self-attention. W badaniu wprowadzono dwa efektywne rozwiązania alternatywne dla mechanizmu self-attention w transformerach: GaLiTe oraz AGaLiTe. Oba modele są oparte na rekurencji i zaprojektowane do zadań częściowo obserwowalnych w reinforcement learning. Modele te nie tylko dorównują GTrXL, ale także przewyższają go, oferując ponad 40% niższe koszty inferencji i zmniejszenie zużycia pamięci o ponad 50%. Kolejne badania mogą skupić się na włączeniu uczenia w czasie rzeczywistym do AGaLiTe oraz na jego zastosowaniu w podejściach bazujących na modelach, takich jak Dreamer V3.