Nowe podejście do uczenia przez wzmacnianie – przełom w modelach MBRL

Uczenie przez wzmacnianie (Reinforcement Learning, RL) to technika sztucznej inteligencji, która pozwala agentom na zdobywanie doświadczenia i maksymalizowanie nagród poprzez interakcję ze środowiskiem. Jednym z jego wariantów jest model-free RL (MFRL), który mapuje obserwacje na działania, ale wymaga ogromnej ilości danych. Alternatywą jest model-based RL (MBRL), który przewiduje zachowanie środowiska i pozwala na planowanie w wyobrażonym świecie. Dzięki temu możliwe jest zmniejszenie kosztów obliczeniowych i poprawa efektywności uczenia.

Jak działa model-based RL?

Metody MBRL różnią się podejściem do wykorzystania modeli świata (World Models, WM). Można je podzielić na dwa główne typy:

Planowanie w tle (background planning) – polega na trenowaniu polityki na podstawie wyobrażonych danych. Jest to bardziej efektywne obliczeniowo i bazuje na metodach takich jak Dyna-Q, które zostały rozwinięte w nowoczesnych modelach RL, takich jak Dreamer, IRIS czy DART.
Planowanie w czasie decyzji (decision-time planning) – wykorzystuje przeszukiwanie drzew decyzyjnych w trakcie działania modelu, co pozwala na lepsze przewidywanie przyszłości. Przykładem takiego podejścia są MuZero i EfficientZero, jednak ich zastosowanie w dużych modelach, takich jak transformatory, generuje wysokie koszty obliczeniowe.

Modele świata mogą być również podzielone na generatywne i niegeneratywne. Modele generatywne są w stanie lepiej integrować dane rzeczywiste i wyobrażone, podczas gdy modele niegeneratywne są bardziej wydajne pod względem obliczeniowym. Chociaż transformatory stały się popularnym wyborem w architekturach RL, to modele oparte na przestrzeni stanów, takie jak DreamerV2/V3, nadal odgrywają istotną rolę.

Nowoczesne podejście MBRL w środowisku Craftax-classic

Naukowcy z Google DeepMind zaprezentowali nową metodę MBRL, która wyznacza nowy poziom wydajności w środowisku Craftax-classic – dwuwymiarowej grze survivalowej przypominającej Minecrafta. Gra ta wymaga zdolności do generalizacji, głębokiej eksploracji oraz długoterminowego planowania, co czyni ją świetnym testem dla algorytmów RL.

Ich model osiągnął imponujące 67,42% nagrody po 1 milionie kroków, znacznie przewyższając DreamerV3 (53,2%) oraz wynik ludzki (65,0%). Kluczowe ulepszenia obejmują:

„Dyna z rozgrzewką” – połączenie rzeczywistych i wyobrażonych symulacji, co poprawia efektywność uczenia.
Tokenizator najbliższego sąsiada (NNT) – metoda przetwarzania obrazów w postaci patchy, zwiększająca precyzję analizy wizualnej.
Technika „block teacher forcing” (BTF) – skuteczniejsza metoda przewidywania tokenów, pozwalająca na lepsze modelowanie sekwencji zdarzeń.

Dzięki tym innowacjom udało się osiągnąć rekordową efektywność próbkowania danych, co oznacza, że model potrzebuje mniej danych do osiągnięcia wysokiej wydajności.

Optymalizacje i dalsze ulepszenia

Badanie wykazało również, że zwiększenie rozmiaru modelu oraz dodanie jednostki Gated Recurrent Unit (GRU) pozwoliło poprawić wyniki MFRL z 46,91% do 55,49%. Ponadto, zastosowanie modelu Transformer World Model (TWM) z kwantyzacją VQ-VAE osiągnęło 31,93% nagrody, a połączenie go z metodą Dyna zwiększyło wydajność do 58,92%.

Warto zauważyć, że wymiana VQ-VAE na tokenizator najbliższego sąsiada okazała się kluczowa dla poprawy wyników. To pokazuje, jak istotne są metody przetwarzania obserwacji i ich wpływ na skuteczność nauki przez wzmacnianie.

Testy i eksperymenty

Eksperymenty przeprowadzono na ośmiu procesorach graficznych H100 przez 1 milion kroków. Każda metoda zbierała trajektorie o długości 96 w 48 równoległych środowiskach. W przypadku modeli MBRL, wyobrażone trajektorie generowano co 200 tysięcy kroków, a polityka była aktualizowana 500 razy.

Analiza ablacyna potwierdziła, że kluczowe komponenty – Dyna, NNT, patchy i BTF – miały istotny wpływ na końcowe wyniki. Ostatecznie najlepszy agent (M5) osiągnął wynik 67,42%, co stanowi obecnie najlepszy rezultat w tej dziedzinie. Dodatkowe testy w pełnej wersji Craftax wykazały, że model skutecznie generalizuje także w trudniejszych środowiskach.

Przyszłość model-based RL

Badacze zaproponowali kilka ścieżek dalszego rozwoju tej technologii. Kluczowe kierunki badań obejmują:

Dalsze testy generalizacji modelu w innych środowiskach poza Craftax.
Priorytetyzację powtórnego odtwarzania doświadczeń, co może poprawić efektywność uczenia.
Integrację off-policy RL, czyli metod pozwalających na efektywniejsze uczenie się z danych historycznych.
Usprawnienie tokenizatora, tak aby lepiej współpracował z dużymi modelami takimi jak SAM i Dino-V2.
Modyfikację polityki, aby akceptowała tokeny ze światów nierekonstrukcyjnych, co może prowadzić do bardziej zaawansowanych strategii podejmowania decyzji.

Podsumowanie

Nowe podejście do MBRL, opracowane przez Google DeepMind, wykazuje ogromny potencjał w zwiększaniu efektywności algorytmów uczenia przez wzmacnianie. Dzięki innowacyjnym technikom, takim jak Dyna z rozgrzewką, tokenizacja najbliższego sąsiada oraz block teacher forcing, udało się osiągnąć najlepsze dotychczas wyniki w środowisku Craftax-classic.

Nowe metody nie tylko przewyższają dotychczasowe modele, ale także ludzkich ekspertów, co otwiera nowe możliwości dla przyszłości sztucznej inteligencji. Dalsze badania nad generalizacją i integracją zaawansowanych technik mogą przyczynić się do jeszcze lepszych wyników w przyszłości.