Duże modele językowe (LLM) wykazują niezwykłe zdolności w zakresie rozumienia języka naturalnego, wnioskowania oraz przyswajania wiedzy, co sugeruje, że mogą one stać się autonomicznymi agentami. Jednakże, trenowanie wysokowydajnych agentów internetowych opartych na otwartych LLM w środowiskach online, takich jak WebArena, napotyka na kilka kluczowych wyzwań. Pierwszym z nich jest niedostatek predefiniowanych zadań treningowych w testach porównawczych online. Kolejnym wyzwaniem jest ocena sukcesu w dowolnych zadaniach przeglądania internetu z uwagi na rzadkość i wysokie koszty sygnałów zwrotnych. Ostatnim problemem jest brak gotowego zestawu treningowego, co wymusza eksplorację online, prowadząc do dryfu rozkładów polityki (policy distribution drift) oraz potencjalnego zapominania kluczowych informacji, co może skutkować obniżeniem wydajności agenta w czasie.

Istniejące Metody

W odpowiedzi na te wyzwania badacze pracowali nad różnymi metodami, takimi jak używanie LLM jako agentów oraz stosowanie uczenia ze wzmocnieniem (RL) dla modeli LLM. Aktualne badania w zakresie LLM jako agentów można podzielić na dwie główne kategorie: podejścia bez treningu i oparte na treningu. Niektóre badania wykorzystują potężne LLM, takie jak GPT-4, do generowania demonstracji, jednak ich dokładność pozostaje niewystarczająca w przypadku złożonych zadań. Zastosowanie technik RL ma na celu zaradzenie temu wyzwaniu, wykorzystując sekwencyjne podejmowanie decyzji do kontrolowania urządzeń i interakcji z złożonymi środowiskami. Wśród istniejących metod opartych na RL warto wymienić AgentQ, który wykorzystuje algorytm DPO do aktualizacji polityki, oraz architektury aktor-krytyk, które sprawdziły się w kontrolowaniu skomplikowanych zadań związanych z obsługą urządzeń. Jednak sygnały zwrotne w tych metodach, szczególnie w zadaniach internetowych, są często ograniczone i rzadkie, zazwyczaj ograniczają się one do binarnego sukcesu lub porażki po wielu rundach interakcji.

Nowe Ramy WEBRL

Badacze z Uniwersytetu Tsinghua oraz Zhipu AI zaproponowali nowe podejście o nazwie WEBRL – samorozwijające się ramy RL (uczenia ze wzmocnieniem) oparte na programie online. WEBRL zostało zaprojektowane w celu trenowania wysokowydajnych agentów internetowych przy użyciu otwartych LLM, rozwiązując kluczowe problemy, takie jak niedobór zadań treningowych, rzadkość sygnałów zwrotnych oraz dryf rozkładów polityki w uczeniu online. WEBRL opiera się na trzech kluczowych elementach:

Samorozwijający się program, który generuje nowe zadania na podstawie nieudanych prób.
Model nagród oparty na nadzorowanych wynikach (ORM), który zapewnia bardziej precyzyjne oceny postępów.
Adaptacyjne strategie RL, które gwarantują ciągłe ulepszanie agenta.

Dzięki tym innowacjom WEBRL wypełnia lukę między otwartymi a zamkniętymi agentami internetowymi opartymi na LLM, tworząc bardziej dostępne oraz efektywne systemy autonomicznych interakcji w sieci.

Proces Samorozwoju

WEBRL wykorzystuje samorozwijający się program online, który bazuje na procesie prób i błędów podczas eksploracji, aby poradzić sobie z brakiem zadań treningowych dla agentów internetowych. W każdej fazie treningu WEBRL automatycznie generuje nowe zadania na podstawie nieudanych prób z poprzednich etapów, zapewniając tym samym progresywną trajektorię nauki. W celu przeciwdziałania dryfowi rozkładów polityki, WEBRL wprowadza termin KL-divergencji pomiędzy politykami referencyjnymi i aktorskimi do swojego algorytmu, co pomaga zachować stabilność i zapobiegać katastrofalnemu zapominaniu. Ponadto, WEBRL wykorzystuje bufor do odtwarzania doświadczeń, wzbogacony o nowatorską strategię filtrowania opartego na pewności aktora, co further zwiększa wydajność modelu.

Wyniki Eksperymentów

Wyniki badań przeprowadzonych na modelu Llama-3.1-8B trenowanym za pomocą WEBRL osiągnęły średnią dokładność na poziomie 42,4%, przewyższając wszystkie inne podejścia porównawcze, w tym metody oparte na promptingu oraz alternatywne metody treningowe. WEBRL wyróżnia się szczególnie w zadaniach związanych z Gitlab (46,7%) oraz systemami zarządzania treścią (CMS) (54,3%), co pokazuje jego zdolność do skutecznego radzenia sobie z bardziej złożonymi zadaniami internetowymi. Co więcej, WEBRL przewyższa metody oparte na imitacyjnym uczeniu, takie jak SFT oraz Filtered BC, a także poprzednią metodę DigiRL, która aktualizowała polityki na podstawie stałego zestawu zadań, co mogło nie być zgodne z bieżącym poziomem umiejętności modelu. Dzięki samorozwijającemu się programowi WEBRL dostosowuje złożoność zadań do poziomu umiejętności modelu, co sprzyja szerszej eksploracji oraz ciągłym ulepszeniom.

Zastosowanie i Przyszłość

WEBRL udowodniło swoją skuteczność w różnych architekturach LLM, takich jak Llama-3.1 i GLM-4, co potwierdza jego solidność oraz adaptowalność. Rezultaty badań pokazują, że WEBRL umożliwia agentom internetowym opartym na LLM przewyższenie istniejących, nowoczesnych podejść, w tym zamkniętych API opartych na LLM. Odkrycia te przyczyniają się do zwiększenia możliwości otwartych LLM w zadaniach opartych na przeglądaniu internetu, torując drogę dla bardziej dostępnych i potężnych systemów autonomicznych interakcji online.

WEBRL stanowi ważny krok naprzód w kierunku tworzenia bardziej zaawansowanych agentów internetowych, co może mieć szerokie zastosowanie w różnych dziedzinach, od automatyzacji obsługi klienta, po bardziej skomplikowane zadania, takie jak zarządzanie treścią w systemach CMS.