Nowe podejście do planowania w środowiskach internetowych – WEBDREAMER

Postęp w sztucznej inteligencji osiągnął imponujące wyniki, zwłaszcza w kontekście zadań wymagających zaawansowanego planowania, takich jak gry planszowe czy rozwiązywanie problemów logicznych. Modele językowe (LLM) w połączeniu z zaawansowanymi algorytmami planowania zyskały uznanie za swoje zdolności do rozwiązywania skomplikowanych zadań. Jednakże, gdy te technologie są adaptowane do środowisk internetowych, pojawiają się istotne wyzwania, zwłaszcza w kontekście interakcji z rzeczywistymi witrynami internetowymi.

Kluczowe wyzwania w planowaniu opartym na sieci

Podstawowy problem polega na ryzyku, jakie niosą działania podejmowane w czasie rzeczywistym na stronach internetowych. Przykładem mogą być przypadkowe transakcje, niezamierzone zakupy lub przesyłanie poufnych danych. Działania w sieci często mają nieodwracalny charakter – kliknięcie w przycisk „kup teraz” lub wysłanie wiadomości e-mail trudno cofnąć. Tradycyjne algorytmy planowania, które opierają się na możliwości cofnięcia decyzji i eksploracji alternatywnych ścieżek, napotykają tutaj znaczące ograniczenia.

Strategie radzenia sobie z wyzwaniami

Aby sprostać problemom planowania w środowiskach internetowych, naukowcy opracowali różne podejścia:

1. Agenci reaktywni – Decyzje podejmowane są na podstawie bieżących obserwacji, bez symulowania przyszłych kroków. Stosuje się tu framework ReAct, a modele są szkolone między innymi na danych z HTML i zrzutach ekranu stron.
2. Podejścia oparte na wyszukiwaniu drzew – Algorytmy, takie jak Monte Carlo Tree Search (MCTS), pozwalają na eksplorację wielu możliwych działań i planowanie w kilku krokach naprzód.
3. Modele Światów (World Models) – Wykorzystują prognozowanie przyszłych stanów i nagród, ale wymagają specyficznego szkolenia dla każdej zadania, co ogranicza ich uniwersalność.

WEBDREAMER – nowy gracz na scenie

Naukowcy z Uniwersytetu Stanowego Ohio oraz Orby AI wprowadzili WEBDREAMER, innowacyjne podejście do planowania w środowiskach sieciowych. Wykorzystuje ono modele językowe (LLM) jako „modele świata”, które potrafią prognozować skutki działań na stronach internetowych. WEBDREAMER zadaje pytania w stylu: „Co się stanie, jeśli kliknę ten przycisk?”, a następnie symuluje możliwe rezultaty w języku naturalnym. Dzięki temu podejściu system potrafi ocenić różne opcje i wybrać optymalną w danej sytuacji.

Architektura i działanie WEBDREAMER

WEBDREAMER opiera się na wielostopniowym systemie planowania. Najpierw generowane są potencjalne działania, które następnie są filtrowane i optymalizowane za pomocą LLM. System symuluje dwuetapowe trajektorie, analizując skutki każdego działania oraz przypisując im odpowiednie oceny. Proces ten trwa do momentu osiągnięcia warunku zakończenia, jak np. osiągnięcia maksymalnej liczby kroków lub powtarzalności działań. Dzięki temu system równoważy dokładność eksploracji z efektywnością operacyjną.

Wyniki i ograniczenia

WEBDREAMER wykazuje znaczną poprawę wydajności w testach porównawczych. Na przykład, w przypadku zestawu danych VWA osiągnął wynik o 33,3% lepszy niż agenci reaktywni. W przypadku zestawu Mind2Web-live różnica wyniosła 13,1%, co wynika z ograniczonej różnorodności danych w tym teście. Choć metoda ta nie zawsze dorównuje algorytmom opartym na wyszukiwaniu drzew pod względem ogólnej skuteczności, oferuje bardziej praktyczne rozwiązanie dla rzeczywistych interakcji internetowych.

Jednakże WEBDREAMER ma swoje ograniczenia. Jednym z nich jest stosunkowo prosta natura zastosowanych algorytmów planowania. Drugim wyzwaniem są wysokie koszty obliczeniowe – każde zadanie w zestawie VWA kosztuje około 4 zł przy wykorzystaniu modelu GPT-4.

Perspektywy na przyszłość

WEBDREAMER otwiera nowe możliwości w automatyzacji interakcji internetowych, jednocześnie podkreślając obszary wymagające dalszego rozwoju. Przyszłe badania powinny skupić się na optymalizacji wydajności modeli językowych oraz redukcji kosztów obliczeniowych, aby umożliwić obsługę bardziej skomplikowanych zadań długoterminowych.

Innowacje takie jak WEBDREAMER pokazują, jak modele językowe mogą być adaptowane do coraz bardziej złożonych problemów, zbliżając nas do stworzenia uniwersalnych agentów wspomagających w codziennych zadaniach online.