Współczesne modele językowe (LLM) stale zaskakują swoimi możliwościami w zakresie sztucznej inteligencji. Ich zdolność do generowania i przewidywania tekstów wyznacza nowe standardy w rozwoju tej technologii. Mimo licznych badań nad procesami percepcji, rozumowania i podejmowania decyzji przez te systemy, stosunkowo mało uwagi poświęca się ich zdolności do eksploracji. Eksploracja, czyli poszukiwanie nowych informacji i adaptacja do nieznanych środowisk, odgrywa kluczową rolę w procesach inteligencji – zarówno u ludzi, jak i w sztucznej inteligencji. Ten proces często zakłada rezygnację z natychmiastowych korzyści na rzecz długoterminowego rozwoju i zrozumienia. W przeciwieństwie do eksploatacji, która skupia się na maksymalizacji krótkotrwałych zysków przy wykorzystaniu już znanych danych, eksploracja umożliwia adaptację do nowych warunków i otwiera pole do szeroko zakrojonych innowacji. Jednak pytanie, w jakim stopniu LLM są w stanie skutecznie eksplorować, szczególnie w zadaniach otwartych, wciąż pozostaje bez jednoznacznej odpowiedzi.
Eksploracja w teorii i praktyce
Eksploracja jest szeroko badana zarówno w kontekście uczenia przez wzmocnienie, jak i ludzkiej kognicji. Zazwyczaj wyróżnia się trzy główne strategie eksploracyjne: eksplorację losową, eksplorację opartą na niepewności oraz podejście ukierunkowane na wzmocnienie (empowerment).
1. Eksploracja losowa polega na wprowadzaniu zmienności w podejmowane działania, dzięki czemu możliwe są odkrycia dokonywane przypadkowo w wyniku stochastycznego zachowania.
2. Eksploracja oparta na niepewności skupia się na podejmowaniu działań o nieprzewidywalnych wynikach, co pozwala na redukcję niejasności i poprawę procesu decyzyjnego.
3. Podejście ukierunkowane na wzmocnienie priorytetowo traktuje maksymalizację przyszłych możliwości, a nie krótkoterminowe nagrody, co silnie przypomina procesy odkrywcze charakterystyczne dla nauki i otwartego uczenia się.
Badania wskazują, że LLM w ograniczonym stopniu wykazują zachowania eksploracyjne, a dotychczasowe eksperymenty w tej dziedzinie często dotyczą prostych problemów, takich jak tzw. problemy bandytów (multi-armed bandit). Tymczasem bardziej złożone aspekty eksploracji, w tym strategie empowerment-based, pozostają słabo zbadane.
Eksperyment z Little Alchemy 2
Aby sprawdzić zdolności eksploracyjne modeli językowych, naukowcy z Georgia Tech przeprowadzili badanie z użyciem gry Little Alchemy 2. W tej grze gracze łączą różne elementy, aby tworzyć nowe, co wymaga zarówno kreatywności, jak i eksploracji. Badacze porównali strategie eksploracyjne ludzi i wybranych modeli językowych, takich jak GPT-4o, o1 oraz wersje LLaMA (3.1-8B i 3.1-70B).
Dane zgromadzone od 29 493 ludzkich uczestników z 4,69 miliona prób posłużyły jako punkt odniesienia dla porównań. Modele LLM były testowane przy różnych ustawieniach temperatury próbkowania, co umożliwiło analizę kompromisu między eksploracją a eksploatacją. Wyniki pokazały, że tylko model o1 był w stanie prześcignąć ludzi, odkrywając aż 177 elementów w porównaniu do ludzkiej średniej wynoszącej 42 elementy. Pozostałe modele wypadły gorzej, co uwypukla wyzwania związane z eksploracją w zadaniach otwartych.
Kluczowe wyniki badania
Badanie ujawniło, że strategie eksploracyjne modeli LLM w dużej mierze opierają się na niepewności. Model o1 wyróżnił się zdolnością do balansowania między eksploracją opartą na niepewności a empowermentem, co pozwoliło mu na osiąganie lepszych wyników. Analiza Sparse Autoencoder (SAE) wykazała, że niepewność jest przetwarzana w wcześniejszych warstwach transformera, natomiast empowerment – w późniejszych etapach. Takie podejście prowadziło jednak do przedwczesnych decyzji i ograniczyło zdolność modeli do długoterminowego odkrywania nowych możliwości.
Dodatkowe eksperymenty ablacyjne potwierdziły kluczową rolę niepewności w procesie eksploracji, przy minimalnym wpływie empowermentu w obecnych architekturach modeli. Co istotne, większe modele, takie jak LLaMA 3.1-70B, wykazały poprawę względem swoich mniejszych odpowiedników (np. LLaMA 3.1-8B), co sugeruje, że zwiększanie rozmiaru modeli może częściowo kompensować ich ograniczenia eksploracyjne.
Wyzwania i przyszłość eksploracji w LLM
Podsumowując, badanie ujawnia istotne ograniczenia modeli LLM w zakresie eksploracji otwartych zadań. Większość modeli skupia się na krótkoterminowych działaniach opartych na niepewności, co negatywnie wpływa na ich zdolność do adaptacji i uczenia się w dłuższej perspektywie. Wyjątek stanowi model o1, który z powodzeniem łączył różne strategie eksploracyjne, osiągając wyniki przewyższające ludzkie.
Dalsze prace badawcze powinny skupić się na modyfikacji architektury modeli w celu lepszego uwzględnienia strategii empowerment-based. Rozbudowa ram decyzyjnych i wprowadzenie bardziej zaawansowanych celów eksploracyjnych może przybliżyć LLM do bardziej ludzkiego sposobu odkrywania i rozumienia świata.
Eksploracja pozostaje kluczowym wyzwaniem stojącym przed sztuczną inteligencją, ale badania takie jak to otwierają drzwi do nowych możliwości. Czy przyszłe modele LLM będą w stanie dorównać ludzkiej intuicji i zdolnościom adaptacyjnym? Czas pokaże.