Nowoczesne systemy sztucznej inteligencji (SI) w dużej mierze opierają się na metodach takich jak nadzorowane dostrajanie (SFT) oraz uczenie się przez wzmacnianie (RL), aby dostosować modele podstawowe do specyficznych zadań. Jednak kluczowe pytanie pozostaje bez odpowiedzi: czy te metody pomagają modelom zapamiętywać dane treningowe, czy raczej umożliwiają uogólnienie wiedzy na nowe scenariusze? Rozróżnienie to jest niezwykle istotne w kontekście tworzenia odpornych systemów SI zdolnych do radzenia sobie z różnorodnością realnych wyzwań.

Potencjalne pułapki nadzorowanego dostrajania (SFT)

Badania pokazują, że SFT może prowadzić do przeuczenia modeli na danych treningowych, co sprawia, że stają się one mało elastyczne w obliczu nowych wariantów zadań. Na przykład model dopasowany za pomocą SFT może świetnie radzić sobie z prostymi zadaniami arytmetycznymi opartymi na określonych regułach (np. przypisując waletowi wartość 11), ale nie poradzi sobie w sytuacji, gdy te reguły ulegną zmianie (np. walet będzie miał wartość 10). Innymi słowy, model może zapamiętywać konkretne rozwiązania zamiast uczyć się zasad matematycznych. W kontekście bardziej zaawansowanych problemów, takich jak nawigacja wizualna, SFT może prowadzić do zapamiętywania konkretnych sekwencji punktów orientacyjnych, zamiast rozwijania ogólnych umiejętności przestrzennych.

Zalety uczenia się przez wzmacnianie (RL)

Z kolei uczenie się przez wzmacnianie (RL) koncentruje się na optymalizacji działań w celu maksymalizacji nagród, co sprzyja lepszemu zrozumieniu struktury zadania. Modele trenowane z wykorzystaniem RL są bardziej elastyczne w dostosowywaniu się do nowych zasad i warunków. Na przykład w zadaniach arytmetycznych modele RL potrafią lepiej uogólniać zasady matematyczne, zamiast bazować na zapamiętanych wartościach. W przypadku nawigacji wizualnej RL umożliwia agentom zrozumienie relacji przestrzennych (np. obrót o 90 stopni w lewo), co sprawia, że są one bardziej odporne na zmiany w środowisku, takie jak nowe konfiguracje punktów orientacyjnych.

Eksperymenty: Badanie uogólnienia vs. zapamiętywania

Aby lepiej zrozumieć różnice między SFT a RL, zespół badawczy złożony z naukowców z Uniwersytetu w Hongkongu (HKU), Uniwersytetu Kalifornijskiego w Berkeley, Google DeepMind i Uniwersytetu Nowojorskiego (NYU) przeprowadził eksperymenty z wykorzystaniem dwóch zadań testowych: GeneralPoints (rozumowanie matematyczne) oraz V-IRL (nawigacja wizualna). Oba zadania zawierały dane w obrębie dystrybucji treningowej (ID), jak i dane spoza dystrybucji treningowej (OOD), co pozwoliło zbadać zdolność modeli do adaptacji.

Zadanie GeneralPoints

Cel: Tworzenie równań o sumie 24 przy użyciu czterech liczb z kart do gry.
Warianty: Zmiana reguł przypisywania wartości kartom (np. walet = 11 versus walet = 10) lub zmiana kolorów kart (czerwone kontra niebieskie).
Wynik: Analiza pokazuje, czy modele rozumieją zasady arytmetyki, czy tylko zapamiętują specyficzne reguły.

Zadanie V-IRL

Cel: Nawigacja do wyznaczonego celu przy użyciu punktów orientacyjnych.
Warianty: Zmiana przestrzeni akcji (np. absolutne kierunki jak „północ” kontra względne polecenia typu „skręć w lewo”) lub testy w nieznanych miastach.
Wynik: Sprawdzenie, czy modele potrafią uogólniać wzorce przestrzenne, niezależnie od zapamiętanych punktów orientacyjnych.

Wyniki: RL vs. SFT

W testach przeprowadzonych na bazowym modelu Llama-3.2-Vision-11B, zastosowano kolejno SFT, a następnie RL, aby zbadać różnice w wydajności. Oto kluczowe obserwacje:

1. Zadania oparte na regułach:
– RL poprawiło dokładność OOD o +3,5% (GeneralPoints) i +11,0% (V-IRL), podczas gdy SFT obniżyło wydajność odpowiednio o -8,1% i -79,5%.
– Przykład: Kiedy reguła dla waleta zmieniała się z „walet = 11” na „walet = 10”, modele RL dostosowywały równania do nowych wartości, podczas gdy modele SFT korzystały z nieprawidłowych zapamiętanych rozwiązań.

2. Zadania wizualne:
– RL zwiększyło dokładność OOD o +17,6% (GeneralPoints) i +61,1% (V-IRL), podczas gdy SFT zanotowało spadek o -9,9% i -5,6%.
– Przykład: W V-IRL modele RL skutecznie nawigowały po nieznanych miastach, rozpoznając wzorce przestrzenne, podczas gdy modele SFT polegały na zapamiętanych punktach orientacyjnych i zawodziły.

Wnioski: Balans między SFT a RL

Badanie wyraźnie wskazuje na kompromis pomiędzy SFT a RL. SFT jest skuteczne w dopasowywaniu się do danych treningowych, ale traci na elastyczności w zmiennym środowisku. Z kolei RL lepiej radzi sobie z adaptacją do nowych wyzwań, ale wymaga odpowiedniej inicjalizacji przez SFT, aby model posiadał podstawowe umiejętności. Ważnym odkryciem jest również to, że nadmierne dostrajanie modelem SFT może ograniczać zdolność RL do eksplorowania nowych rozwiązań.

Dla praktyków oznacza to, że RL powinno być stosowane jako uzupełnienie SFT, ale tylko do momentu, gdy model osiągnie podstawowe kompetencje zadaniowe. Nadmierne poleganie na SFT może prowadzić do „zamrożenia” wzorców zapamiętanych podczas treningu, co ogranicza potencjał RL w eksploracji nowych strategii.

Wnioski z tego badania stanowią ważny wkład w rozwój elastycznych i odpornych systemów SI, które mogą skutecznie działać w dynamicznie zmieniających się środowiskach.