Nowa metoda uczenia maszynowego zwiększa skuteczność modeli językowych

Tradycyjne podejście do wzmacniania modeli językowych

Uczenie przez wzmocnienie (RL) w kontekście dużych modeli językowych (LLM) tradycyjnie opiera się na nagrodach wynikowych, które zapewniają informacje zwrotne jedynie na podstawie końcowego wyniku. Takie podejście sprawdza się w prostych zadaniach, jednak stanowi wyzwanie w przypadku modeli wymagających wieloetapowego rozumowania, takich jak te wykorzystywane do rozwiązywania problemów matematycznych czy programowania.

Problemem jest rzadkość takich nagród – model nie otrzymuje szczegółowych informacji zwrotnych dotyczących poszczególnych kroków myślowych, co utrudnia przypisanie zasług poszczególnym etapom generowania odpowiedzi. Aby temu zaradzić, stosuje się tzw. modele nagród procesowych (PRM), które dostarczają bardziej szczegółowych nagród na poziomie kolejnych kroków. Jednak ich implementacja wymaga kosztownych i czasochłonnych adnotacji ludzkich, co czyni je trudnymi do wdrożenia na szeroką skalę.

Dodatkowym wyzwaniem jest zjawisko nadmiernej optymalizacji oraz manipulowania systemem nagród przez modele, co prowadzi do sytuacji, w której optymalizacja nagród odbywa się kosztem rzeczywistej zdolności do uogólniania wiedzy. Wszystkie te ograniczenia sprawiają, że obecne metody RL dla dużych modeli językowych są mało efektywne, wymagają dużych zasobów obliczeniowych oraz trudno skalują się na większe modele.

Nowe podejście: Implicit Process Reward Model

Zespół badaczy z kilku czołowych uniwersytetów i instytutów badawczych, w tym Uniwersytetu Tsinghua, Uniwersytetu Illinois w Urbana-Champaign oraz Uniwersytetu Pekińskiego, zaproponował nową metodologię, która eliminuje potrzebę ręcznej adnotacji kroków procesu. Nowe podejście, nazwane Implicit Process Reward Model (Implicit PRM), pozwala na ocenę generowanego tekstu na poziomie poszczególnych tokenów, niezależnie od końcowego wyniku. Dzięki temu eliminowana jest konieczność ręcznego oznaczania poszczególnych etapów przez ludzi.

Najważniejszą zaletą nowego podejścia jest możliwość ciągłego doskonalenia modelu nagród online, co zapobiega nadmiernej optymalizacji i manipulacji systemem nagród. Metoda ta pozwala również na skuteczną integrację procesowych nagród z nagrodami wynikowymi w procesie estymacji korzyści, co zwiększa efektywność obliczeniową. W przeciwieństwie do wcześniejszych metod, które wymagały osobnej fazy treningowej dla modelu nagród, nowe rozwiązanie inicjalizuje PRM bezpośrednio z modelu polityki, co znacząco redukuje koszty rozwoju.

Dodatkowym atutem jest kompatybilność nowej metody z wieloma popularnymi algorytmami uczenia przez wzmocnienie, takimi jak REINFORCE, PPO oraz GRPO. Dzięki temu rozwiązanie to jest bardziej uniwersalne i może być stosowane do trenowania różnych modeli językowych.

Jak działa nowa metoda?

Nowa metoda RL opiera się na nagrodach przetwarzanych na poziomie tokenów, które są obliczane poprzez formułę logarytmicznej proporcji pomiędzy nauczonym modelem nagrody a modelem odniesienia. Kluczową różnicą jest to, że nagroda nie wymaga ręcznej adnotacji – funkcja nagrody jest nauczana na podstawie już istniejących etykiet wynikowych, wykorzystywanych w treningu modelu polityki.

Dzięki zastosowaniu techniki online learning (uczenia w czasie rzeczywistym) model unika problemów takich jak nadmierna optymalizacja i manipulacja systemem nagród. W procesie optymalizacji polityki wykorzystano algorytm Proximal Policy Optimisation (PPO), który stabilizuje proces szkolenia poprzez zastosowanie ograniczonej funkcji straty.

Model został przetestowany na bazie Qwen2.5-Math-7B-Base, zoptymalizowanej pod kątem rozwiązywania problemów matematycznych. Zestaw danych do treningu obejmował 150 tys. zapytań, przy czym dla każdego zapytania wygenerowano cztery próbki. Wyniki porównano z modelem Qwen2.5-Math-7B-Instruct, który korzystał z aż 618 tys. ręcznie oznaczonych adnotacji. Nowa metoda okazała się znacząco skuteczniejsza pod względem wydajności treningu.

Wyniki i przewaga nad istniejącymi metodami

Rezultaty eksperymentów wskazują na znaczącą poprawę efektywności w porównaniu do tradycyjnych metod RL. Nowy model uzyskał aż 2,5-krotny wzrost efektywności próbkowania oraz 6,9% poprawę w zakresie rozwiązywania problemów matematycznych w stosunku do standardowego podejścia opartego na nagrodach wynikowych.

Dodatkowo model przewyższył Qwen2.5-Math-7B-Instruct w testach matematycznych, osiągając lepsze wyniki w zadaniach na poziomie konkursowym, takich jak AIME i AMC. Co ciekawe, modele trenowane tą metodą przewyższały nawet większe modele, w tym GPT-4o, w testach mierzących dokładność odpowiedzi w trudnych zadaniach logicznych – mimo że wykorzystano jedynie 10% danych treningowych w porównaniu do wcześniejszego modelu Qwen2.5-Math-7B-Instruct.

Wyniki badania jednoznacznie wskazują, że aktualizacje modelu nagrody w czasie rzeczywistym zapobiegają nadmiernej optymalizacji, poprawiają stabilność treningu oraz skuteczność przypisywania wartości kolejnym etapom generacji tekstu. To sprawia, że metoda ta może stać się przełomowym rozwiązaniem w dziedzinie uczenia przez wzmocnienie dla dużych modeli językowych.

Przyszłość uczenia maszynowego

Nowa metoda RL zapewnia skuteczniejsze i bardziej skalowalne podejście do trenowania dużych modeli językowych, eliminując konieczność ręcznych adnotacji i jednocześnie redukując koszty szkolenia. Dzięki połączeniu modelowania nagród online oraz informacji zwrotnej na poziomie tokenów, rozwiązanie to rozwiązuje kluczowe problemy związane z rzadkością nagród i trudnością w przypisywaniu zasług poszczególnym etapom generacji.

Dalszy rozwój tej technologii może znacząco wpłynąć na zdolność AI do rozwiązywania skomplikowanych problemów matematycznych, logicznych i programistycznych. To przełomowe podejście toruje drogę do bardziej efektywnego, skalowalnego i wydajnego szkolenia modeli językowych przyszłości.