Nowa metoda poprawy zdolności rozumowania w modelach językowych
Rozwój dużych modeli językowych (LLMs) to jeden z głównych kierunków postępu w dziedzinie sztucznej inteligencji. Modele te są projektowane z myślą o zastosowaniach w matematyce, programowaniu oraz tworzeniu autonomicznych agentów, jednak ich zdolności do głębokiego rozumowania w czasie rzeczywistym wciąż pozostawiają wiele do życzenia. Tradycyjne metody poprawy wydajności w obszarze rozumowania, takie jak generowanie kroków rozumowania na podstawie zadanych przykładów czy stosowanie wzmocnionego uczenia (Reinforcement Learning, RL), nie przynoszą zadowalających rezultatów w bardziej złożonych zadaniach. Szczególnym wyzwaniem jest skalowanie tych modeli – zwiększanie mocy obliczeniowej nie zawsze przekłada się na lepsze wyniki, a dłuższe odpowiedzi oraz głębsze rozumowanie okazują się trudne do skutecznego wdrożenia.
Problemy współczesnych metod w rozumowaniu LLMs
Obecne podejścia do poprawy rozumowania modeli językowych opierają się głównie na tak zwanym uczeniu przez imitację. Modele te uczą się powtarzać kroki rozumowania generowane przez przykłady lub na podstawie odrzuconych wyników losowania. Dodatkowo, wstępne szkolenie na danych związanych z rozumowaniem oraz dostrajanie modeli za pomocą RL poprawia ich zrozumienie, ale nie jest wystarczające w przypadku bardziej złożonych zadań. Metody post-treningowe, takie jak generowanie par pytań i odpowiedzi czy dodawanie weryfikatorów, poprawiają dokładność, lecz są silnie uzależnione od nadzoru zewnętrznego.
Próby skalowania modeli językowych poprzez zwiększanie danych treningowych i rozbudowę ich architektury przynoszą poprawę wydajności, ale wciąż pozostają niewystarczające w kontekście głębszego rozumowania. Powtarzane próbkowanie odpowiedzi zwiększa jedynie koszty obliczeniowe, nie wpływając znacząco na zdolności rozumowania, co sprawia, że obecne techniki są mało wydajne przy generowaniu dłuższych i bardziej skomplikowanych odpowiedzi.
Nowatorskie podejście: metoda T1
Aby rozwiązać powyższe problemy, naukowcy z Uniwersytetu Tsinghua oraz Zhipu AI opracowali innowacyjną metodę o nazwie T1. Opiera się ona na wzmocnionym uczeniu, które jednocześnie poszerza zakres eksploracji i poprawia skalowalność wnioskowania. Metoda T1 wprowadza nowatorskie podejście polegające na treningu modeli językowych za pomocą danych typu „chain-of-thought” (łańcuch myślowy) oraz zastosowaniu mechanizmów prób i błędów oraz samo-weryfikacji – procesów, które są zwykle pomijane w tradycyjnych metodach treningu.
W przeciwieństwie do wcześniejszych podejść, koncentrujących się jedynie na uzyskiwaniu właściwych odpowiedzi, T1 promuje różnorodność ścieżek rozumowania. Model generuje wiele odpowiedzi na każde zapytanie, analizując popełniane błędy przed zastosowaniem RL. Proces ten wzbogaca trening w dwóch kluczowych aspektach: zwiększenie różnorodności odpowiedzi dzięki nadpróbkowaniu oraz stabilizacja treningu poprzez ujemne wzmocnienia dla odpowiedzi niskiej jakości, zbyt długich lub nadmiernie redundantnych. Dodatkowo, T1 dynamicznie aktualizuje model referencyjny za pomocą średnich ruchomych, co zapobiega stagnacji treningu.
Zastosowanie T1 w praktyce
W ramach badań T1 został wdrożony w otwartych modelach, takich jak GLM-4-9B oraz Qwen2.5-14B/32B, z naciskiem na zastosowania w matematycznym rozumowaniu. Dane treningowe pochodziły z zestawów takich jak MATH-train i NuminaMath, a naukowcy przygotowali około 30 000 instancji, starannie filtrując dane o niskiej jakości.
W fazie dostrajania nadzorowanego (Supervised Fine-Tuning, SFT) zastosowano harmonogram wygaszania kosinusowego, a trening RL oparto na gradientach polityki z nagrodami za poprawność odpowiedzi. Wyniki pokazały, że T1 znacznie przewyższył modele bazowe w testach matematycznych, przy czym model Qwen2.5-32B zaoferował poprawę dokładności od 10% do 20% w porównaniu do wersji SFT. Większa liczba próbkowanych odpowiedzi (tzw. parametr K) poprawiała eksplorację i uogólnianie wyników, szczególnie w przypadku benchmarków takich jak GPQA. Kluczowym czynnikiem stabilizującym trening była temperatura próbkowania wynosząca 1.2, ale zbyt wysokie lub niskie wartości prowadziły do problemów z wydajnością.
Wyniki i znaczenie metody T1
Metoda T1 wykazała znaczną poprawę w zdolnościach rozumowania modeli językowych, szczególnie w kontekście skalowania wyników przy większych zasobach obliczeniowych. Dzięki zastosowaniu kar za niewłaściwe odpowiedzi oraz nadpróbkowaniu, T1 zniwelował wpływ wąskich gardeł w danych treningowych, co przekładało się na lepsze wyniki w testach. Model nie tylko przewyższył dotychczasowe podejścia w benchmarkach, ale także umożliwił bardziej efektywne skalowanie modeli językowych, co staje się kluczowym wyzwaniem w dziedzinie sztucznej inteligencji.
Perspektywy przyszłych badań
Opracowanie metody T1 może stanowić punkt wyjścia dla dalszych badań nad poprawą zdolności rozumowania dużych modeli językowych. Dzięki innowacyjnemu podejściu do wzmocnionego uczenia oraz dynamicznego treningu, framework ten oferuje nowe możliwości w zakresie skalowania modeli i ich zastosowania w bardziej zaawansowanych zadaniach. Wyniki badań pokazują, że kombinacja eksploracji, stabilności i dynamicznego dostrajania może być kluczowa w przezwyciężaniu obecnych ograniczeń technologii AI.