"Proste, ale Skuteczne Skalowanie LLM-ów podczas Testowania"

Nowy paradygmat w sztucznej inteligencji: Test-time scaling

Ewolucja modeli językowych

Modele językowe (LM) osiągnęły znaczący postęp dzięki wzrostowi mocy obliczeniowej wykorzystywanej podczas ich trenowania. Kluczową rolę odgrywa tutaj pretrenowanie na dużą skalę w trybie samonadzorowanym, które pozwala modelom przyswoić ogromne ilości danych. Chociaż taka strategia prowadzi do tworzenia niezwykle zaawansowanych systemów, coraz większą uwagę przykuwa nowy paradygmat – test-time scaling.

Test-time scaling koncentruje się na zwiększaniu mocy obliczeniowej w momencie wnioskowania, co pozwala poprawić jakość uzyskanych wyników. Podejście to zostało potwierdzone przez model o1 opracowany przez OpenAI. Dzięki zastosowaniu test-time scaling model ten wykazuje lepsze zdolności rozumowania. Jednak odtworzenie tych wyników przez innych badaczy okazało się wyzwaniem.

Techniki test-time scaling

Aby sprostać problemowi test-time scaling, opracowano różne metody. Jednym z podejść jest skalowanie sekwencyjne, w którym model generuje kolejne wersje rozwiązania, wykorzystując wcześniejsze wyniki jako punkt wyjścia. Inną techniką są metody oparte na drzewach wyszukiwania, takie jak Monte Carlo Tree Search (MCTS) oraz guided beam search, które łączą elementy skalowania sekwencyjnego i równoległego.

Jednym z najbardziej obiecujących rozwiązań jest metoda REBASE, która korzysta z modelu nagrody procesowej do optymalizacji wyszukiwania w drzewie decyzyjnym. Wykazuje ona lepszą skuteczność niż tradycyjne metody oparte na próbkowaniu oraz MCTS. Kluczowym elementem tych metod są modele nagrody, które mogą oceniać zarówno całkowite rozwiązania (modele nagrody wynikowej), jak i poszczególne kroki rozumowania (modele nagrody procesowej).

Nowe podejście do test-time scaling

Zespół badaczy z Uniwersytetu Stanforda, Uniwersytetu Waszyngtońskiego, Allen Institute for AI oraz Contextual AI zaproponował uproszczoną metodę osiągania test-time scaling oraz poprawy zdolności rozumowania modeli. Opracowane rozwiązanie opiera się na dwóch kluczowych innowacjach:

1. Zbiór danych s1K – starannie wyselekcjonowany zestaw 1 000 pytań zawierających ślady rozumowania, dobrany na podstawie kryteriów trudności, różnorodności i jakości.
2. Technika budget forcing – mechanizm regulujący czas przeznaczony na wnioskowanie poprzez strategiczne wstawki „Wait”. Pozwala to modelowi na przegląd i korektę własnego procesu rozumowania.

Nowe podejście zostało wdrożone poprzez dostrojenie modelu językowego Qwen2.5-32B-Instruct na zbiorze danych s1K, co umożliwiło zoptymalizowanie test-time scaling.

Proces selekcji danych

Selekcja danych do zbioru s1K przebiega w trzech etapach:

Filtrowanie jakościowe – eliminacja próbek zawierających błędy API i problemy formatowania; początkowy zbiór 51 581 przykładów został zredukowany do 384 wysokiej jakości próbek.
Ocena trudności – analiza poprawności odpowiedzi z wykorzystaniem modeli Qwen2.5-7B-Instruct oraz Qwen2.5-32B-Instruct, a także pomiar długości śladów rozumowania za pomocą tokenizerów.
Różnorodność tematyczna – klasyfikacja pytań w ramach 50 różnych dziedzin matematycznych przy użyciu systemu Mathematics Subject Classification (MSC).

Ostateczny zbiór s1K obejmuje 1 000 próbek prezentujących szeroki zakres zagadnień matematycznych i logicznych.

Wyniki i efektywność nowego modelu

Model s1-32B, dostrojony według nowej metody, wykazuje znaczącą poprawę wydajności dzięki mechanizmowi budget forcing. W porównaniu do bazowego modelu Qwen2.5-32B-Instruct, który stosuje tradycyjną metodę głosowania większościowego, s1-32B działa w bardziej efektywnym paradygmacie skalowania sekwencyjnego.

Dzięki zaledwie 1 000 dodatkowym próbek treningowych s1-32B osiąga wyraźne postępy w efektywności próbkowania – w przeciwieństwie do modelu r1-32B, który wymaga aż 800 razy więcej danych treningowych. Co więcej, nowy model zbliża się do poziomu Gemini 2.0 Thinking w zadaniach z zestawu AIME24, co wskazuje na skuteczną destylację wiedzy.

Wnioski – minimalna ilość danych, maksymalna poprawa

Badanie pokazuje, że Supervised Fine-Tuning (SFT) z wykorzystaniem zaledwie 1 000 starannie dobranych przykładów może stworzyć konkurencyjny model rozumowania, dorównujący pod względem wydajności modelowi o1-preview.

Kluczowym elementem sukcesu jest technika budget forcing, która skutecznie odtwarza zachowanie test-time scaling OpenAI. Co ciekawe, eksperymenty sugerują, że zdolności rozumowania są w dużej mierze obecne już na etapie pretrenowania na bilionach tokenów, a proces fine-tuningu jedynie aktywuje ukryte zdolności modelu. Jest to zgodne z hipotezą „Superficial Alignment Hypothesis” z badań LIMA, według której wystarczy stosunkowo niewielka liczba przykładów, aby dostroić model do pożądanych wyników.

Nowe podejście może otworzyć drogę do bardziej efektywnych metod trenowania modeli AI, które wymagają mniejszej liczby próbek treningowych, a mimo to osiągają znakomite rezultaty w zadaniach wymagających zaawansowanego rozumowania.