Modele językowe dużej skali (LLM) napotykają poważne trudności w zrozumieniu i przetwarzaniu rozumowania matematycznego. Wymaga ono szeregu zadań poznawczych, takich jak rozumienie i manipulowanie pojęciami matematycznymi, rozwiązywanie problemów oraz wyciąganie logicznych wniosków. Obecne metody w tej dziedzinie zostały opracowane, aby poprawić zdolności matematyczne LLM. Mimo to, wiele badań nie docenia znaczenia przejścia stanów podczas rozumowania modeli, co mogłoby znacząco poprawić zdolności rozumowania LLM, lecz wciąż nie jest szeroko stosowane.
Współczesne podejścia do rozumowania matematycznego przez LLM
Obecne metody koncentrują się na rozwijaniu umiejętności matematycznych modeli LLM, takich jak GPT, LLaMA czy MetaMath, poprzez intensywne treningi. Modele te wykorzystują dużą ilość przykładów w celu prowadzenia procesu rozumowania krok po kroku podczas rozwiązywania problemów. Techniki takie jak CoT (Chain of Thought) oraz Best-of-N badają, jak w pełni wykorzystać potencjał LLM podczas wnioskowania, aby zwiększyć ich wydajność w zadaniach matematycznych. Szczególnie efektywne okazały się metody takie jak Monte Carlo Tree Search oraz Process Reward Model, które dzielą proces rozwiązywania problemu na wiele etapów oferując jednocześnie nagrody za postępy. Niemniej jednak, te techniki mają pewne ograniczenia, zwłaszcza jeśli chodzi o efektywność oraz elastyczność w różnych typach problemów.
Kwai-STaR – Nowe podejście do rozumowania w LLM
Aby rozwiązać te wyzwania, opracowano nowe podejście – Kwai-STaR. Jest to ramowa struktura, która przekształca ogólne modele LLM w systemy rozumowania oparte na zmianie stanów, które systematycznie rozwiązują problemy poprzez przejścia między różnymi stanami. Kwai-STaR składa się z trzech głównych etapów: definiowania przestrzeni stanów dla rozwiązywania problemów, budowania zbioru danych przejść stanów oraz trenowania modeli LLM za pomocą dwustopniowego programu nauczania.
Proces szkolenia Kwai-STaR
Zbiór danych używany w Kwai-STaR zawiera dwa rodzaje przypadków: większość to przypadki poprawne, natomiast mniejszość to przypadki błędne, które zostały później skorygowane przez generator danych i wytrenowany model. Strategia szkoleniowa Kwai-STaR obejmuje dwa etapy, aby maksymalizować efektywność nauki.
1. Podstawowy etap: W tym etapie model jest trenowany na większości poprawnych przypadków, co pozwala mu rozwiązywać stosunkowo proste problemy i zrozumieć sposób działania przejść między stanami.
2. Zaawansowany etap: Obejmuje pary przypadków błędnych i zweryfikowanych, co dodatkowo wzmacnia zdolności modelu do rozwiązywania bardziej złożonych problemów.
Kwai-STaR był testowany na benchmarkach takich jak GSM8K, gdzie wykazał się imponującą wydajnością i dokładnością. Co więcej, okazało się, że Kwai-STaR osiąga wysokie wskaźniki trafności, przy jednoczesnym uproszczeniu procesów wnioskowania w porównaniu do tradycyjnych metod.
Potencjał i przyszłość Kwai-STaR
Podsumowując, Kwai-STaR przekształca tradycyjne LLM w systemy oparte na przejściach stanów, co znacząco poprawia ich zdolności do rozwiązywania problemów matematycznych. Obecnie Kwai-STaR potwierdził swoją skuteczność jedynie w dziedzinie matematyki, która jest zarówno wymagająca, jak i reprezentatywna dla testowania modeli. Niemniej jednak, potencjał przestrzeni stanów do ulepszania rozumowania LLM w ogólniejszych scenariuszach pozostaje niezweryfikowany. To ogranicza możliwość szerszego zastosowania Kwai-STaR. Badacze pracują nad dostarczeniem dodatkowych wyników eksperymentalnych w bardziej zróżnicowanych i ogólnych kontekstach, aby lepiej zademonstrować wszechstronność tego podejścia.
Zakończenie
Metody wykorzystujące zmianę stanów, takie jak Kwai-STaR, oferują obiecujące możliwości poprawy zdolności rozumowania matematycznego w modelach LLM. Chociaż obecnie skupiają się one głównie na matematyce, ich rozwój może mieć szerokie zastosowanie w innych dziedzinach.