Nowe podejście do zwiększenia różnorodności modeli językowych: CD-RLHF

Wraz z dynamicznym rozwojem modeli językowych dużej skali (LLMs), coraz większe znaczenie ma ich dostrajanie za pomocą technik takich jak Uczenie ze Wzmocnieniem na podstawie Ludzkiej Informacji Zwrotnej (RLHF). Metody te znalazły szerokie zastosowanie w generowaniu kodu, rozwiązywaniu problemów matematycznych czy w inteligentnej obsłudze dialogów. Pomimo tych postępów, istotnym wyzwaniem pozostaje ograniczona różnorodność generowanych odpowiedzi, szczególnie w zadaniach kreatywnych, takich jak tworzenie opowiadań, synteza danych czy testowanie granic możliwości modeli (tzw. red-teaming). Problem ten wynika z kompromisu pomiędzy jakością dopasowania do oczekiwań użytkownika a różnorodnością wyników.

Wyzwania związane z różnorodnością w RLHF

Dotychczasowe podejścia do dostrajania modeli skupiały się przede wszystkim na poprawie dokładności w realizacji instrukcji, zwiększeniu bezpieczeństwa i niezawodności. Niestety, efektem ubocznym tych działań jest obniżenie różnorodności wyników. W odpowiedzi na ten problem, naukowcy opracowali różne metody, takie jak wykorzystanie algorytmów f-divergence w połączeniu z DPO/PPO, które starają się zrównoważyć jakość dostosowania i różnorodność. Inne rozwiązania stosują metryki oceny, takie jak SelfBLEU czy Sentence-BERT, aby zwiększyć różnorodność podczas treningu, zwłaszcza w zadaniach związanych z red-teamingiem. Dodatkowo, eksperymentowano z metodami opartymi na motywacji poznawczej, jak podejścia bazujące na liczbie odwiedzin stanów czy błędach predykcji. Pomimo tych wysiłków, znalezienie optymalnej równowagi między jakością dostosowania a różnorodnością pozostaje znaczącym wyzwaniem.

Nowe rozwiązanie: CD-RLHF

Zespół badaczy z Baidu zaproponował nowatorskie podejście o nazwie CD-RLHF (Curiosity-driven Reinforcement Learning from Human Feedback), które ma na celu rozwiązanie problemu kompromisu między różnorodnością a jakością dopasowania. Główna innowacja tej metody polega na wprowadzeniu mechanizmu nagradzania opartego na ciekawości, który działa równolegle z tradycyjnymi nagrodami z modelu oceny. W ramach CD-RLHF, ciekawość jest obliczana jako błąd predykcji w reprezentacjach stanów, co pozwala na dynamiczne mierzenie „interesującości” danego stanu. Dzięki temu, stany często odwiedzane przez model stają się z czasem mniej atrakcyjne, co stymuluje eksplorację nowych rozwiązań.

Podwójny system nagradzania jest kluczowym elementem tej metody. Dzięki niemu model utrzymuje wysoką jakość dopasowania, jednocześnie generując bardziej zróżnicowane odpowiedzi poprzez wybór różnorodnych tokenów na każdym etapie podejmowania decyzji.

Testy i wyniki

Framework CD-RLHF został przetestowany na dwóch zestawach danych: TL;DR (podsumowywanie tekstów) oraz UltraFeedback (realizacja instrukcji). Pierwszy z nich obejmuje 93 tys. par preferencji oznaczonych przez ludzi, a drugi zawiera 61,1 tys. par treningowych. Testy przeprowadzono na bazowych modelach, takich jak Gemma-2B, Gemma-7B oraz Llama-3.2-1B i Llama-3.2-3B, korzystając z frameworka DeepSpeed-Chat. Dane treningowe zostały podzielone według proporcji: 20% na SFT (Supervised Fine-Tuning), 40% na RM (Reward Modeling) oraz 40% na PPO (Proximal Policy Optimization). Porównano wyniki CD-RLHF z metodami bazowymi, w tym klasycznym RLHF oraz Sent-Rewards, które wykorzystują SelfBLEU i Sentence-BERT jako dodatkowe nagrody.

Rezultaty eksperymentów pokazały zdecydowaną przewagę CD-RLHF pod względem różnorodności generowanych wyników i utrzymania wysokiej jakości dopasowania. W zadaniu związanym z podsumowywaniem tekstów (TL;DR) model osiągnął wzrost różnorodności na poziomie 16,66% dla Gemma-2B oraz 6,22% dla Gemma-7B w porównaniu do tradycyjnego RLHF. W zadaniu UltraFeedback poprawa różnorodności osiągnęła od 7,35% do 14,29% w zależności od modelu. Co więcej, zewnętrzna weryfikacja przeprowadzona za pomocą GPT-4 wykazała, że CD-RLHF miał wskaźniki sukcesu na poziomie do 58% w przypadku TL;DR oraz średnio 62% w UltraFeedback, w porównaniu do metod bazowych.

Perspektywy rozwoju

CD-RLHF to istotny krok naprzód w rozwiązywaniu problemu kompromisu między różnorodnością a jakością dopasowania w treningu modeli językowych. Dzięki połączeniu tradycyjnych nagród z mechanizmem motywacji poznawczej, framework ten otwiera nowe możliwości w zakresie generowania bardziej zróżnicowanych odpowiedzi bez utraty precyzji. Mimo to, wciąż istnieją wyzwania, takie jak dopasowanie skal nagród czy redukcja różnic między różnorodnością wyników uzyskiwanych w etapach SFT i RLHF. Choć CD-RLHF znacząco zmniejsza dotychczasowy kompromis, dalsze badania są potrzebne, aby całkowicie wyeliminować te ograniczenia i osiągnąć optymalne rezultaty.