Modele językowe o dużej skali (LLM) wykazują niezwykłe możliwości w różnych zastosowaniach, jednak ich powszechna adopcja napotyka poważne wyzwania. Główną obawą jest zawartość zestawów treningowych, które często obejmują różnorodne, nieukierunkowane, a potencjalnie szkodliwe treści, takie jak złośliwy kod czy informacje związane z cyberatakami. Z tego powodu kluczowe staje się dostosowanie wyników generowanych przez modele do określonych wymagań użytkowników, jednocześnie zapobiegając ich niewłaściwemu użyciu. Obecnie stosowane podejścia, takie jak Uczenie przez Wzmocnienie z Ludzką Informacją Zwrotną (RLHF), próbują rozwiązać te problemy, uwzględniając preferencje ludzi w zachowaniach modelu. Niemniej jednak, RLHF boryka się z istotnymi ograniczeniami, takimi jak wysokie wymagania obliczeniowe, zależność od złożonych modeli nagród oraz niestabilność algorytmów uczenia przez wzmocnienie. W tej sytuacji konieczne jest opracowanie bardziej efektywnych i niezawodnych metod dostrajania modeli językowych przy zachowaniu ich wydajności i odpowiedzialnego rozwoju sztucznej inteligencji.
Nowe metody dopasowania modeli językowych
Różne metody dopasowania modeli językowych zostały opracowane w celu rozwiązania problemów z dostrajaniem LLM do preferencji ludzkich. Jeden z pierwszych systemów – RLHF – zdobył popularność poprzez wykorzystanie modelu nagród trenowanego na danych o preferencjach ludzi, w połączeniu z algorytmami uczenia przez wzmocnienie, takimi jak PPO, w celu optymalizacji zachowania modelu. Jednak jego złożoność i duże zapotrzebowanie na zasoby doprowadziły do opracowania prostszych metod, takich jak Direct Policy Optimization (DPO). DPO upraszcza proces, eliminując konieczność stosowania modelu nagród i wykorzystując zamiast tego funkcję strat opartą na binarnym entropii krzyżowej.
Obecnie badania koncentrują się na różnych miarach dywergencji, mających na celu kontrolowanie różnorodności wyników. W szczególności badacze skupiają się na α-dywergencji jako sposobie na zrównoważenie dywergencji odwrotnej KL i prostej KL, co pozwala lepiej dostosować wyniki do złożonych scenariuszy. Oprócz tego różne podejścia, takie jak techniki oparte na temperaturze, manipulacja podpowiedziami oraz modyfikacje funkcji celu, są stosowane w celu zwiększenia różnorodności odpowiedzi, co jest szczególnie ważne w zadaniach, gdzie pokrycie (czyli zdolność do rozwiązania problemów przez generowanie różnych próbek) odgrywa kluczową rolę – np. w zadaniach matematycznych i kodowania.
Nowa metoda H-DPO
Badacze z Uniwersytetu Tokijskiego oraz Preferred Networks, Inc. wprowadzili innowacyjną modyfikację tradycyjnego podejścia DPO, nazwaną H-DPO, która rozwiązuje problemy związane z zachowaniem poszukiwania trybu. Kluczową innowacją w tym podejściu jest kontrola entropii rozkładu wynikowego polityki, co umożliwia skuteczniejsze uchwycenie trybów docelowego rozkładu. Tradycyjna minimalizacja odwrotnej dywergencji KL może niekiedy nie zapewniać odpowiedniego dopasowania do trybu, gdy próbujemy dopasować rozkład jednostronny do wielomodalnej celu. H-DPO wprowadza hiperparametr α, który modyfikuje termin regularyzacji, pozwalając na celowe zmniejszenie entropii przy α mniejszym niż 1. To podejście jest zgodne z obserwacjami, że modele językowe często lepiej działają przy niższych wartościach temperatury podczas oceny. W przeciwieństwie do dostosowania temperatury po treningu, H-DPO wprowadza to zaostrzenie rozkładu bezpośrednio do celu treningowego, zapewniając optymalne dopasowanie do pożądanych zachowań, jednocześnie zachowując prostotę implementacji.
Skuteczność H-DPO – badania eksperymentalne
Eksperymentalna ocena H-DPO wykazała znaczące ulepszenia w porównaniu do standardowego DPO na różnych benchmarkach. Metoda była testowana na zróżnicowanych zadaniach, w tym na problemach matematycznych z poziomu szkoły podstawowej (GSM8K), zadaniach kodowania (HumanEval), pytaniach wielokrotnego wyboru (MMLU-Pro) oraz zadaniach związanych z przestrzeganiem instrukcji (IFEval). Obniżenie α do wartości między 0,95 a 0,9 pozwoliło osiągnąć lepsze wyniki we wszystkich zadaniach. Metryki różnorodności pokazały ciekawe zależności: niższe wartości α prowadziły do zmniejszenia różnorodności przy stałej temperaturze 1, natomiast wyższe wartości α zwiększały tę różnorodność. Relacja między α a różnorodnością okazała się bardziej skomplikowana, gdy rozważano zmienne temperatury.
W benchmarku GSM8K H-DPO z α=0,8 osiągnęło optymalne pokrycie przy temperaturze treningowej równej 1, przewyższając najlepsze wyniki standardowego DPO przy temperaturze 0,5. Co więcej, w HumanEval, wyższe wartości α (α=1,1) wykazały lepsze wyniki w scenariuszach intensywnego próbkowania (k>100), co wskazuje, że różnorodność odpowiedzi odgrywa kluczową rolę w zadaniach związanych z kodowaniem.
Podsumowanie
H-DPO stanowi znaczący postęp w dziedzinie dostosowywania modeli językowych, oferując prostą, ale skuteczną modyfikację standardowego podejścia DPO. Dzięki innowacyjnemu mechanizmowi kontroli entropii za pomocą hiperparametru α metoda ta osiąga lepsze zachowanie poszukiwania trybu i umożliwia precyzyjniejszą kontrolę nad rozkładem wyjściowym modeli. Wyniki eksperymentalne na różnych zadaniach pokazały poprawę dokładności i różnorodności wyników modeli, szczególnie wyróżniając się w zadaniach matematycznych i metrykach pokrycia. Choć ręczne dostrajanie α pozostaje pewnym ograniczeniem, prostota implementacji i imponująca wydajność H-DPO czynią tę metodę cennym wkładem w rozwój modeli językowych i otwierają drogę do bardziej skutecznych i kontrolowanych systemów sztucznej inteligencji.