Nowe podejście do dopasowywania modeli językowych do ludzkich wartości
Dopasowanie dużych modeli językowych (LLMs) do ludzkich wartości to jedno z największych wyzwań w świecie sztucznej inteligencji. Problemy te wynikają głównie z niejasnych celów, słabych sygnałów treningowych oraz złożoności ludzkich intencji. Dotychczasowe metody wymagały wieloetapowego procesu obejmującego dostrajanie nadzorowane (SFT), modelowanie nagród i uczenie przez wzmacnianie. Jednak rosnące wymagania obliczeniowe oraz trudności w precyzyjnym formułowaniu nagród sprawiają, że konieczne jest poszukiwanie bardziej efektywnych metod.
Jednym z nowych podejść są algorytmy bezpośredniego dopasowania (DAAs – Direct Alignment Algorithms), które omijają skomplikowane modelowanie nagród i procesy uczenia przez wzmacnianie. DAAs bazują na różnych metodach rankingowych, takich jak porównywanie par odpowiedzi lub ocenianie pojedynczych wyników. Niektóre z tych algorytmów wymagają dodatkowego etapu dostrajania, a inne działają bez tego kroku. W praktyce okazuje się, że różnice w metodach rankingowych i sposobach definiowania nagród utrudniają ocenę skuteczności tych rozwiązań.
Uproszczenie procesu dopasowania dzięki algorytmom DAAs
Obecnie standardowe metody dostosowywania modeli językowych do ludzkich preferencji składają się z kilku etapów, co znacząco wpływa na czas i zasoby wymagane do ich implementacji. DAAs oferują bardziej bezpośrednie podejście, ponieważ optymalizują modele zgodnie z ludzkimi preferencjami bez konieczności korzystania z dodatkowego modelowania nagród. Jednak różne podejścia do DAAs mogą się znacznie różnić – zarówno pod względem metod optymalizacji, jak i funkcji strat czy strategii dostrajania.
Chociaż algorytmy te mają potencjał do uproszczenia całego procesu, istnieją pewne trudności w jednoznacznej ocenie ich efektywności. Różnice w metodach rankingowych, sposobie obliczania nagród oraz strategiach szkolenia powodują, że wyniki mogą być niespójne. Dlatego konieczne są dalsze badania, które pozwolą lepiej zrozumieć ich skuteczność w różnych warunkach.
Nowe ulepszenia – wpływ dostrajania nadzorowanego i parametru skali β
Aby poprawić skuteczność algorytmów DAAs, takich jak ORPO oraz ASFT, naukowcy zaproponowali dodanie dodatkowego etapu dostrajania nadzorowanego (SFT) oraz wprowadzenie parametru skali (β). Pierwotnie te metody działały bez β i bez oddzielnego etapu SFT, co ograniczało ich efektywność.
Wprowadzenie wyraźnego etapu SFT oraz umożliwienie regulacji skali preferencji za pomocą β sprawiło, że wyniki nowych wariantów DAAs dorównują bardziej złożonym podejściom dwustopniowym, takim jak DPO. Kluczowa różnica między różnymi algorytmami bezpośredniego dopasowania wynika z tego, czy używają ilorazu szans czy współczynnika polityki referencyjnej, co wpływa na sposób optymalizacji dopasowania.
Eksperymentalne wyniki i wpływ nowego podejścia
Zmodyfikowane algorytmy DAAs zostały przetestowane na kilku zestawach danych, takich jak UltraChat oraz UF, używając modelu Llama 3.1 8B. Wyniki były porównywane na benchmarkach AlpacaEval 2 oraz ArenaHard, a także na danych z Reddita TL;DR, gdzie zastosowano mniejszy model Llama 3.2 3B.
Badania wykazały, że dodanie etapu SFT do UF poprawiło dopasowanie ORPO oraz ASFT. ORPO osiągnął wyniki porównywalne z DPO oraz ASFT, co przełożyło się na 2,04% wzrost skuteczności w rankingu ArenaHard. Chociaż wciąż nie dorównywał ORPO pod każdym względem, to dopasowanie β znacząco zwiększyło wydajność, osiągając +7,0 oraz +43,4 wzrostu w rankingu GPT-4 dla TL;DR oraz +3,46 i +8,27 w rankingu UF AlpacaEval 2 LC.
Analiza porównawcza metod DPO, IPO, SimPO oraz innych metod dopasowania wykazała, że dostosowanie β w algorytmach LβASFTAlign i LβORPOAlign poprawiło optymalizację preferencji. Wyniki pokazują, że modele trenowane przy użyciu SFT osiągają najlepsze wyniki po uwzględnieniu komponentów LAlign, co potwierdza skuteczność nowego podejścia.
Przyszłość bezpośredniego dopasowania modeli językowych
Nowa metoda, oparta na włączeniu etapu dostrajania nadzorowanego (SFT) w algorytmach DAAs, przyniosła wyraźne korzyści w zakresie skuteczności modeli językowych. Dzięki temu udało się osiągnąć stałe wzrosty wydajności oraz znacząco poprawić dopasowanie ORPO i ASFT.
Mimo że testy zostały przeprowadzone na określonych zestawach danych i wielkościach modeli, wyniki dostarczają solidnych podstaw do dalszego rozwoju tej techniki. W przyszłości rozwiązania te mogą zostać zaadaptowane do większych modeli i bardziej zróżnicowanych zbiorów danych, co pozwoli na dalsze udoskonalenie metod dopasowania modeli językowych do ludzkich wartości.