Nowa metoda optymalizacji modeli językowych zwiększa różnorodność odpowiedzi
Rozwój dużych modeli językowych (LLM) znacząco wpłynął na postęp w dziedzinie sztucznej inteligencji. Modele te potrafią niemal doskonale symulować język ludzki, co czyni je niezwykle przydatnymi w wielu zastosowaniach, od chatbotów po generowanie treści i analizy danych. Niemniej jednak, mimo ich imponujących możliwości językowych, napotkano istotne ograniczenie – niska różnorodność generowanych odpowiedzi. To problem szczególnie zauważalny w zadaniach wymagających kreatywności, takich jak generowanie syntetycznych danych czy tworzenie opowieści, gdzie różnorodność jest kluczowym elementem utrzymania zaangażowania i trafności treści.
—
Problem ograniczonej różnorodności modeli językowych
Jednym z największych wyzwań w optymalizacji modeli językowych jest tendencja do redukcji różnorodności odpowiedzi w wyniku stosowania technik treningowych opartych na preferencjach. Metody takie jak uczenie ze wzmocnieniem z ludzkim sprzężeniem zwrotnym (RLHF) czy bezpośrednia optymalizacja preferencji (DPO) skupiają się na wybieraniu niewielkiej liczby odpowiedzi o najwyższych ocenach. W efekcie modele te często generują powtarzalne odpowiedzi, co ogranicza ich zdolność do adaptacji w kreatywnych zastosowaniach. Ten spadek różnorodności wyraźnie zmniejsza potencjał modeli językowych w zadaniach wymagających szerokiego spektrum wyników.
—
Problemy z dotychczasowymi metodami optymalizacji
Dotychczasowe podejścia w optymalizacji preferencji koncentrują się głównie na dostosowaniu modeli do wysokiej jakości ludzkich preferencji. Metody takie jak nadzorowane dostrajanie czy RLHF, choć efektywne w poprawie zgodności modeli z oczekiwaniami użytkowników, prowadzą do homogenizacji odpowiedzi. Technika DPO, która preferuje odpowiedzi z najwyższymi ocenami, odrzucając jednocześnie te o niższej jakości, dodatkowo wzmacnia tendencję modeli do generowania przewidywalnych wyników. Próby przeciwdziałania temu problemowi, takie jak regulowanie temperatury próbkowania czy stosowanie regularizacji KL, nie przyniosły znaczącej poprawy różnorodności bez obniżania jakości wygenerowanych odpowiedzi.
—
Nowatorskie podejście: Diverse Preference Optimization (DivPO)
Zespół badaczy z Meta, Uniwersytetu Nowojorskiego i ETH Zurich opracował nową metodę o nazwie Diverse Preference Optimization (DivPO), która ma na celu zwiększenie różnorodności odpowiedzi przy jednoczesnym zachowaniu ich wysokiej jakości. W przeciwieństwie do tradycyjnych metod, które priorytetowo traktują odpowiedzi o najwyższej ocenie, DivPO selekcjonuje pary odpowiedzi na podstawie ich jakości i różnorodności. Dzięki temu modele generują treści nie tylko zgodne z preferencjami użytkowników, lecz także bardziej różnorodne, co czyni je bardziej przydatnymi w zastosowaniach kreatywnych i analitycznych.
—
Jak działa DivPO?
Technika DivPO polega na próbkowaniu wielu odpowiedzi dla danego zapytania i ocenianiu ich za pomocą modelu nagród. Zamiast wybierać wyłącznie odpowiedź o najwyższej ocenie, wyselekcjonowana zostaje najbardziej różnorodna odpowiedź spełniająca kryteria jakości. Jednocześnie jako odpowiedź odrzucona wybierana jest ta najmniej zróżnicowana, która nie spełnia standardów jakości. Dzięki temu model uczy się generować bardziej zróżnicowane odpowiedzi, zachowując jednocześnie wysoki poziom jakości. DivPO uwzględnia różne kryteria różnorodności, takie jak prawdopodobieństwo modelu, częstotliwość słów oraz ocenę różnorodności dokonywaną przez inne modele językowe, co pozwala na systematyczną ocenę unikalności odpowiedzi.
—
Wyniki eksperymentów: Zwiększenie różnorodności przy zachowaniu jakości
Efektywność DivPO została przetestowana w eksperymentach obejmujących zadania takie jak generowanie strukturalnych person czy otwarte pisanie kreatywne. Wyniki pokazały, że DivPO znacząco zwiększa różnorodność odpowiedzi bez kompromisów w zakresie ich jakości. W porównaniu do standardowych metod optymalizacji preferencji, DivPO zanotowało wzrost różnorodności atrybutów person o 45,6%, a różnorodności opowiadań o 74,6%. Jednocześnie DivPO zapobiegało zjawisku nadmiernego generowania niewielkiego podzbioru odpowiedzi, co przekładało się na bardziej równomierną dystrybucję wygenerowanych treści. Modele trenowane przy użyciu DivPO konsekwentnie przewyższały modele bazowe w ocenach różnorodności, jednocześnie utrzymując wysoką jakość ocenianą przez model nagród ArmoRM.
—
Rozwiązanie problemu jednorodnych wyników
Analiza generowania person wykazała, że tradycyjne modele fine-tuningu, takie jak Llama-3.1-8B-Instruct, często powtarzały te same zestawy atrybutów, co ograniczało ich użyteczność w bardziej złożonych zadaniach. DivPO skutecznie rozwiązało ten problem, rozszerzając zakres generowanych atrybutów i prowadząc do bardziej zbalansowanej dystrybucji wyników. W zadaniu generowania person przy użyciu kryterium częstotliwości słów DivPO zwiększyło różnorodność o 30,07% w porównaniu z modelem bazowym, jednocześnie utrzymując porównywalną jakość odpowiedzi. Podobnie w zadaniu kreatywnego pisania DivPO zanotowało wzrost różnorodności o 13,6% oraz jakości o 39,6% w stosunku do standardowych metod optymalizacji preferencji.
—
Znaczenie DivPO dla przyszłości modeli językowych
Badania potwierdzają, że tradycyjne metody optymalizacji preferencji ograniczają różnorodność odpowiedzi, co stanowi wyzwanie dla modeli językowych przeznaczonych do zadań otwartych. DivPO skutecznie rozwiązuje ten problem, wprowadzając kryteria uwzględniające różnorodność, co umożliwia modelom generowanie odpowiedzi o wysokiej jakości bez utraty ich zróżnicowania. Dzięki równoważeniu różnorodności i zgodności, DivPO zwiększa adaptacyjność i użyteczność dużych modeli językowych w wielu dziedzinach – od kreatywnego pisania po generowanie danych syntetycznych. Wprowadzenie DivPO stanowi znaczący krok naprzód w optymalizacji preferencji, oferując praktyczne rozwiązanie dla problemu jednorodnych odpowiedzi w modelach językowych.
—
Podsumowanie
Nieustanny rozwój AI nadal niesie ze sobą wyzwania, z którymi branża musi się zmierzyć. DivPO otwiera nowe możliwości w zakresie kreatywności i różnorodności generowanych treści, co czyni tę technikę obiecującym narzędziem nie tylko dla badaczy, ale także dla praktycznych zastosowań w biznesie czy rozrywce. To znaczący krok w kierunku uczynienia modeli językowych bardziej wszechstronnymi i użytecznymi w dynamicznie zmieniającym się świecie technologii.