Wraz ze wzrostem zapotrzebowania na wysokiej jakości dane szkoleniowe, generowanie danych syntetycznych staje się kluczowym elementem poprawy wydajności dużych modeli językowych (LLM). Modele dostrojone do instrukcji są powszechnie stosowane w tym celu, jednak często mają trudności z generowaniem zróżnicowanych wyników, co ma istotne znaczenie dla zdolności modelu do generalizacji. Chociaż istnieją techniki wspomagające różnorodność, takie jak warunkowanie na podstawie wcześniejszych wyników czy przyjmowanie różnych osobowości, to ich skuteczność jest ograniczona. Z kolei podstawowe modele, które nie są obciążone uprzedzeniami wynikającymi z dostrajania, generują bardziej zróżnicowane odpowiedzi, ale ich jakość jest często niższa. Badania wskazują, że podstawowe modele charakteryzują się niższą parzystą podobieństwem kosinusową, co świadczy o większej różnorodności, podczas gdy modele dostrojone do instrukcji mogą prowadzić do tzw. kolapsu modalnego.
Dane syntetyczne są szeroko stosowane w szkoleniu najnowocześniejszych modeli do zadań związanych z rozumowaniem, programowaniem i rozwiązywaniem problemów. Jednak ich nadmierne wykorzystywanie może prowadzić do problemów, takich jak stopniowa degradacja jakości wyników, w której modele generują coraz bardziej jednolite dane. Istniejące metody zwiększania różnorodności, takie jak skalowanie temperatury, próbkowanie jądrowe czy wieloetapowa generacja, stanowią częściowe rozwiązanie, ale często wymagają znacznego zaangażowania manualnego. Choć standardowym wskaźnikiem oceny danych syntetycznych jest ich wpływ na wydajność modeli, metryki oparte na osadzaniu, takie jak BERTScore, pozwalają lepiej ocenić różnorodność semantyczną. Dodatkowo, wciąż brakuje solidnych metod oceny jakości poszczególnych próbek syntetycznych, co wymaga opracowania bardziej kompleksowych frameworków ewaluacyjnych.
Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu Stanforda, Foundry, Microsoft Research i Uniwersytetu Princeton zaproponowali metodę generowania danych syntetycznych, która łączy zalety modeli podstawowych i dostrojonych do instrukcji, osiągając równowagę między różnorodnością a jakością. Ich podejście, nazwane Base-Refine (BARE), składa się z dwóch etapów: w pierwszym podstawowy model generuje dane, a w drugim dostrojony model dokonuje ich ulepszenia. Dzięki temu procesowi zestawy danych uzyskują wysoką jakość, jednocześnie zachowując różnorodność. Eksperymenty wykazały, że dostrojenie modelu za pomocą zaledwie 1000 próbek wygenerowanych przez BARE pozwala osiągnąć wyniki porównywalne z najlepszymi modelami na benchmarku LiveCodeBench oraz poprawia dokładność na GSM8K o 101% w porównaniu do danych generowanych wyłącznie przez modele dostrojone do instrukcji. Ponadto BARE zwiększa skuteczność dostrajania metodą RAFT o 18,4%, co potwierdza jego efektywność w tworzeniu wysokiej jakości, zróżnicowanych danych na potrzeby różnych zadań związanych ze sztuczną inteligencją.
BARE to metoda generowania danych syntetycznych, która poprawia jakość zbiorów danych poprzez udoskonalanie różnorodnych wyników modeli podstawowych za pomocą modeli dostrojonych do instrukcji. Proces rozpoczyna się od wygenerowania początkowego zestawu danych przez model podstawowy, bazując na minimalnej liczbie przykładowych danych few-shot. Następnie model dostrojony poprawia każdą próbkę, usuwając błędy i zwiększając jej przejrzystość, jednocześnie zachowując różnorodność. Dzięki temu podejściu uzyskuje się wysokiej jakości i zróżnicowane dane, co sprawia, że BARE jest szczególnie skuteczny w dziedzinach, gdzie dostęp do dużych zbiorów danych jest ograniczony. Wystarczy zaledwie kilka przykładów oraz ogólne podpowiedzi, aby zminimalizować udział człowieka i zwiększyć elastyczność rozwiązania. Wyniki eksperymentalne pokazują, że ta metoda ma potencjał do generowania bardziej dokładnych i różnorodnych danych syntetycznych dla zadań z zakresu uczenia maszynowego.
Ocena skuteczności BARE koncentruje się na trzech kluczowych aspektach: różnorodności danych, ich jakości oraz wpływie na wydajność modeli w różnych dziedzinach. W eksperymentach wykorzystano modele Llama-3.1-70B-Base do początkowej generacji oraz Llama-3.1-70B-Instruct do procesu udoskonalania. Dzięki temu BARE utrzymuje wysoki poziom różnorodności danych, jednocześnie poprawiając ich jakość. Testy dostrajania wykazały, że BARE przewyższa zarówno modele podstawowe, jak i dostrojone do instrukcji, zwiększając dokładność modelu na wielu zestawach danych. Co więcej, dodatkowe udoskonalanie przy użyciu GPT-4o dodatkowo podnosi wydajność. Badania ablation potwierdziły, że wykorzystanie modelu podstawowego jest kluczowe dla uzyskania różnorodności, ponieważ dostrajanie wyłącznie modelami instrukcyjnymi prowadzi do spadku dokładności. Ogólnie rzecz biorąc, BARE skutecznie łączy możliwości modeli podstawowych i dostrojonych do instrukcji, zapewniając generowanie wysokiej jakości danych syntetycznych, które przekładają się na lepsze wyniki w zadaniach bazujących na sztucznej inteligencji.
Podsumowując, przeprowadzone badania ilościowe nad metodami generowania danych syntetycznych wykazały, że modele podstawowe gwarantują różnorodność, podczas gdy modele dostrojone do instrukcji podnoszą jakość. BARE integruje te dwa podejścia, dostarczając wysokiej jakości, zróżnicowane dane syntetyczne. Liczne eksperymenty potwierdzają skuteczność tej metody, usprawniając zadania takie jak GSM8K, LiveCodeBench oraz RAFT, wyznaczając nowy standard w tej dziedzinie. W przyszłości możliwe jest dalsze udoskonalenie procesu poprzez zastosowanie precyzyjnie dostrojonych modeli udoskonalających, dodatkowych etapów lub alternatywnych celów treningowych. Poza generowaniem danych treningowych, BARE może również służyć do tworzenia różnorodnych zbiorów testowych. W miarę jak dane syntetyczne stają się nieodzownym elementem szkolenia modeli, BARE oferuje skalowalne podejście, które skutecznie łączy różnorodność i jakość, przewyższając istniejące metody w wielu dziedzinach.