Zaawansowane techniki post-treningowe w rozwoju modeli językowych
W świecie szybkiego rozwoju sztucznej inteligencji zaawansowane techniki post-treningowe, takie jak personalizacja instrukcji (instruction tuning) oraz uczenie przez wzmocnienie oparte na opinii ludzi (reinforcement learning from human feedback, RLHF), stały się kluczowe dla udoskonalania modeli językowych. Mimo że wiele modeli open-source bazuje na solidnych fundamentach, pozostają one w tyle za rozwiązaniami komercyjnymi. Przyczyną tego jest brak przejrzystości w zakresie danych treningowych, metodologii oraz technik optymalizacyjnych. Chociaż istnieje dostęp do modeli bazowych, brak otwartych i kompleksowych przepisów post-treningowych tworzy wyraźną przepaść wydajności między modelami open-source a komercyjnymi, co ogranicza postępy w badaniach nad otwartą sztuczną inteligencją.
—
Próby rozwoju otwartych modeli a wyzwania konkurencyjności
Dotychczasowe inicjatywy, takie jak Tülu 2 czy Zephyr-β, koncentrowały się na usprawnieniu technik post-treningowych, ale ograniczenia w dostępnych zasobach i prostsze procesy sprawiły, że ich potencjał pozostawał ograniczony. Z kolei modele komercyjne, takie jak GPT-4o czy Claude 3.5-Haiku, dysponują dostępem do większych zbiorów danych, zaawansowanych technik optymalizacyjnych oraz intensywnych procesów opartych na opinii użytkowników. Dzięki temu są w stanie dostarczać znacznie lepsze wyniki. Chociaż badania nad preferencjami użytkowników oraz uczeniem przez wzmocnienie poczyniły postępy, otwarte podejścia wciąż ustępują skalowalnością i precyzją zamkniętym metodologiom.
—
Przełomowe rozwiązanie: Tülu 3 i jego zaawansowana architektura
W zeszłym roku zespół badawczy AI2, we współpracy z Uniwersytetem Waszyngtońskim, zaprezentował model Tülu 3, który bazuje na architekturze Llama 3.1 i wprowadza szereg ulepszeń pozwalających na skalowanie i uzyskanie znakomitej wydajności. Najnowsza wersja, Tülu 3 405B, to pierwszy model open-source, który skutecznie wprowadził w pełni otwarty przepis post-treningowy na skalę aż 405 miliardów parametrów. Kluczowym elementem tej wersji jest zastosowanie nowatorskiego podejścia o nazwie Reinforcement Learning with Verifiable Rewards (RLVR). Technika ta znacząco poprawia wydajność modelu w specjalistycznych zadaniach, dzięki nagradzaniu wyników opartych na weryfikowalnych rezultatach, a nie subiektywnych opiniach.
Wdrożenie modelu odbyło się przy użyciu vLLM z 16-kierunkowym równoległym tensorowym przetwarzaniem, co zoptymalizowało efektywność obliczeniową na 256 równocześnie działających procesorach graficznych.
—
Czterostopniowy przepis post-treningowy Tülu 3
Proces post-treningowy w Tülu 3 opiera się na czterech etapach, które umożliwiają efektywne skalowanie modelu:
1. Kuracja i synteza danych: Zapewnienie reprezentatywności kluczowych umiejętności, takich jak rozumowanie, matematyka, programowanie i bezpieczeństwo.
2. Supervised Fine-Tuning (SFT): Trening na podstawie starannie wybranych promptów i ich wyników.
3. Direct Preference Optimization (DPO): Udoskonalanie odpowiedzi modelu za pomocą danych preferencyjnych, zarówno off-policy, jak i on-policy.
4. Reinforcement Learning with Verifiable Rewards (RLVR): Poprawa specjalistycznych umiejętności, zwłaszcza w zadaniach wymagających weryfikowalnych wyników, takich jak rozwiązywanie problemów matematycznych.
Ciekawym odkryciem zespołu było to, że wykorzystanie danych MATH do trenowania dużych modeli przynosiło lepsze wyniki niż łączenie ich z bardziej uniwersalnymi zestawami, takimi jak GSM8k czy IFEval.
—
Wyniki i osiągnięcia Tülu 3 405B
Model Tülu 3 405B wykazał konkurencyjność, a nawet przewagę nad modelami takimi jak DeepSeek V3 i GPT-4o. W testach bezpieczeństwa i rozumowania wyraźnie przewyższył wcześniejsze modele open-weight, takie jak Llama 3.1 405B Instruct czy Nous Hermes 3 405B. Szczególnie imponujące były wyniki w zadaniach matematycznych, gdzie zastosowanie RLVR zwiększyło precyzję i efektywność instrukcji.
Trening modelu wymagał ogromnych zasobów obliczeniowych, w tym 256 procesorów graficznych pracujących równocześnie. Pojedyncza iteracja RLVR zajmowała około 550 sekund na wnioskowanie, 25 sekund na transfer wag oraz 1 500 sekund na trening. Wyniki końcowe potwierdziły zdolność modelu do generalizacji i skuteczności w różnorodnych benchmarkach.
—
Kluczowe wnioski z badań nad Tülu 3
1. Tülu 3 został wydany w konfiguracjach 8B, 70B i 405B, każda z nich została dostrojona za pomocą SFT, DPO i RLVR.
2. Trening wersji 405B wymagał 256 procesorów graficznych działających w równoległym środowisku.
3. Model przewyższył konkurencyjne rozwiązania w testach bezpieczeństwa, rozumowania i zadaniach matematycznych.
4. Większe modele osiągały lepsze wyniki przy zastosowaniu specjalistycznych zbiorów danych, takich jak MATH, w porównaniu do bardziej ogólnych zestawów.
5. RLVR okazało się szczególnie skuteczne w poprawianiu wyników w zadaniach wymagających precyzyjnej weryfikacji, takich jak matematyka.
6. Model Tülu 3 405B ustanowił nowy standard w otwartych technikach post-treningowych, ale potrzeba dalszych badań, aby zbadać potencjał jeszcze większych modeli i alternatywnych algorytmów RL.
—
Podsumowanie
Rozwój technik post-treningowych uwypuklił wciąż zauważalną różnicę między modelami open-source a komercyjnymi z powodu różnic w metodologii szkolenia, dostępności danych i technikach optymalizacyjnych. Tülu 3 405B stanowi przełom w skalowaniu w pełni otwartych przepisów na modele wielkoskalowe, osiągając wyniki porównywalne lub lepsze od uznanych modeli, takich jak DeepSeek V3 czy GPT-4o. Zastosowanie RLVR, szczególnie w zadaniach matematycznych, podkreśla potencjał specjalistycznych danych w treningu dużych modeli. Sukces Tülu 3 405B jest dowodem na możliwość osiągania zaawansowanej wydajności w ramach otwartych inicjatyw, pomimo wyzwań związanych z wymaganiami obliczeniowymi i fine-tuningiem parametrów.