Modele językowo-wzrokowe (VLM) stoją przed poważnym wyzwaniem polegającym na zapewnieniu skutecznej generalizacji poza zbiór danych treningowych przy jednoczesnym zachowaniu efektywności obliczeniowej. Tradycyjne podejścia, takie jak dostrajanie nadzorowane metodą łańcucha myśli (CoT-SFT), często prowadzą do przeuczenia. Oznacza to, że model dobrze radzi sobie z danymi, na których był trenowany, ale napotyka trudności w przypadku nowych, nieznanych scenariuszy. To ograniczenie znacząco zmniejsza przydatność modeli VLM w zastosowaniach wymagających elastyczności, takich jak systemy autonomiczne, analiza obrazów medycznych i zadania związane z rozumowaniem wizualnym. Powszechnie przyjmuje się, że zwiększanie rozmiaru modelu poprawia jego wydajność, ale równie ważne jest opracowanie bardziej efektywnej metodologii treningowej, która poprawia zdolność do generalizacji, minimalizuje ryzyko przeuczenia i obniża koszty obliczeniowe.
Nowe podejście do trenowania modeli VLM
Aby rozwiązać te problemy, zespół badawczy Deep Agent opracował model R1-V. To nowatorskie podejście oparte na uczeniu przez wzmacnianie poprawia zdolność modeli VLM do generalizacji, jednocześnie pozostając rozwiązaniem ekonomicznym. Nowa metoda, określana jako uczenie przez wzmacnianie z weryfikowalnymi nagrodami (RLVR), dowodzi, że może przewyższyć tradycyjne podejścia, takie jak CoT-SFT, pod względem skuteczności i odporności na dane spoza zbioru treningowego.
Cel i zasada działania modelu R1-V
Głównym celem podejścia R1-V jest zwiększenie zdolności modeli VLM do generalizacji poza zbiór danych treningowych. Aby to osiągnąć, R1-V wykorzystuje techniki uczenia przez wzmacnianie, które pomagają modelowi rozwijać umiejętności ogólne, zamiast zapamiętywać przykłady treningowe. Szczególną uwagę zwrócono na rozwój zdolności do liczenia obiektów w obrazach, co ma kluczowe znaczenie w wielu zastosowaniach sztucznej inteligencji, takich jak rozpoznawanie obrazów, systemy autonomiczne i zadania logicznego rozumowania wizualnego.
Efektywność i oszczędność zasobów
Jednym z najbardziej imponujących osiągnięć R1-V jest jego efektywność treningowa. Pomimo stosunkowo niewielkiego modelu, składającego się z 2 miliardów parametrów, R1-V osiąga lepsze wyniki w testach generalizacji niż znacznie większy model o 72 miliardach parametrów. To pokazuje, że rozmiar modelu nie jest jedynym czynnikiem wpływającym na jego wydajność – kluczowe znaczenie mają zastosowane strategie uczenia oraz metodologia treningowa.
Model R1-V został wytrenowany na ośmiu procesorach graficznych A100 w zaledwie 30 minut, a całkowity koszt obliczeniowy wyniósł zaledwie 10,50 zł. Ta niezwykle niska cena czyni R1-V atrakcyjną alternatywą dla badaczy i deweloperów chcących osiągnąć wysoką skuteczność przy ograniczonych zasobach obliczeniowych.
Wykorzystanie specjalistycznych zbiorów danych
R1-V wyróżnia się także dzięki starannie dobranym zbiorom danych używanym podczas treningu. W szczególności model został wytrenowany na bazach CLEVR-70k oraz R1-Distilled Visual Reasoning. Te specjalistyczne zestawy danych zostały zaprojektowane tak, aby model rozwijał umiejętności związane z rozumowaniem wizualnym i podejmowaniem trafnych decyzji. Dzięki nim model nie ogranicza się jedynie do rozpoznawania wzorców, lecz uczy się analizy relacji wizualnych i logicznego rozumowania.
Wnioski i znaczenie dla przyszłości AI
Opracowanie modelu R1-V stanowi ważny krok w kierunku wspierania badań nad sztuczną inteligencją typu open-source. Kod źródłowy, wagi modelu, zestawy danych oraz skrypty treningowe zostały udostępnione publicznie, co umożliwia społeczności naukowej dalsze ulepszanie metod modelowania językowo-wizualnego. Metoda uczenia przez wzmacnianie zastosowana w R1-V pozwala na szybkie przyswajanie wzorców i struktur danych przy minimalnych kosztach obliczeniowych. To wyzwanie dla tradycyjnych założeń, według których osiąganie najwyższej wydajności AI wymaga ogromnych zasobów obliczeniowych oraz masywnych zbiorów danych. Okazuje się, że wydajne metody treningowe mogą znacząco zredukować zapotrzebowanie na moc obliczeniową, jednocześnie zapewniając, a nawet przewyższając dotychczasowe osiągi.