W dzisiejszych czasach, kiedy modele językowe i wizualne stają się coraz bardziej zaawansowane, efektywność ich działania odgrywa kluczową rolę. Wyzwania związane z ich wydajnością stają się jednak poważnym problemem, szczególnie w rzeczywistych wdrożeniach. Metryki takie jak wymagania dotyczące mocy obliczeniowej podczas treningu, opóźnienia w wnioskowaniu oraz zapotrzebowanie na pamięć mają bezpośredni wpływ na koszty wdrożeń oraz czas reakcji systemów. Te ograniczenia często uniemożliwiają praktyczne zastosowanie modeli o wysokiej jakości w środowiskach produkcyjnych. W związku z tym, poszukiwanie metod, które równoważą jakość modeli z ich zapotrzebowaniem na zasoby, staje się kwestią priorytetową. Chociaż pojawiły się różne podejścia, takie jak techniki algorytmiczne, rozwiązania sprzętowe czy najlepsze praktyki, to właśnie architektoniczne usprawnienia wydają się kluczowe dla poprawy wydajności.

Nowoczesne podejścia do efektywności modeli

Różne techniki zostały opracowane w celu rozwiązania problemów związanych z efektywnością modeli, każde z nich koncentrując się na innych aspektach. Na przykład, LoRA wprowadza adaptery o niskiej randze podczas dostrajania modeli, jednocześnie utrzymując pozostałe wagi bez zmian, a AltUp tworzy równoległe, lekkie bloki transformatorowe, symulując większe wymiary modelu. Inne podejścia, takie jak techniki kompresji, w tym kwantyzacja i przycinanie, zmniejszają rozmiar modelu oraz opóźnienia, jednak mogą wpływać na jakość modelu. Z kolei techniki destylacji wiedzy przenoszą informacje z większych modeli nauczycieli do mniejszych modeli uczniów. Mimo to, wiele z tych metod wiąże się z trudnym procesem treningowym lub kompromisami pomiędzy efektywnością a wydajnością.

Innowacja od Google: LAUREL

Naukowcy z Google Research, z siedzib w Mountain View oraz Nowym Jorku, zaproponowali innowacyjne rozwiązanie o nazwie Learned Augmented Residual Layer (LAUREL), które rewolucjonizuje tradycyjne połączenia resztkowe w sieciach neuronowych. LAUREL działa jako bezpośredni zamiennik klasycznych połączeń resztkowych, jednocześnie poprawiając zarówno jakość modeli, jak i ich wydajność. Co ciekawe, LAUREL wykazuje wyjątkową wszechstronność, przynosząc znaczące korzyści zarówno w modelach wizualnych, jak i językowych. W przypadku implementacji w sieci ResNet-50 dla klasyfikacji ImageNet 1K, LAUREL osiąga 60% wzrost wydajności wynikającej z dodania kolejnej pełnowymiarowej warstwy, przy jedynie 0,003% przyroście liczby parametrów. Efektywność tego rozwiązania pozwala na uzyskanie wyników porównywalnych z pełnowymiarową warstwą, jednocześnie wykorzystując 2,6 razy mniej parametrów.

Zastosowanie LAUREL w różnych domenach

LAUREL został przetestowany zarówno w zadaniach wizualnych, jak i językowych. W przypadku zadań wizualnych, naukowcy włączyli LAUREL do architektury ResNet-50, gdzie integracja była relatywnie prosta, wymagając minimalnych modyfikacji do istniejących połączeń resztkowych. Proces treningu został przeprowadzony na zbiorze danych ImageNet 1K przy użyciu 16 układów Cloud TPUv5e z zastosowaniem augmentacji danych. W domenie modeli językowych, LAUREL (w dwóch wariantach: LAUREL-RW i LAUREL-LR) został zaimplementowany w modelu transformatora o 3 miliardach parametrów, a trening odbywał się na tekstowych tokenach przy użyciu aż 1024 układów Cloud TPU v5e przez okres dwóch tygodni.

Wyniki i efektywność LAUREL

Wyniki eksperymentów potwierdzają wyraźną przewagę LAUREL nad tradycyjnymi metodami skalowania modeli. W zadaniach wizualnych dodanie dodatkowej warstwy do ResNet-50 zwiększało dokładność o 0,25%, ale wiązało się z 4,37% przyrostem liczby parametrów. Natomiast LAUREL-RW osiągnął poprawę o 0,15% przy jedynie 0,003% wzroście parametrów. Wariant LAUREL-RW+LR dorównuje wydajności metody z dodatkową warstwą, zużywając przy tym 2,6 razy mniej parametrów, a LAUREL-RW+LR+PA przewyższa tę wydajność, wykorzystując 1,82 razy mniej parametrów.

W modelach językowych LAUREL również wykazuje spójne poprawy efektywności w różnych zadaniach, takich jak pytania i odpowiedzi (Q&A), zrozumienie naturalnego języka (NLU), matematyka czy kodowanie. Wszystko to przy jedynie 0,012% wzroście liczby parametrów, co czyni LAUREL wysoce efektywnym rozwiązaniem w zastosowaniach o dużej skali.

Podsumowanie

Wprowadzenie przez badaczy frameworka LAUREL stanowi znaczący postęp w architekturze sieci neuronowych, oferując zaawansowaną alternatywę dla tradycyjnych połączeń resztkowych. Trzy warianty LAUREL – LAUREL-RW, LAUREL-LR oraz LAUREL-PA – mogą być elastycznie łączone, optymalizując wydajność dla różnych zastosowań. Sukces LAUREL zarówno w zadaniach wizualnych, jak i językowych, w połączeniu z minimalnym narzutem na liczbę parametrów, pokazuje ogromny potencjał tego rozwiązania jako lepszej alternatywy dla konwencjonalnych metod skalowania modeli. Dzięki swojej uniwersalności i efektywności, LAUREL ma szansę znaleźć zastosowanie również w innych architekturach, takich jak Vision Transformers (ViT).