W świecie uczenia maszynowego algorytmy optymalizacyjne mają kluczowe znaczenie dla trenowania modeli, a jednym z najczęściej stosowanych jest Adam. Jest to adaptacyjny algorytm optymalizacji, który dostosowuje swoje parametry w zależności od problemu, co pozwala na bardziej efektywne trenowanie modeli. Mimo swojej popularności, Adam boryka się z problemem konwergencji, zwłaszcza gdy hiperparametr β₂, odpowiedzialny za gromadzenie danych o drugim momencie, nie jest dostosowany do konkretnego przypadku. Próby rozwiązania tego problemu, takie jak AMSGrad, opierają się na założeniu o ograniczonym poziomie szumu gradientu, co jest trudne do zrealizowania w rzeczywistych warunkach, szczególnie wtedy, gdy mamy do czynienia z hałasem w postaci szumu Gaussa – jak ma to miejsce w modelach generatywnych, takich jak autoenkodery wariacyjne czy modele dyfuzyjne. Istnieją również inne podejścia, jak AdaShift, które rozwiązują problem konwergencji w bardziej ograniczonych przypadkach, ale nie sprawdzają się w szerokim zakresie zastosowań. Najnowsze badania sugerują, że Adam może skutecznie zbiegać, jeśli dostosuje się β₂ do konkretnego zadania, jednak takie rozwiązanie jest skomplikowane i wymaga dalszych badań w celu opracowania bardziej uniwersalnych metod.

Nowe podejście – ADOPT

Na szczęście zespół badaczy z Uniwersytetu Tokijskiego przedstawił nowe podejście do optymalizacji gradientowej w postaci algorytmu ADOPT. Jest to adaptacyjna metoda gradientowa, która zapewnia optymalną konwergencję w tempie O(1/√T), bez konieczności specyficznego dostosowywania β₂ i założeń o ograniczonym szumie gradientu. ADOPT radzi sobie z problemem braku konwergencji Adama poprzez pominięcie bieżącego gradientu w oszacowaniu drugiego momentu oraz zmianę kolejności aktualizacji momentum i normalizacji. Badania przeprowadzone na szerokim zakresie zadań – od klasyfikacji obrazów, przez modelowanie generatywne, po przetwarzanie języka naturalnego i uczenie się przez wzmacnianie – pokazują, że ADOPT wyraźnie przewyższa Adama oraz jego warianty. Algorytm ten charakteryzuje się również niezawodną konwergencją w trudnych scenariuszach, w których Adam i AMSGrad mają trudności.

Stochastyczne metody optymalizacji

Badanie koncentruje się na minimalizacji funkcji celu, która zależy od wektora parametrów, przy użyciu metod stochastycznej optymalizacji pierwszego rzędu. Zamiast korzystać z dokładnego gradientu, stosuje się estymację znaną jako gradient stochastyczny. Ponieważ funkcja może być niekonweksem, celem jest znalezienie stacjonarnego punktu, w którym gradient wynosi zero. Standardowe analizy konwergencji w tej dziedzinie zakładają m.in. istnienie minimalnego ograniczenia funkcji, uzyskanie bezstronnej estymacji gradientu przez gradient stochastyczny, płynne zmiany funkcji oraz ograniczoną wariancję gradientu stochastycznego. W przypadku metod adaptacyjnych, takich jak Adam, często dodatkowo zakłada się ograniczoną wariancję gradientu, co upraszcza dowody konwergencji. Badacze zastosowali zestaw założeń, aby zbadać, w jaki sposób adaptacyjne metody gradientowe mogą zbiegać bez konieczności polegania na surowych założeniach o ograniczonym szumie gradientu.

Problemy z Adamem i ich rozwiązania

Dotychczasowe badania sugerują, że chociaż podstawowa metoda stochastycznego gradientu często konwerguje w przypadkach niekonweksem, adaptacyjne metody gradientowe, takie jak Adam, są szeroko stosowane w uczeniu głębokim ze względu na swoją elastyczność. Niemniej jednak Adam czasami nie zbiega, zwłaszcza w przypadkach konweksem. Aby rozwiązać ten problem, opracowano zmodyfikowaną wersję AMSGrad, która wprowadza niezmniejszającą się skalę współczynnika uczenia poprzez aktualizację estymacji drugiego momentu za pomocą funkcji maksimum. Jednak konwergencja AMSGrad opiera się na silniejszym założeniu o ograniczonym poziomie szumu gradientu, co nie ma zastosowania w wielu scenariuszach, na przykład w niektórych modelach generatywnych. W związku z tym badacze proponują nowe podejście do adaptacyjnej aktualizacji gradientu, które ma na celu zapewnienie niezawodnej konwergencji bez konieczności opierania się na surowych założeniach dotyczących szumu gradientu, jednocześnie rozwiązując ograniczenia Adama dotyczące konwergencji i optymalizacji zależnych parametrów.

Wyniki badań nad ADOPT

Algorytm ADOPT został poddany ocenie na różnych zadaniach, aby zweryfikować jego wydajność i stabilność w porównaniu z Adamem i AMSGrad. Już na wstępnych zadaniach testowych, ADOPT skutecznie zbiegał w sytuacjach, w których Adam zawodził, zwłaszcza w warunkach wysokiego szumu gradientu. Testy przeprowadzone z wykorzystaniem sieci MLP na zbiorze danych MNIST oraz ResNet na CIFAR-10 pokazały, że ADOPT osiągał szybszą i bardziej stabilną konwergencję. ADOPT przewyższał Adama również w bardziej zaawansowanych zastosowaniach, takich jak klasyfikacja obrazów za pomocą Swin Transformer na ImageNet, modelowanie generatywne NVAE czy pretrenowanie GPT-2 w warunkach szumu gradientowego. Co więcej, algorytm ten poprawił wyniki w dostrajaniu modelu językowego LLaMA-7B na benchmarku MMLU.

Podsumowanie

Badanie to rzuca nowe światło na teoretyczne ograniczenia adaptacyjnych metod gradientowych, takich jak Adam, które do tej pory wymagały specyficznych ustawień hiperparametrów do osiągnięcia konwergencji. By przeciwdziałać tym wyzwaniom, autorzy zaproponowali algorytm ADOPT, który osiąga optymalne tempo konwergencji w różnych zadaniach bez potrzeby dostosowywania parametrów do specyficznych warunków. ADOPT rozwiązuje ograniczenia Adama poprzez modyfikację porządku aktualizacji momentum oraz pominięcie bieżącego gradientu w obliczeniach drugiego momentu, co zapewnia stabilność w zadaniach takich jak klasyfikacja obrazów, przetwarzanie języka naturalnego czy modelowanie generatywne. Chociaż badanie to stanowi krok milowy w łączeniu teorii z praktyką w dziedzinie adaptacyjnej optymalizacji, przyszłe badania mogą skierować się ku bardziej elastycznym założeniom, by jeszcze bardziej rozszerzyć zakres zastosowań ADOPT.