Jednym z kluczowych wyzwań w rozwoju zadań związanych z klasyfikacją i wyszukiwaniem opartych na uczeniu głębokim jest osiągnięcie solidnych reprezentacji danych bez konieczności intensywnego ponownego trenowania lub wykorzystania dużej ilości etykietowanych danych. W wielu zastosowaniach, takich jak diagnostyka medyczna czy zdalne przetwarzanie obrazów, wykorzystuje się wstępnie wytrenowane modele jako ekstraktory cech. Jednakże te wstępne reprezentacje często nie są w stanie uwzględnić szczegółów niezbędnych do uzyskania optymalnych wyników bez dalszego dostrajania modeli. Ponowne trenowanie modeli często nie jest praktyczne, szczególnie w sytuacjach ograniczonych zasobów obliczeniowych lub braku etykietowanych danych. Dlatego opracowanie metody, która umożliwia poprawę wydajności modeli bez konieczności ich ponownego trenowania, stanowiłoby istotny wkład w rozwój tej technologii. Taka metoda pozwoliłaby na lepsze uogólnienie modeli w różnych zadaniach i dziedzinach.
Wyzwania i obecne rozwiązania
Wprowadzenie algorytmów takich jak k-nearest neighbor (kNN), Vision Transformers (ViTs) oraz technik samonadzorowanego uczenia (SSL) jak SimCLR i DINO przyczyniło się do postępów w nauce reprezentacji, które wykorzystują dane nieetykietowane. Te metody są jednak ograniczone przez wymagania dotyczące architektury modelu bazowego, konieczność intensywnego dostrajania lub potrzebę dużej ilości danych etykietowanych, aby poprawić zdolność do generalizacji. Wiele technik samonadzorowanego uczenia pomija informacje o gradientach, które mogą być obecne w stanach zamrożonych modeli, co z kolei mogłoby poprawić adaptacyjność nauczycielskich reprezentacji do różnorodnych zastosowań.
Nowa metoda – FUNGI
Naukowcy z Uniwersytetu Amsterdamskiego oraz valeo.ai opracowali nowatorską i wydajną metodę o nazwie FUNGI (Features from UNsupervised GradIents), która ma na celu poprawę zamrożonych osadzeń danych poprzez wykorzystanie informacji o gradientach z samonadzorowanych obiektów uczenia. FUNGI ma na celu wzbogacenie zamrożonych osadzeń bez zmiany parametrów modelu, co czyni tę metodę elastyczną i efektywną obliczeniowo. Metoda ta wykorzystuje gradienty z różnorodnych celów SSL, takich jak DINO, SimCLR oraz dywergencja KL. FUNGI łączy uzupełniające się informacje z innych podejść w ramach uczenia multimodalnego, co pozwala na znaczną poprawę wyników bez konieczności dalszego trenowania modelu.
Proces działania FUNGI
Metoda FUNGI składa się z trzech głównych etapów: ekstrakcji gradientów, redukcji wymiarów oraz połączenia osadzeń z gradientami. W pierwszej kolejności obliczane są gradienty z końcowych warstw ukrytych modeli Vision Transformer na podstawie strat SSL, aby uchwycić bogate cechy istotne dla danego zadania. Następnie, te wysokowymiarowe gradienty są zmniejszane z użyciem projekcji losowej do docelowej wymiarowości. Na koniec, zredukowane gradienty są łączone z osadzeniami, a wynikowy wektor jest dalej kompresowany przy pomocy analizy głównych składowych (PCA). Dzięki temu, FUNGI skutecznie wzbogaca zamrożone osadzenia, co prowadzi do znaczącej poprawy w zadaniach klasyfikacji i wyszukiwania opartych na kNN.
Wyniki i korzyści
FUNGI wykazuje znaczną poprawę w wielu benchmarkach, w tym na zbiorach danych wizualnych, tekstowych oraz dźwiękowych. W zadaniach klasyfikacji kNN FUNGI zapewnia 4,4% wzrost dokładności we wszystkich modelach ViT, z największymi wzrostami na zbiorach danych Flowers oraz CIFAR-100. W środowiskach o ograniczonej ilości danych (tzw. ustawienia 5-shot), metoda osiąga wzrost dokładności o 2,8%, co potwierdza jej skuteczność w sytuacjach, gdzie dostępne są jedynie niewielkie ilości danych. Ponadto, FUNGI znacząco poprawia wyniki w zadaniach segmentacji semantycznej opartych na wyszukiwaniu, takich jak segmentacja na zbiorze Pascal VOC, gdzie odnotowano wzrost dokładności segmentacji o 17% w porównaniu do bazowych osadzeń.
Podsumowanie
FUNGI stanowi efektywny sposób na poprawę osadzeń wstępnie wytrenowanych modeli poprzez wykorzystanie gradientów samonadzorowanych celów uczenia. Metoda ta, bez potrzeby ponownego trenowania, wzmacnia zamrożone reprezentacje modeli, jednocześnie zachowując ich wydajność na wysokim poziomie. Kluczowe cechy tej metody to adaptacyjność, efektywność obliczeniowa oraz zdolność do pracy w środowiskach z ograniczoną ilością danych. FUNGI stanowi istotny krok naprzód w dziedzinie uczenia reprezentacji, umożliwiając szerokie zastosowanie sztucznej inteligencji w zadaniach, w których dostęp do etykietowanych danych i zasobów obliczeniowych jest ograniczony.