Transformery: Przełom w sztucznej inteligencji i nowe podejście do efektywności
Modele transformerowe przyczyniły się do olbrzymiego postępu w dziedzinie sztucznej inteligencji, znajdując zastosowanie w takich obszarach jak przetwarzanie języka naturalnego (NLP), wizja komputerowa czy rozpoznawanie mowy. Kluczem do ich sukcesu jest zdolność do rozumienia i generowania danych sekwencyjnych dzięki wykorzystaniu mechanizmów takich jak wielogłowa uwaga (multi-head attention), które pozwalają uchwycić relacje w obrębie wejściowych sekwencji. Wzrost popularności dużych modeli językowych (LLM), zbudowanych na bazie transformerów, dodatkowo podkreślił ich możliwości, umożliwiając wykonywanie zaawansowanych zadań, takich jak rozumowanie, analiza czy generowanie kreatywnych treści.
Wyzwania związane z rosnącą złożonością
Jednak wraz ze wzrostem rozmiaru i złożoności modeli LLM pojawiają się wyzwania związane z efektywnością obliczeniową. Modele te w dużym stopniu opierają się na w pełni połączonych warstwach (fully connected layers) oraz operacjach wielogłowej uwagi, co wymaga ogromnych zasobów sprzętowych i energetycznych. W praktyce to właśnie w pełni połączone warstwy stanowią główne obciążenie obliczeniowe, co utrudnia skalowanie modeli bez ponoszenia wysokich kosztów. Taka sytuacja ogranicza ich dostępność i możliwość wdrożenia w szerokiej gamie branż i zastosowań.
Poszukiwanie nowych rozwiązań
Aby przezwyciężyć te ograniczenia, badacze i inżynierowie zaproponowali różnorodne metody optymalizacji. Techniki takie jak przycinanie modeli (model pruning) czy kwantyzacja wag (weight quantization) umożliwiły umiarkowaną poprawę efektywności poprzez zmniejszenie rozmiaru modeli i ich precyzji. Prace nad usprawnieniem mechanizmu samo-uwagi, np. w ramach linear attention czy flash attention, pozwoliły zredukować złożoność obliczeniową z kwadratowej do liniowej w kontekście długości sekwencji. Jednakże wiele z tych metod wciąż koncentruje się głównie na optymalizacji uwagi, pomijając znaczącą rolę w pełni połączonych warstw, co pozostawia istotną część działań obliczeniowych nieefektywną.
MemoryFormer – nowatorskie podejście
Naukowcy z Uniwersytetu Pekińskiego, Huawei Noah’s Ark Lab oraz Huawei HiSilicon zaprezentowali przełomowy model o nazwie MemoryFormer. Nowa architektura transformerowa eliminuje kosztowne pod względem obliczeniowym w pełni połączone warstwy, zastępując je tzw. Warstwami Pamięci (Memory Layers). Te innowacyjne warstwy wykorzystują tablice wyszukiwania w pamięci (in-memory lookup tables) oraz algorytmy haszowania wrażliwego na lokalność (LSH – locality-sensitive hashing). Dzięki temu MemoryFormer przekształca wejściowe osadzenia (embeddings) poprzez pobieranie wcześniej obliczonych reprezentacji wektorowych z pamięci, zamiast wykonywać tradycyjne mnożenia macierzy.
Kluczowe innowacje
Główna innowacja MemoryFormer tkwi w projekcie Warstw Pamięci. Zamiast wykonywać bezpośrednie projekcje liniowe, osadzenia wejściowe są haszowane za pomocą algorytmu LSH. Proces ten mapuje podobne osadzenia do tych samych lokalizacji w pamięci, co pozwala modelowi na pobieranie wcześniej przechowywanych wektorów, które aproksymują wyniki mnożeń macierzy. Dodatkowo, dzieląc osadzenia na mniejsze fragmenty i przetwarzając je niezależnie, MemoryFormer znacząco redukuje zapotrzebowanie na pamięć oraz obciążenie obliczeniowe. Architektura ta zawiera również wektory uczące się w ramach tablic haszowania, umożliwiając ich kompleksowe uczenie za pomocą metody wstecznej propagacji błędu (back-propagation).
Efektywność i wyniki eksperymentalne
Wyniki eksperymentalne na licznych benchmarkach NLP wykazały, że MemoryFormer osiąga nie tylko wysoką wydajność, ale także znacznie obniża złożoność obliczeniową. Dla sekwencji o długości 2048 tokenów model zredukował złożoność obliczeń w pełni połączonych warstw ponad dziesięciokrotnie. Łączne operacje zmiennoprzecinkowe (FLOPs) w przypadku MemoryFormer wyniosły zaledwie 19% wymagań standardowego transformera. Co więcej, na zadaniach takich jak PIQA i ARC-E model osiągnął odpowiednio dokładność 0,698 i 0,585, przewyższając modele bazowe. Uśredniona dokładność w różnych testach również wzrosła, co dowodzi, że model może utrzymać lub poprawić swoją wydajność przy jednoczesnym znaczącym zmniejszeniu obciążenia obliczeniowego.
Porównanie z innymi modelami
MemoryFormer został także porównany z innymi efektywnymi metodami opartymi na transformerach, takimi jak Linformer, Performer czy Cosformer. W tych testach model konsekwentnie przewyższał konkurencję zarówno pod względem efektywności obliczeniowej, jak i wyników benchmarkowych. Przykładowo, w porównaniu do Performera i Linformera, które osiągnęły średnie dokładności odpowiednio 0,418 i 0,398, MemoryFormer osiągnął wynik 0,458, korzystając przy tym z mniejszych zasobów. Wyniki te potwierdzają skuteczność Warstw Pamięci w optymalizacji architektur transformerowych.
Nowa droga dla dużych modeli językowych
MemoryFormer stanowi przełomowe podejście do ograniczeń tradycyjnych modeli transformerowych. Dzięki zastosowaniu innowacyjnych Warstw Pamięci, model minimalizuje wymagania obliczeniowe, jednocześnie zachowując wysoką wydajność i dokładność. Ta nowa architektura otwiera drzwi do szerszego zastosowania dużych modeli językowych w różnych branżach, zapewniając dostępność i zrównoważony rozwój bez kompromisów w zakresie osiąganych wyników.