Modele typu Mixture of Experts (MoE) stanowią istotny przełom w dziedzinie uczenia maszynowego, oferując nowatorskie podejście do obsługi modeli o dużej skali. W przeciwieństwie do modeli gęstych, gdzie wszystkie parametry są aktywne podczas wnioskowania, MoE aktywuje jedynie część swoich parametrów. Dzięki temu możliwe jest osiągnięcie równowagi między wydajnością obliczeniową a skalowalnością, co sprawia, że tego typu modele są bardzo atrakcyjne dla różnych zastosowań. Modele MoE są efektywne, ponieważ aktywują mniejszą liczbę parametrów, jednocześnie utrzymując większą całkowitą liczbę parametrów w modelu. Taka konstrukcja wprowadza pewne kompromisy, w tym wzrost złożoności architektury, ale daje większą elastyczność dla deweloperów i badaczy.
W tym artykule omówimy największe modele MoE, które zostały do tej pory wydane, skupiając się na ich architekturze, możliwościach i wydajności. Wszystkie te modele są publicznie dostępne i przekraczają 100 miliardów parametrów. Analiza jest uporządkowana chronologicznie według daty wydania, a także uwzględnia rankingi dostępne na tablicy wyników LMSYS (stan na 4 listopada 2024 r.).
Google Switch-C Transformer
Model Switch-C Transformer od Google, wydany w listopadzie 2022, jest jednym z najwcześniejszych modeli MoE. Posiada imponującą liczbę 1,6 biliona parametrów, wspieranych przez 2048 ekspertów. Mimo że dzisiaj uważany jest za przestarzały i nie znajduje się w rankingach takich jak LMSYS, jest to model fundamentalny w rozwoju technologii MoE. Mniejsze warianty Switch-C są również dostępne, co daje więcej możliwości eksperymentowania.
Grok-1 od X AI
W marcu 2024 roku firma X AI wypuściła model Grok-1, który posiada 314 miliardów parametrów, z czego 86 miliardów jest aktywnych podczas wnioskowania. Model korzysta z mniejszej liczby ekspertów – łącznie ośmiu, z których tylko dwóch jest aktywowanych podczas zadania wnioskowania. Grok-1 ma kontekst o długości 8k, co czyni go odpowiednim dla średniej długości sekwencji wejściowych. Chociaż model nie jest konkurencyjny wobec nowszych rozwiązań i nie znajduje się w rankingu LMSYS, jego następca, Grok-2, zajął piąte miejsce w pierwszych testach, co sugeruje, że przyszłe wersje mogą ustanowić nowe standardy wydajności.
DBRX od Databricks
W marcu 2024 roku Databricks wprowadził model DBRX, posiadający 132 miliardy parametrów, z czego 36 miliardów jest aktywnych. Model ten obsługuje 16 ekspertów i ma kontekst o długości 32k, co pozwala mu efektywnie przetwarzać długie sekwencje wejściowe. DBRX obsługuje wiele platform backendowych, takich jak llamacpp, exllama v2 i vLLM, co czyni go wszechstronnym narzędziem dla deweloperów. Mimo silnej architektury, DBRX osiąga jedynie 90. miejsce w rankingu LMSYS i 78. miejsce dla trudnych promptów w języku angielskim, wskazując na potrzebę dalszych ulepszeń.
Mixtral 8x22b od Mistral AI
W kwietniu 2024 roku Mistral AI wprowadził model Mixtral 8x22b, który wyróżnia się 141 miliardami parametrów, z czego 39 miliardów jest aktywnych podczas wnioskowania. Model korzysta z ośmiu ekspertów, z których dwa są dynamicznie wybierane w zależności od zadania. Z długością kontekstu 64k, Mixtral nadaje się do zadań wymagających obsługi długich wejść. Jego pozycja w rankingu LMSYS to 70. miejsce ogółem oraz 66. w kategorii trudnych promptów, co pokazuje przeciętną wydajność, ale jego kompatybilność z wieloma backendami sprawia, że jest użyteczny na różnych platformach.
Arctic od Snowflake
W tym samym miesiącu Snowflake wypuścił model Arctic, który posiada 480 miliardów parametrów, z czego tylko 17 miliardów jest aktywnych podczas wnioskowania. Model ten łączy komponenty rzadkie (7 miliardów) i gęste (10 miliardów), rozłożone na 128 ekspertów, co czyni jego konstrukcję unikalną. Niestety, jego wydajność jest ograniczona — zajmuje 99. miejsce w rankingu LMSYS i 101. dla trudnych promptów. Długość kontekstu wynosząca 4k dodatkowo ogranicza jego zastosowanie, sprawiając, że model ten nie wyróżnia się na tle konkurencji mimo innowacyjnej architektury.
Skywork-MoE od Skywork
W czerwcu 2024 do przestrzeni MoE dołączył Skywork z modelem Skywork-MoE, który posiada 146 miliardów parametrów, z czego 22 miliardy są aktywne. Model ten obsługuje 16 ekspertów i ma długość kontekstu 8k, co pozwala mu na obsługę średniej długości zadań. Brak rankingów LMSYS sugeruje ograniczone testowanie lub adopcję tego modelu. Na razie dostępna jest jedynie wersja bazowa, a obiecany wariant czatu nie został jeszcze wydany.
Jamba 1.5 Large od AI21 Labs
W sierpniu 2024 roku AI21 Labs wypuściło model Jamba 1.5 Large, będący hybrydą architektur MoE i mamba-transformer. Model ten posiada 398 miliardów parametrów, z czego 98 miliardów jest aktywnych, co czyni go wyjątkowym dzięki długości kontekstu wynoszącej aż 256k. Dzięki temu jest idealny do zadań wymagających długiego przetwarzania danych wejściowych. Jamba 1.5 Large zajmuje 34. miejsce w rankingu ogólnym LMSYS oraz 28. miejsce w kategorii trudnych promptów, co dowodzi jego wysokiej wydajności, szczególnie w benchmarkach dotyczących długości kontekstu.
DeepSeek V2.5
We wrześniu 2024 roku DeepSeek V2.5 ustanowił nowe standardy wydajności w przestrzeni MoE. Ten model posiada 236 miliardów parametrów, z czego 21 miliardów jest aktywnych podczas wnioskowania. Architektura DeepSeek V2.5 zawiera 160 ekspertów, z których sześciu jest wybieranych dynamicznie, a dwóch jest współdzielonych, co daje łącznie osiem aktywnych parametrów. Z długością kontekstu wynoszącą 128k, model ten doskonale radzi sobie z zadaniami wymagającymi przetwarzania długich danych wejściowych. W rankingu LMSYS zajmuje 18. miejsce ogólnie oraz 6. miejsce dla trudnych promptów, przewyższając inne dostępne modele MoE.
Hunyuan Large od Tencent
Najświeższym dodatkiem do rodziny MoE jest model Hunyuan Large od Tencent, wydany w listopadzie 2024 roku. Model ten posiada 389 miliardów parametrów, z czego 52 miliardy są aktywne, a jego konstrukcja zapewnia dynamiczne wybieranie jednego eksperta i jednego współdzielonego, co daje dwa aktywne parametry. Długość kontekstu wynosząca 128k stawia go w bezpośredniej konkurencji z DeepSeek V2.5. Choć model ten nie został jeszcze sklasyfikowany w rankingu LMSYS, pierwsze testy sugerują, że może być on poważnym rywalem dla DeepSeek.
Podsumowanie
Spośród omawianych modeli, DeepSeek V2.5 jest obecnie najwydajniejszym modelem MoE. Jednak nowsze rozwiązania, takie jak Hunyuan Large oraz zapowiadany Grok-2, mogą wkrótce zmienić układ sił. Modele hybrydowe, takie jak Jamba 1.5 Large, pokazują również siłę łączenia różnych architektur, szczególnie w zadaniach wymagających obsługi długich kontekstów. Rankingi LMSYS są pomocne w dokonywaniu wstępnych porównań, ale nie oddają wszystkich niuansów wydajności modeli, zwłaszcza w specjalistycznych zadaniach.
Modele MoE to rozwijająca się przestrzeń w sztucznej inteligencji, oferująca skalowalne i efektywne rozwiązania dostosowane do różnorodnych zastosowań. Deweloperzy i badacze powinni eksplorować te modele w zależności od specyficznych przypadków użycia, wykorzystując unikalne zalety architektury MoE, aby zoptymalizować wydajność.