Prognozowanie szeregów czasowych odgrywa kluczową rolę w wielu dziedzinach, takich jak finanse, opieka zdrowotna, meteorologia czy zarządzanie łańcuchem dostaw. Głównym celem tej metody jest przewidywanie przyszłych wartości danych na podstawie przeszłych obserwacji, co często stanowi wyzwanie ze względu na złożony i zmienny charakter danych. W ostatnich latach postępy w dziedzinie uczenia maszynowego, zwłaszcza w modelach bazowych, wprowadziły duże zmiany, umożliwiając tworzenie uogólnionych modeli zdolnych do obsługi różnych szeregów czasowych bez konieczności szkolenia specyficznego dla każdego przypadku. Modele te odchodzą od tradycyjnych podejść, które wymagały wielu modeli dostosowanych do konkretnych zestawów danych. Mimo to, zróżnicowanie charakterystyk szeregów czasowych, takich jak zmienność częstotliwości, sezonowość i ukryte wzorce, nadal stanowi wyzwanie dla jednolitych modeli.

Wyzwania związane z różnorodnością danych

Jednym z kluczowych problemów w prognozowaniu szeregów czasowych jest efektywne radzenie sobie z heterogenicznością danych. Dane pochodzące z różnych źródeł mogą się znacznie różnić pod względem częstotliwości, rozkładu czy struktury. Obecne modele prognozowania często opierają się na specjalizacji opartej na ręcznie definiowanych częstotliwościach, co ma na celu sprostanie tej różnorodności. Jednakże, same częstotliwości nie zawsze są wystarczającym wskaźnikiem wzorców danych, ponieważ dane o podobnych częstotliwościach mogą wykazywać odmienne zachowania, a dane o różnych częstotliwościach mogą mieć podobne wzorce. Taka strategia może nie uwzględniać pełnej złożoności i różnorodności rzeczywistych danych. Kolejnym wyzwaniem jest niestacjonarny charakter szeregów czasowych, gdzie właściwości statystyczne danych zmieniają się w czasie, co utrudnia ich dokładne modelowanie przy użyciu grupowania opartego na częstotliwości.

Nowoczesne podejścia i ich ograniczenia

Obecne metody prognozowania szeregów czasowych próbują rozwiązać problem zmienności danych za pomocą różnych podejść. Modele, takie jak TEMPO i UniTime, wykorzystują zapytania w języku naturalnym, aby pomóc modelom w rozróżnianiu różnych źródeł danych, jednak ich specjalizacja na poziomie zbioru danych jest ograniczona. Inne modele, jak TimesFM, opierają się na słownikach wbudowań specyficznych dla częstotliwości, co pomaga rozróżniać typy danych na tej podstawie. Niemniej jednak, wiele modeli, w tym uznana seria Chronos, wybiera uogólnioną strukturę bez specjalistycznych modułów, co zwiększa złożoność modelu i wymaga dużej liczby parametrów. Problemem tych metod jest ich niezdolność do pełnego uchwycenia różnorodności szeregów czasowych, gdyż częstotliwość nie zawsze koreluje z ukrytymi wzorcami danych, co prowadzi do spadku wydajności i dokładności modelu.

Model MOIRAI-MoE – nowatorskie podejście

Naukowcy z Salesforce AI Research, Narodowego Uniwersytetu Singapuru oraz Uniwersytetu Nauki i Technologii w Hongkongu przedstawili innowacyjny model o nazwie MOIRAI-MoE. MOIRAI-MoE wykorzystuje rzadką mieszankę ekspertów (MoE) w swojej architekturze Transformer, co umożliwia specjalizację na poziomie tokenów bez potrzeby definiowania częstotliwości przez człowieka. To podejście oparte na danych minimalizuje zależność od wcześniej zdefiniowanych warstw opartych na częstotliwości i stosuje jedną warstwę przekształceń wejścia/wyjścia, co pozwala modelowi automatycznie rejestrować i reprezentować różnorodne wzorce. Dzięki specjalizacji na poziomie tokenów, MOIRAI-MoE oferuje bardziej elastyczne i efektywne rozwiązanie, zdolne do lepszego odwzorowywania unikalnych cech różnych szeregów czasowych bez konieczności tworzenia odrębnych modeli dla każdej kategorii częstotliwości.

Architektura MOIRAI-MoE

Architektura MOIRAI-MoE wykorzystuje funkcję bramkowania, która przypisuje każdy token do odpowiedniego eksperta w warstwach Transformera na podstawie klasteryzacji tokenów wywodzącej się z uprzednio wytrenowanego modelu. Klasteryzacja ta jest kierowana przez odległość euklidesową do centroidów, co pozwala na przetwarzanie tokenów o podobnych wzorcach przez tego samego eksperta, podczas gdy bardziej zróżnicowane tokeny są obsługiwane przez specjalistycznych ekspertów. Dzięki wykorzystaniu 32 sieci ekspertów, z których każda skupia się na unikalnych cechach szeregów czasowych, MOIRAI-MoE skutecznie redukuje obciążenie obliczeniowe, poprawiając jednocześnie zdolność do uogólnienia na różne typy danych. To podejście umożliwia modelowi dynamiczne dostosowywanie się do zmian wzorców w danych, co czyni go szczególnie skutecznym w analizie niestacjonarnych szeregów czasowych.

Testy i wyniki

Przeprowadzone testy na 39 zestawach danych pokazały wyższość MOIRAI-MoE zarówno w prognozowaniu w ramach dystrybucji danych, jak i w scenariuszach prognozowania zero-shot, gdzie model testowano na danych, które nie były uwzględnione w procesie treningowym. W przypadku prognozowania w ramach dystrybucji, MOIRAI-MoE przewyższył swój odpowiednik modelu gęstego nawet o 17%, jednocześnie wykorzystując do 65 razy mniej aktywowanych parametrów niż inne wiodące modele, takie jak TimesFM i Chronos. W prognozowaniu zero-shot MOIRAI-MoE osiągnął 3-14% poprawę w ciągłym rankingu prawdopodobieństw (CRPS) oraz 8-16% poprawę w średnim bezwzględnym błędzie skalowanym (MASE) w porównaniu do wcześniejszych modeli, co podkreśla zdolność modelu do uogólniania bez potrzeby treningu specyficznego dla danego zadania.

Kluczowe wnioski

MOIRAI-MoE wprowadza szereg innowacji, które zmieniają podejście do prognozowania szeregów czasowych:

1. Specjalizacja oparta na danych: Model osiąga specjalizację na poziomie tokenów dzięki rzadkiej mieszance ekspertów, co pozwala na bardziej precyzyjne i dokładne odwzorowanie różnorodności szeregów czasowych.

2. Efektywność obliczeniowa: Dzięki rzadkiej aktywacji ekspertów, MOIRAI-MoE znacząco redukuje zapotrzebowanie na obliczenia, aktywując do 65 razy mniej parametrów niż inne modele, przy zachowaniu wysokiej dokładności.

3. Zwiększona wydajność: Testy na zróżnicowanych zbiorach danych potwierdziły wyższość MOIRAI-MoE nad modelami gęstymi oraz modelami bazowymi, takimi jak TimesFM i Chronos, osiągając 17% poprawę w testach w ramach dystrybucji.

4. Skalowalność i uogólnienie: Model wykazuje silną wydajność w prognozowaniu zero-shot, co czyni go bardzo użytecznym w rzeczywistych zastosowaniach, takich jak finanse, opieka zdrowotna czy modelowanie klimatyczne, bez potrzeby specjalistycznego treningu dla każdej aplikacji.

Podsumowanie

MOIRAI-MoE to znaczący krok naprzód w dziedzinie prognozowania szeregów czasowych, wprowadzający elastyczne, oparte na danych podejście, które przezwycięża ograniczenia tradycyjnych modeli opartych na częstotliwości. Dzięki swojej architekturze opartej na rzadkiej mieszance ekspertów, MOIRAI-MoE skutecznie radzi sobie z różnorodnością i niestacjonarnością danych, jednocześnie osiągając wysoką efektywność obliczeniową oraz znaczące korzyści w zakresie wydajności.