Wyzwania związane z prywatnością w modelach MoE – atak MoE Tiebreak Leakage

Modele MoE (Mixture of Experts) wykorzystują mechanizmy trasujące, które mogą poprawić wydajność dużych modeli językowych (LLM) poprzez selektywne aktywowanie jedynie części parametrów. Choć podejście to znacząco zmniejsza zapotrzebowanie na zasoby obliczeniowe, to jednocześnie wprowadza ryzyko wycieków danych. Mechanizm trasowania w modelach MoE, zwłaszcza ten oparty na ECR (Expert Capacity Routing), umożliwia potencjalnym atakującym przejęcie danych użytkowników przez umieszczenie spreparowanych zapytań w tej samej partii przetwarzania co docelowe dane ofiary.

Atak MoE Tiebreak Leakage ujawnia tę podatność, korzystając z deterministycznej natury trasowania w modelach MoE. Problem polega na tym, że modele te dokonują decyzji trasowania w sposób zależny od partii danych, co może być wykorzystane do wydobycia danych użytkownika. W kontekście rzeczywistych aplikacji, w których oczekuje się zarówno efektywności, jak i bezpieczeństwa, te podatności stanowią poważne wyzwanie, które musi być zaadresowane przed powszechnym wdrożeniem modeli MoE.

Selektywne trasowanie i związane z nim ryzyko

Obecnie modele MoE stosują mechanizmy bramek i selektywne trasowanie tokenów, co poprawia wydajność przez rozdzielenie zadań między wielu „ekspertów.” Pozwala to znacząco zmniejszyć zapotrzebowanie na moc obliczeniową w porównaniu do tradycyjnych, gęstych modeli LLM. Niestety, takie podejście wprowadza luki w zabezpieczeniach, ponieważ decyzje trasowania są zależne od partii danych, co czyni te modele podatnymi na wycieki informacji. Głównym problemem jest tu deterministyczne traktowanie tokenów, które nie zapewnia niezależności między partiami danych. Ta zależność od partii umożliwia atakującym manipulację logiką trasowania, co może prowadzić do przejęcia prywatnych danych użytkownika.

Atak MoE Tiebreak Leakage – szczegóły techniczne

Zespół badawczy z Google DeepMind opisał systematyczną metodę ataku o nazwie „MoE Tiebreak Leakage Attack”, która wykorzystuje opisane wcześniej luki w modelach MoE. Atak ten polega na wprowadzeniu spreparowanych zapytań, które są przetwarzane równocześnie z danymi ofiary. W ten sposób atakujący może obserwować zmiany w wyniku modelu, co pozwala na wyciągnięcie tokenów z promptu użytkownika.

Atak składa się z trzech kluczowych etapów:
1. Zgadywanie tokenów – atakujący próbuje odgadnąć konkretne tokeny promptu, obserwując różnice w trasowaniu, co pozwala na weryfikację poprawności zgadywanych tokenów.
2. Manipulacja buforem eksperta – używane są specjalnie zaprojektowane sekwencje wypełniające, aby kontrolować zachowanie trasowania i tym samym skierować odpowiednie tokeny do określonych ekspertów.
3. Odzyskiwanie ścieżek trasowania – różnice w wynikach przetwarzania w różnych partiach są analizowane w celu weryfikacji poprawności zgadywanych tokenów i przywrócenia pełnej ścieżki przetwarzania promptu.

Przykłady eksperymentów

Atak został przetestowany na modelu Mixtral z ośmioma ekspertami z wykorzystaniem trasowania opartego na ECR. Proces ten wykorzystywał implementację top-k CUDA z biblioteki PyTorch. W celu zminimalizowania nieprzewidywalności trasowania, zmniejszono zestaw słownictwa i starannie dobrano sekwencje wypełniające, co miało wpływ na efektywną pojemność ekspertów.

Najważniejsze kroki techniczne obejmowały:
Zgadywanie i weryfikację tokenów – polegało na iteracyjnym procesie zgadywania i obserwacji różnic w trasowaniu, aby potwierdzić poprawność zgadywanych tokenów.
Kontrolę pojemności ekspertów – za pomocą sekwencji wypełniających kontrolowano pojemność bufora ekspertów, co pozwalało na precyzyjne trasowanie tokenów.
Analizę ścieżek i mapowanie wyników – analizowano ścieżki trasowania tokenów w różnych partiach w celu potwierdzenia poprawności zgadywanych tokenów i skutecznego wydobycia danych.

Skuteczność i wnioski

Atak MoE Tiebreak Leakage wykazał zaskakująco wysoką efektywność – odzyskano 4 833 z 4 838 tokenów, co daje dokładność powyżej 99,9%. Wyniki były konsekwentne we wszystkich konfiguracjach, a odpowiednia manipulacja sekwencjami wypełniającymi oraz precyzyjna kontrola trasowania umożliwiły niemal pełne wydobycie promptu użytkownika. Atak ten optymalizuje efektywność, nie opierając się wyłącznie na zapytaniach do modelu docelowego, co podkreśla jego praktyczność i skalowalność w różnych konfiguracjach MoE.

Konieczność zabezpieczania modeli MoE w przyszłości

Opisana metoda ujawnia poważną lukę w prywatności w architekturach MoE, szczególnie w kontekście trasowania zależnego od partii danych. Wykorzystanie deterministycznego trasowania w modelach MoE może prowadzić do wycieku poufnych danych użytkownika, co wymaga wprowadzenia zmian w projektowaniu tych modeli. Optymalizacja przyszłych modeli powinna uwzględniać ryzyka związane z prywatnością, w tym wprowadzenie losowości w trasowaniu lub wymuszanie niezależności partii, aby zmniejszyć podatność na takie ataki.

Powyższa praca z Google DeepMind podkreśla, jak istotne jest uwzględnianie oceny bezpieczeństwa w architektonicznych decyzjach dotyczących modeli MoE, zwłaszcza w kontekście aplikacji obsługujących poufne informacje.