Nowa era przetwarzania języka naturalnego: rozwój modeli w językach niskozasobowych na przykładzie portugalskiego
Rozwój przetwarzania języka naturalnego (NLP) w ostatnich latach nabrał ogromnego tempa dzięki postępowi w technologiach deep learning, takich jak osadzenia słów czy architektura transformerów. Kluczową rolę odgrywa tutaj nauczanie samonadzorowane, które wykorzystuje ogromne zbiory nieoznakowanych danych do tworzenia zadań pre-treningowych. Takie podejście przynosi doskonałe efekty w językach wysoko zasobowych, takich jak angielski czy chiński. Jednak różnice w dostępności zasobów NLP pomiędzy językami wysoko zasobowymi a niskozasobowymi – do których należy portugalski oraz większość z ponad 7000 języków świata – powodują znaczne nierówności w jakości i rozwoju aplikacji. Modele dla języków niskozasobowych są zazwyczaj mało rozwinięte i słabo dokumentowane, co utrudnia ich ewaluację oraz rozwój.
Problemy w NLP dla języków niskozasobowych
Obecne metody rozwoju NLP dla języków wysoko zasobowych, takich jak angielski czy chiński, opierają się na ogromnych zbiorach danych i potężnych zasobach obliczeniowych. W przypadku języka portugalskiego, badacze często sięgają po modele wielojęzyczne, takie jak mBERT czy mT5, lub doskonalą modele pierwotnie przeszkolone na bazie danych w języku angielskim. Niestety, takie podejście pomija często unikalne aspekty konkretnego języka, w tym subtelności gramatyczne i kulturowe, które są istotne dla skutecznego przetwarzania języka. Dodatkowo, benchmarki wykorzystywane do oceny modeli portugalskich są przestarzałe lub oparte na anglojęzycznych zbiorach danych, co zmniejsza ich użyteczność.
Nowy standard dla języka portugalskiego: GigaVerbo i Tucano
Aby zniwelować te różnice, naukowcy z Uniwersytetu w Bonn stworzyli GigaVerbo – ogromny korpus tekstu w języku portugalskim, liczący aż 200 miliardów tokenów. Na tej podstawie opracowali serię modeli transformerowych typu decoder, które nazwano Tucano. Modele te mają za zadanie znacząco poprawić jakość przetwarzania języka portugalskiego, co udało się osiągnąć dzięki wykorzystaniu wysokiej jakości danych oraz zaawansowanych technik treningowych.
Unikalny proces przygotowania danych
Korpus GigaVerbo powstał w wyniku połączenia wielu wysokiej jakości zbiorów tekstowych w języku portugalskim. Aby zapewnić spójność i jakość danych, badacze zastosowali niestandardowe techniki filtrowania, oparte m.in. na ocenach generowanych przez model GPT-4. Dzięki temu udało się zachować około 70% danych wejściowych, które posłużyły do trenowania modeli. Modele Tucano zostały oparte na architekturze Llama i wdrożone przy użyciu platformy Hugging Face, co zapewnia łatwy dostęp dla społeczności badawczej i programistycznej.
Nowoczesne rozwiązania technologiczne
Modele Tucano wykorzystują zaawansowane techniki, takie jak RoPE embeddings, normalizacja RMS (Root Mean Square) czy aktywacje Silu zamiast SwiGLU. Proces treningowy oparto na modelowaniu języka przyczynowego i stracie krzyżowej (cross-entropy loss). Modele różnią się wielkością – od 160 milionów do aż 2,4 miliarda parametrów – a największy z nich był trenowany na imponującej liczbie 515 miliardów tokenów.
Wyniki i znaczenie projektu
Ewaluacja modeli Tucano pokazała, że przewyższają one istniejące wielojęzyczne i portugalskie modele o podobnej wielkości na kilku benchmarkach w języku portugalskim. Wykresy strat treningowych i tzw. „perpleksji” walidacyjnej wskazują, że większe modele skuteczniej zmniejszają straty oraz osiągają lepsze wyniki, zwłaszcza przy zastosowaniu większych partii danych treningowych. Warto zauważyć, że wyniki były różne w zależności od benchmarku – na przykład testy CALAME-PT, LAMBADA czy HellaSwag wykazały poprawę wyników wraz ze skalowaniem modelu, ale inne, jak egzaminy OAB, pokazały brak korelacji.
W testach wydajności modele Tucano wyraźnie przewyższyły zarówno wcześniejsze modele portugalskie, jak i wielojęzyczne, zwłaszcza w obszarach takich jak CALAME-PT czy tłumaczone testy LAMBADA. Projekt ten podkreśla, że tworzenie dedykowanych zasobów i modeli dla języków niskozasobowych może znacząco poprawić ich wydajność i jakość.
Wnioski i przyszłość
GigaVerbo oraz modele Tucano stanowią krok milowy w rozwoju NLP dla języka portugalskiego, a także dla innych języków niskozasobowych. Proces tworzenia obejmował starannie zaplanowane etapy – od budowy zbioru danych, przez filtrację, po tuning hiperparametrów i ewaluację. Otwartość i reprodukcyjność tych rozwiązań mogą inspirować przyszłe badania i inicjatywy w tym obszarze. Dzięki temu badaniu naukowcy pokazali, że możliwe jest rozwijanie modeli językowych dla niskozasobowych języków na dużą skalę, co przyczyni się do większej dostępności i zastosowań technologii NLP na całym świecie.