W dzisiejszych czasach modele językowe o dużej pojemności (LLM – Large Language Models) odgrywają kluczową rolę w rozwoju systemów sztucznej inteligencji. Ich imponujące zdolności w zakresie przetwarzania języka naturalnego oraz różnorodne możliwości wnioskowania stanowią ważny krok w kierunku stworzenia Sztucznej Ogólnej Inteligencji (AGI) i jej zastosowań w dziedzinach takich jak robotyka czy nawigacja. Jednym z istotnych obszarów, wymagających dalszego rozwoju, jest rozumowanie przestrzenne, obejmujące zarówno aspekty ilościowe (np. odległości, kąty), jak i jakościowe (np. relacje „blisko” czy „wewnątrz”). Podczas gdy ludzie doskonale radzą sobie z tego typu zadaniami, modele LLM wciąż napotykają trudności w ich realizacji. Dlatego konieczne są innowacyjne podejścia do poprawy efektywności i dokładności modeli w tym zakresie.

Ograniczenia tradycyjnych podejść LLM

Tradycyjne metody wykorzystujące modele językowe opierają się głównie na jednorazowym przetwarzaniu zapytań w formie swobodnych poleceń tekstowych, co jednak okazuje się niewystarczające w bardziej złożonych zadaniach wymagających wieloetapowego planowania. Przykłady takich zadań można znaleźć w zbiorach danych, takich jak StepGame lub SparQA, które wymagają głębokiego rozumienia przestrzennych relacji oraz precyzyjnego wnioskowania. W odpowiedzi na te wyzwania opracowano strategie, takie jak metodologia Chain of Thought (CoT), umożliwiająca bardziej logiczne podejście do wnioskowania, oraz wizualizacja procesów myślowych. Mimo to, dotychczasowe metody wykazują ograniczenia wynikające z testowania na niewielkich zbiorach danych, niewystarczającego wykorzystania zaawansowanych technik oraz braku efektywnych systemów informacji zwrotnej.

Nowatorskie podejście z Uniwersytetu w Stuttgarcie

Aby przezwyciężyć te trudności, naukowcy z Uniwersytetu w Stuttgarcie stworzyli systematyczne podejście neuronowo-symboliczne, które łączy strategiczne użycie podpowiedzi z logiką symboliczną. Opracowany framework wprowadza pętle sprzężenia zwrotnego oraz wykorzystuje metodologię ASP (Answer Set Programming) do weryfikacji poprawności wnioskowania. Dzięki temu model osiąga wyższą skuteczność w realizacji złożonych zadań i wykazuje się wysoką elastycznością w zastosowaniu do różnych architektur LLM.

Testy na zbiorach danych StepGame i SparQA

W ramach badań wykorzystano dwa różne zbiory danych:

1. StepGame – zbiór syntetycznych pytań przestrzennych, wymagających nawet 10 kroków rozumowania.
2. SparQA – zestaw złożonych pytań tekstowych o różnorodnych formatach, uwzględniających trójwymiarowe relacje przestrzenne.

W badaniach porównano trzy różne metody rozwiązywania problemów:
ASP – tradycyjne podejście do wnioskowania logicznego;
LLM+ASP – połączenie wnioskowania symbolicznego z optymalizacją DSPy przy użyciu narzędzi takich jak Clingo i LangChain;
Fakty + Reguły Logiczne – metoda, która upraszcza obliczenia poprzez osadzenie reguł logicznych w zapytaniach.

Modele, takie jak DeepSeek oraz GPT-4 Mini, były oceniane za pomocą miar takich jak mikro-F1, co pozwoliło na precyzyjną analizę ich adaptacyjności i dokładności.

Wyniki i kluczowe wnioski

Połączenie metod neuronowo-symbolicznych przyniosło znaczące korzyści w dokładności i skuteczności modeli.

– W przypadku zbioru danych StepGame, metody osiągnęły dokładność na poziomie 80%, co znacząco przewyższa wyniki osiągane przez standardowe podejścia.
– W bardziej złożonym zbiorze SparQA, dokładność wynosiła średnio 60%, z największymi postępami w zadaniach takich jak „Znajdź Relację” i „Znajdź Blok”.
– Zastosowanie strategii „Fakty + Reguły” poprawiło dokładność o ponad 5% w porównaniu do tradycyjnych metod, podczas gdy w przypadku StepGame różnica wynosiła nawet 40-50%.
– Największe wyzwania dotyczyły pytań typu „Tak/Nie”, gdzie bezpośrednie podpowiedzi często oferowały lepsze wyniki. Analiza błędów pokazała, że problemy z interpretacją składni i ugruntowaniem wiedzy wymagały dalszych optymalizacji.

Znaczenie i przyszłość badań

Badania z Uniwersytetu w Stuttgarcie pokazują, że kluczem do skutecznego rozumowania przestrzennego jest jasne oddzielenie parsowania semantycznego od logicznego wnioskowania, uproszczenie relacji przestrzennych oraz obsługa wieloetapowych zadań. W uproszczonym środowisku, takim jak zbiór StepGame, metodologia wykazała znacznie lepszą wydajność niż w bardziej złożonych zbiorach, takich jak SparQA, co pozostawia otwartą przestrzeń dla dalszych badań.

Podsumowując, opracowane podejście znacząco zwiększa możliwości modeli LLM w zakresie rozumowania przestrzennego. Dzięki osiągnięciom na poziomie 80% dokładności w StepGame oraz 60% dokładności w SparQA, framework ten tworzy solidne podstawy dla przyszłych badań i doskonalenia AI. Chociaż wyniki są imponujące, to wyzwania związane z bardziej kompleksowymi środowiskami sugerują, że przed nami wciąż wiele pracy.