Sztuczna inteligencja i jej wyzwania w rozwiązywaniu zagadek multimodalnych
Rozwój sztucznej inteligencji (AI) nieustannie postępuje, a jednym z kluczowych obszarów badań jest zdolność modeli językowych do rozumienia nie tylko tekstu, ale także obrazów i innych form danych wizualnych. Takie podejście, nazywane multimodalnym rozumowaniem, jest istotnym krokiem w kierunku osiągnięcia sztucznej inteligencji ogólnej (AGI). Jednak nawet najnowocześniejsze modele, takie jak GPT-4-Turbo czy GPT-4o, nadal mają trudności z rozpoznawaniem wzorców, dedukcją logiczną oraz rozwiązywaniem przestrzennych problemów.
Wyzwania w multimodalnym rozumowaniu
Dotychczasowe testy i benchmarki, takie jak ARC-AGI czy Raven’s Progressive Matrices, pozwalały oceniać zdolności AI do przetwarzania symbolicznych i wizualnych informacji. Jednak nie dostarczały one wystarczających wyzwań w zakresie przetwarzania złożonych danych multimodalnych. Odpowiedzią na tę lukę w badaniach są nowe zestawy danych, takie jak PuzzleVQA i AlgoPuzzleVQA.
– PuzzleVQA koncentruje się na abstrakcyjnych zagadkach wizualnych, które wymagają od modeli umiejętności rozpoznawania wzorców w liczbach, kształtach, kolorach i rozmiarach.
– AlgoPuzzleVQA stawia przed AI wyzwania w zakresie rozwiązywania problemów algorytmicznych, wymagających dedukcji logicznej i zdolności obliczeniowych.
Badania nad tymi zbiorami danych pokazały, że nawet najbardziej zaawansowane modele językowe nie zawsze radzą sobie z poprawnym interpretowaniem obrazów i identyfikacją abstrakcyjnych wzorców.
Badania nad zdolnościami AI
Naukowcy z Singapurskiego Uniwersytetu Technologii i Projektowania (SUTD) przeprowadzili systematyczną analizę zdolności modeli AI do rozwiązywania zagadek multimodalnych. W szczególności porównali wydajność modeli GPT-4-Turbo, GPT-4o i o1 na zestawach danych PuzzleVQA i AlgoPuzzleVQA.
Badania przeprowadzono w dwóch trybach:
– Pytania wielokrotnego wyboru – modele miały do wyboru kilka odpowiedzi, co ułatwiało im znalezienie właściwej.
– Pytania otwarte – AI musiała samodzielnie formułować odpowiedzi, co znacznie zwiększało poziom trudności.
Dodatkowo naukowcy oceniali, jak modele radzą sobie w sytuacjach, gdy dostarczana jest im wyłącznie informacja wizualna, a także analizowali wpływ podpowiedzi indukcyjnych na poprawność odpowiedzi.
Wyniki i kluczowe obserwacje
Analiza wykazała, że modele AI z każdą generacją poprawiają swoje zdolności rozumowania, jednak nadal napotykają poważne ograniczenia.
1. Postęp w kolejnych generacjach
– Model GPT-4o osiągnął lepsze wyniki niż jego poprzednik GPT-4-Turbo, ale największy skok jakościowy zanotował model o1, szczególnie w zakresie zagadek algorytmicznych.
– Jednakże rozwój ten wiązał się z ogromnym wzrostem kosztów obliczeniowych – aż 750 razy większym w porównaniu do GPT-4o.
2. Wyniki w testach PuzzleVQA
– Model o1 osiągnął 79,2% skuteczności w pytaniach wielokrotnego wyboru, przewyższając GPT-4o (60,6%) i GPT-4-Turbo (54,2%).
– W pytaniach otwartych skuteczność wszystkich modeli spadła – o1 uzyskał 66,3%, GPT-4o 46,8%, a GPT-4-Turbo 38,6%.
3. Wyniki w testach AlgoPuzzleVQA
– Model o1 wykazał znaczną poprawę w zadaniach numerycznych i przestrzennych – osiągnął 55,3% skuteczności w pytaniach zamkniętych, podczas gdy GPT-4o zdobył 43,6%, a GPT-4-Turbo 36,5%.
– Jednak jego skuteczność w pytaniach otwartych spadła aż o 23,1%, co pokazuje trudności AI w samodzielnej dedukcji.
4. Problemy z percepcją wizualną
– Wszystkie modele miały trudności z dokładnym rozpoznawaniem kształtów i abstrakcyjnych wzorców.
– Wprowadzenie dodatkowych wizualnych wskazówek poprawiało dokładność odpowiedzi o 22–30%, a podpowiedzi indukcyjne zwiększały skuteczność o 6–19%.
5. Słabości w zadaniach przestrzennych
– Model o1, mimo swojej zaawansowanej zdolności do rozumowania numerycznego, miał problemy z rozpoznawaniem kształtów – jego skuteczność w tym zakresie była o 4,5% niższa niż GPT-4o.
– Wykazywał także trudności w sytuacjach, gdzie wymagane było niezależne wnioskowanie, co sugeruje jego zależność od podpowiedzi strukturalnych.
Przyszłość multimodalnej sztucznej inteligencji
Pomimo imponujących postępów w zakresie rozumowania abstrakcyjnego, modele AI wciąż borykają się z wyzwaniami związanymi z percepcją wizualną i samodzielnym wnioskowaniem. Kluczowymi obszarami do dalszych badań pozostają:
– Poprawa zdolności do interpretowania skomplikowanych kształtów i wzorców bez podpowiedzi.
– Optymalizacja kosztów obliczeniowych, aby rozwój AI nie wiązał się z nadmiernym zużyciem zasobów.
– Integracja nowych metod nauczania, które pozwolą modelom lepiej rozumieć otaczający je świat na poziomie multimodalnym.
W miarę jak technologie AI ewoluują, pojawiają się nowe sposoby testowania ich zdolności, a badania nad multimodalnym rozumowaniem są kluczowe dla osiągnięcia prawdziwie inteligentnych systemów. Choć droga do pełnego zrozumienia świata przez sztuczną inteligencję jest jeszcze długa, każde kolejne odkrycie przybliża nas do przełomu w tej fascynującej dziedzinie.