W ostatnich latach modele multimodalne, takie jak MLLM (Multimodal Large Language Models), wykazały imponujące możliwości w zakresie rozumienia obrazów w połączeniu z tekstem. Jednak ich zastosowanie w zaawansowanych zadaniach percepcyjnych, takich jak dokładne wykrywanie obiektów, nadal napotyka na istotne trudności. Zadania takie jak autonomiczne prowadzenie pojazdów czy nawigacja robotów wymagają precyzyjnej analizy wizualnej, a aktualne systemy, nawet te uznawane za zaawansowane, jak Qwen2-VL, osiągają jedynie 43,9% skuteczności na zestawie danych COCO. Problem ten wynika z konfliktów pomiędzy zadaniami związanymi z percepcją i rozumieniem, a także z ograniczeń dostępnych zbiorów danych, które nie są w stanie efektywnie zrównoważyć tych dwóch aspektów.
Problemy współczesnych modeli
Tradycyjne podejścia do integracji percepcji w modelach MLLM opierały się na tokenizacji współrzędnych ramki obiektu, aby dostosować je do modeli autoregresyjnych. Choć takie podejście umożliwia zastosowanie tych modeli w zadaniach związanych z rozumieniem, generuje wiele problemów, takich jak błędy kaskadowe, niejasne kolejności przewidywania obiektów oraz niedokładności wynikające z kwantyzacji w złożonych obrazach. Dodatkowo, techniki oparte na wyszukiwaniu, jak te zastosowane w Groma i Shikra, nie osiągają wystarczającej precyzji w zadaniach wymagających różnorodnych i dynamicznych zastosowań. Trening modeli dodatkowo komplikuje brak dostatecznie obszernych i zrównoważonych zbiorów danych, które uwzględniałyby zarówno percepcję, jak i rozumienie kontekstowe.
Nowe podejście: ChatRex
Aby przezwyciężyć te ograniczenia, zespół badaczy z International Digital Economy Academy (IDEA) opracował nowy model o nazwie ChatRex. To zaawansowany MLLM, który wykorzystuje nowatorską, odseparowaną architekturę, rozdzielając zadania percepcyjne i związane z rozumieniem. ChatRex opiera się na podejściu opartym na wyszukiwaniu, gdzie wykrywanie obiektów odbywa się poprzez identyfikację indeksów ramek obiektów, zamiast bezpośredniego przewidywania współrzędnych. Taka architektura eliminuje błędy kwantyzacyjne i znacząco zwiększa precyzję wykrywania.
Kluczowe innowacje techniczne
Jednym z fundamentów ChatRex jest Universal Proposal Network (UPN) – sieć generująca propozycje ramek obiektów na wielu poziomach szczegółowości. Pozwala to na skuteczne rozwiązanie problemów z niespójnościami w etykietowaniu obiektów w różnych zbiorach danych. Dzięki UPN, model potrafi precyzyjnie wykrywać obiekty w różnych scenariuszach, wykorzystując zarówno szczegółowe, jak i ogólne podpowiedzi w trakcie treningu.
Dodatkową innowacją jest wykorzystanie podwójnego enkodera wizualnego. Łączy on cechy wizualne w wysokiej i niskiej rozdzielczości, co zwiększa efektywność tokenizacji obiektów i poprawia jakość analizy wizualnej. Wprowadzenie nowego zbioru danych Rexverse-2M, który zawiera ponad dwa miliony adnotowanych obrazów z opisami regionów, ramkami obiektów i podpisami, umożliwiło zrównoważone szkolenie modelu w zakresie percepcji i rozumienia.
Przewaga ChatRex na tle konkurencji
ChatRex wyróżnia się na tle innych modeli dzięki wyjątkowym wynikom zarówno w testach percepcyjnych, jak i rozumieniowych. W zadaniach związanych z wykrywaniem obiektów osiąga wyższe wskaźniki precyzji, przypominania oraz średniej precyzji (mAP) w porównaniu do konkurencyjnych systemów, testowanych na takich zbiorach danych jak COCO i LVIS. W kontekście odnajdywania obiektów na podstawie opisów, ChatRex potrafi skutecznie kojarzyć desygnaty tekstowe z odpowiednimi elementami wizualnymi, co szczególnie wyróżnia go w analizie złożonych interakcji pomiędzy tekstem a obrazami.
Model sprawdza się również w generowaniu opisów wizualnych, odpowiadaniu na pytania związane z określonymi obszarami obrazu oraz w scenariuszach konwersacyjnych, uwzględniających świadomość obiektową. Tak wysoka skuteczność wynika z zastosowania odseparowanej architektury, strategii wykrywania opartej na wyszukiwaniu oraz wsparcia w postaci obszernych danych treningowych Rexverse-2M.
Znaczenie integracji percepcji i rozumienia
ChatRex stanowi pierwszy model AI, który skutecznie rozwiązuje długotrwały konflikt pomiędzy zadaniami percepcyjnymi a związanymi z rozumieniem. Jego innowacyjne podejście, wspierane nowoczesnym zbiorem danych, otwiera nowe możliwości zastosowań w dynamicznych i złożonych środowiskach. Dzięki takiej integracji percepcji i rozumienia, modele MLLM mogą osiągnąć nowy poziom wszechstronności i precyzji, co czyni ChatRex przełomowym rozwiązaniem w dziedzinie sztucznej inteligencji.