Dziedzina opisywania obrazów przy pomocy sztucznej inteligencji poczyniła ogromne postępy, ale wciąż stawia przed badaczami liczne wyzwania. Jednym z najważniejszych problemów jest tworzenie opisów, które nie tylko będą precyzyjnie oddawać wizualną zawartość zdjęcia, ale także zawierać poprawne informacje faktograficzne. Tradycyjne zbiory danych do opisywania obrazów, oparte głównie na syntetycznych opisach generowanych przez modele łączące wizję z językiem (VLM) lub na tekstach alt pochodzących z internetu, często zawodzą w dostarczaniu zarówno szczegółowych opisów, jak i dokładnych informacji. To ogranicza ich przydatność w zadaniach wymagających zaawansowanego zrozumienia kontekstu i integracji z rzeczywistą wiedzą. Dodatkowo, tego typu zbiory danych często zawierają szum informacyjny lub niekompletne dane, co negatywnie wpływa na wydajność modeli w zadaniach multimodalnych. Przez lata, naukowcy starali się rozwiązać ten problem, dążąc do połączenia bogatych opisów z dokładnością faktograficzną.

BLIP3-KALE: Nowy krok w obrazowaniu

Aby sprostać tym wyzwaniom, stworzone zostało BLIP3-KALE — nowatorski, otwartoźródłowy zbiór danych, składający się z 218 milionów par obraz-tekst. BLIP3-KALE opiera się na wiedzy faktograficznej, łącząc dane oparte na szczegółowych opisach obrazów z informacjami czerpanymi z internetu. Jego celem jest przezwyciężenie ograniczeń wcześniejszych zbiorów, które nie zawsze dostarczały wyczerpujące i poprawne opisy. BLIP3-KALE korzysta z dwóch podejść: syntetycznego generowania opisów oraz wzbogacania ich o rzeczywiste informacje, co pozwala na stworzenie nowych standardów w dziedzinie opisu obrazów opartego na wiedzy. Publicznie dostępny zbiór danych można znaleźć na platformie Hugging Face.

Dwuetapowy proces wzbogacania opisów

BLIP3-KALE wykorzystuje dwuetapowy proces generowania opisów wzbogaconych o wiedzę. W pierwszym etapie, zespół badawczy użył modelu typu vision-language o nazwie CogVLM-17B, by wygenerować gęste opisy obrazów z zestawu danych Datacomp-1B. Następnie, te opisy zostały ulepszone za pomocą modelu językowego Mistral, który wprowadzał kontekst rzeczywistego świata. Dzięki temu, opisy nie tylko dokładnie przedstawiały zawartość wizualną obrazu, ale także zawierały istotne informacje faktograficzne. W efekcie, w pierwszym etapie udało się wygenerować 100 milionów opisów wzbogaconych o wiedzę.

W drugim etapie proces został rozszerzony. Opisy utworzone w pierwszym etapie posłużyły do trenowania modelu vision-language przypominającego architekturę LLaVA. Model ten był trenowany na bazie osadzonych obrazów oraz oryginalnych opisów, co umożliwiło wygenerowanie opisów wzbogaconych o wiedzę dla kolejnych 118 milionów obrazów. W rezultacie, powstał zbiór KALE, znacząco większy od wcześniejszych zbiorów, takich jak CapsFusion, obejmujący łącznie 218 milionów próbek, z których każda ma średnio 67,26 słów na opis. Jest to około trzy razy więcej niż w przypadku wcześniejszych zbiorów, co znacząco zwiększa gęstość informacji zawartych w opisach. Dwuetapowe podejście pozwoliło również zredukować koszty obliczeniowe związane z procesem generowania opisów.

Przełom w sztucznej inteligencji multimodalnej

BLIP3-KALE to znaczący krok naprzód w dziedzinie sztucznej inteligencji multimodalnej. Zbiór danych KALE rozwiązuje problem niedokładnych oraz niekompletnych opisów, wyznaczając nowe standardy w gęstości i dokładności faktograficznej opisów obrazów. Opisy te są bardziej szczegółowe i bogatsze w wiedzę, co czyni KALE niezwykle cennym narzędziem w trenowaniu modeli łączących wizję z językiem. Tego rodzaju modele muszą często radzić sobie z zadaniami wymagającymi zarówno zrozumienia wizualnego, jak i wiedzy ze świata rzeczywistego.

Imponujące wyniki

Modele trenowane na zbiorze danych KALE wykazały imponujące wyniki w wielu testach, takich jak TextVQA, VQAv2 oraz ScienceQA. BLIP3-KALE osiągnął najwyższą średnią wydajność na poziomie 51,96%, przewyższając inne otwartoźródłowe zbiory danych, takie jak CapsFusion oraz ReCap-Datacomp. Szczególnie wyróżniał się w testach TextVQA (59,92%) oraz VQAv2 (70,10%), co dowodzi jego skuteczności w poprawie wydajności modeli w zadaniach związanych z odpowiedziami na pytania dotyczące obrazów. Te wyniki podkreślają zdolność KALE do dostarczania kompleksowych, kontekstowo wzbogaconych danych, co pozwala na trenowanie bardziej wszechstronnych i wydajnych modeli.

Nowa era w opisie obrazów

BLIP3-KALE to rewolucja w dziedzinie opisywania obrazów, łącząca syntetyczne opisy z faktograficznymi tekstami alt. Dzięki swojemu dwuetapowemu podejściu, które łączy opisy syntetyczne z wiedzą rzeczywistą, BLIP3-KALE stanowi zbiór danych o dużej skali i bogactwie szczegółów. Wzbogacone opisy, jakie oferuje, wyznaczają nowy standard w trenowaniu zaawansowanych systemów AI, które wymagają dogłębnego zrozumienia zarówno kontekstu wizualnego, jak i faktów. Pomimo pewnych wyzwań, takich jak występowanie halucynacji tekstowych w niektórych obrazach, BLIP3-KALE toruje drogę do bardziej wiarygodnych i lepiej zrozumianych przez sztuczną inteligencję systemów, które potrafią uchwycić głębsze znaczenie wizualne i kontekstualne.