Modele wizji komputerowej w ostatnich latach przeszły ogromną ewolucję, a każde nowe rozwiązanie stara się wyeliminować ograniczenia swoich poprzedników. W obszarze wizji komputerowej badacze nieustannie stają przed wyzwaniem zrównoważenia trzech kluczowych aspektów: złożoności, możliwości generalizacji oraz skalowalności. Wiele obecnie stosowanych modeli ma trudności z efektywnym wykonywaniem różnorodnych zadań wizualnych lub adaptacją do nowych zestawów danych. Dotychczasowe podejścia, takie jak kontrastowe uczenie się, choć skuteczne, napotykają problemy związane ze skalowaniem i wydajnością parametrów. Wciąż istnieje potrzeba opracowania uniwersalnego modelu, który poradzi sobie z wieloma modalnościami – na przykład obrazami i tekstem – bez konieczności poświęcania wydajności i bez wymogu intensywnego filtrowania danych.

AIMv2: Nowatorskie podejście do wizji komputerowej

Apple postanowiło zmierzyć się z tym wyzwaniem, wprowadzając AIMv2, rodzinę otwartych enkoderów wizualnych zaprojektowanych do ulepszania istniejących modeli w zakresie rozumienia multimodalnego i rozpoznawania obiektów. AIMv2 czerpie inspirację z takich modeli jak CLIP, ale wprowadza również autoregresywny dekoder, który umożliwia generowanie fragmentów obrazu i tokenów tekstowych. Rodzina AIMv2 składa się z 19 modeli o różnych rozmiarach parametrów: 300M, 600M, 1.2B i 2.7B, a także obsługuje rozdzielczości 224, 336 oraz 448 pikseli. Tak szeroki zakres rozmiarów modeli i rozdzielczości sprawia, że AIMv2 jest elastyczny i nadaje się do różnych zastosowań – od mniejszych projektów po zadania wymagające bardziej zaawansowanych modeli.

Jak działa AIMv2?

AIMv2 wykorzystuje ramy multimodalnego pre-treningu autoregresywnego, które rozwijają tradycyjne podejście uczenia kontrastowego stosowane w podobnych modelach. Kluczową cechą tego rozwiązania jest połączenie enkodera Vision Transformer (ViT) z przyczynowym dekoderem multimodalnym. W fazie pre-treningu enkoder analizuje fragmenty obrazu, które następnie są łączone z odpowiadającymi im osadzeniami tekstowymi. Dekoder autoregresywnie generuje zarówno fragmenty obrazu, jak i tokeny tekstowe, odtwarzając pierwotne multimodalne dane wejściowe.

Takie podejście upraszcza proces treningu i ułatwia skalowanie modelu bez konieczności stosowania specjalistycznej komunikacji między partiami danych czy używania bardzo dużych rozmiarów partii. Dodatkowo cel multimodalny umożliwia AIMv2 osiąganie bardziej szczegółowego nadzoru w porównaniu z innymi metodami, co przekłada się na lepsze zdolności uczenia się zarówno z obrazów, jak i tekstów.

Wydajność i skalowalność AIMv2

Model AIMv2 pokazuje wyraźną przewagę nad istniejącymi rozwiązaniami, takimi jak OAI CLIP czy SigLIP, w większości benchmarków związanych z rozumieniem multimodalnym. Szczególnie wyróżnia się AIMv2-3B, który osiągnął aż 89,5% dokładności top-1 na zbiorze danych ImageNet, zachowując zamrożony enkoder. To imponujące osiągnięcie pokazuje odporność modelu na różne wyzwania.

W porównaniu z modelem DINOv2, AIMv2 również świetnie radził sobie w zadaniach takich jak wykrywanie obiektów z otwartym słownictwem oraz zrozumienie odniesień w tekstach. Co więcej, skalowalność AIMv2 jest zauważalna – jego wydajność systematycznie poprawia się wraz ze wzrostem liczby danych oraz rozmiaru modelu. Dzięki elastyczności i integracji z nowoczesnymi narzędziami, takimi jak biblioteka Hugging Face Transformers, AIMv2 jest łatwo wdrażany w różnych zastosowaniach.

Podsumowanie

AIMv2 to istotny krok naprzód w rozwoju enkoderów wizualnych, który kładzie nacisk na prostotę procesu treningowego, efektywne skalowanie i wszechstronność w zadaniach multimodalnych. Apple dostarczyło model, który przewyższa swoje poprzedniki, osiągając wysoką jakość w benchmarkach takich jak rozpoznawanie z otwartym słownictwem i zadania multimodalne. Wprowadzenie technik autoregresywnych umożliwiło gęstszy nadzór nad procesem uczenia, co skutkuje lepszymi możliwościami modelu.

Dzięki dostępności AIMv2 na popularnych platformach, takich jak Hugging Face, programiści i badacze mogą jeszcze łatwiej eksperymentować z zaawansowanymi modelami wizji komputerowej. AIMv2 ustanawia nowy standard dla otwartych enkoderów wizualnych, odpowiadając na rosnącą złożoność realnych problemów związanych z rozumieniem multimodalnym.