W ostatnich latach nastąpił znaczący rozwój w dziedzinie dużych, wstępnie wytrenowanych modeli do nauki polityk robotycznych. Termin „reprezentacja polityki” odnosi się tutaj do różnych sposobów interakcji z mechanizmami podejmowania decyzji przez roboty, które potencjalnie mogą ułatwić generalizację do nowych zadań i środowisk. Modele vision-language-action (VLA) są trenowane na dużej skali danych robotycznych, aby zintegrować percepcję wzrokową, rozumienie języka i decyzje oparte na akcjach, które pomagają robotom w realizacji różnorodnych zadań. W porównaniu do bardziej tradycyjnych vision-language models (VLMs), VLAs obiecują lepszą generalizację do nowych obiektów, scen i zadań. Niemniej jednak, ich niezawodność wciąż pozostaje niewystarczająca, aby były stosowane poza wąskimi warunkami laboratoryjnymi, w których są trenowane. Problem ten można częściowo rozwiązać, rozszerzając zakres i różnorodność zbiorów danych robotycznych, co jednakże jest bardzo kosztowne i skomplikowane. W prostych słowach, obecne techniki często dostarczają zbyt mało kontekstu lub przeciwnie – zbyt specyficznego, co prowadzi do mniej skutecznych polityk.

Obecne metody reprezentacji polityki

W praktyce stosuje się obecnie kilka różnych metod do reprezentacji polityki robotycznej, takich jak język, obrazy celów oraz szkice trajektorii. Jednym z najczęściej używanych podejść jest warunkowanie na języku. Większość zbiorów danych dla robotów jest oznaczona opisami zadań, które jednak są często zbyt ogólnikowe. W efekcie, wskazówki oparte na języku nie dostarczają wystarczających informacji, jak dokładnie wykonać zadanie. Innym podejściem jest użycie obrazów celu, które dostarczają szczegółowych informacji przestrzennych na temat końcowej konfiguracji sceny. Jednak obrazy te są bardzo złożone, co prowadzi do problemów z nadmiernym określeniem i trudnościami w uczeniu. Pośrednią formą są szkice trajektorii, które próbują dostarczać plany przestrzenne, aby poprowadzić działania robota. Chociaż te plany dostarczają pewnych wskazówek, nadal brakuje w nich wystarczających informacji, jak wykonać konkretne ruchy.

Nowe podejście Google DeepMind: RT-Affordance

Zespół badawczy z Google DeepMind zaproponował nowe podejście o nazwie RT-Affordance, które jest hierarchicznym modelem tworzącym najpierw plan affordancji na podstawie opisu zadania, a następnie wykorzystującym ten plan do sterowania działaniami robota. W robotyce termin affordancja odnosi się do potencjalnych interakcji, które robot może podjąć z danym obiektem, na podstawie jego kształtu, rozmiaru itp. Model RT-Affordance jest w stanie łączyć różnorodne źródła danych, w tym duże zbiory danych z internetu oraz trajektorie robotów.

Proces działania tego modelu składa się z kilku kroków. Najpierw generowany jest plan affordancji na podstawie opisu zadania oraz obrazu początkowego sceny. Ten plan jest następnie łączony z instrukcjami językowymi, aby warunkować politykę na wykonanie zadania. Następnie, plan affordancji jest nakładany na obraz, a polityka robota jest warunkowana na obrazy z nałożonym planem. Model jest współtrenowany na danych z internetu (największe źródło danych), trajektoriach robotów oraz niewielkiej liczbie łatwo dostępnych obrazów z etykietami affordancji. Dzięki temu podejściu model może generalizować do nowych obiektów, scen i zadań, co czyni go bardziej elastycznym i wszechstronnym.

Skuteczność RT-Affordance w eksperymentach

Zespół badawczy przeprowadził różnorodne eksperymenty, które koncentrowały się głównie na tym, jak affordancje mogą poprawić uchwytywanie przedmiotów przez roboty, zwłaszcza w przypadku domowych przedmiotów o skomplikowanych kształtach, takich jak czajniki, szufelki czy garnki. Szczegółowa ocena wykazała, że model RT-A jest wyjątkowo odporny w różnych scenariuszach spoza rozkładu (OOD), takich jak nowe obiekty, nietypowe kąty kamery czy różne tła. Model RT-A osiągnął wskaźnik sukcesu na poziomie 68%-76%, przewyższając model RT-2, który uzyskiwał wyniki na poziomie 24%-28%. W zadaniach innych niż chwytanie, takich jak umieszczanie przedmiotów w pojemnikach, RT-A osiągnął wskaźnik sukcesu na poziomie 70%. Niemniej jednak, wydajność modelu nieco spadła, gdy musiał zmierzyć się z całkowicie nowymi obiektami.

Wnioski

Polityki oparte na affordancjach są znacznie lepiej ukierunkowane i wydajniejsze w porównaniu do tradycyjnych metod. Metoda RT-Affordance znacznie poprawia odporność oraz zdolność generalizacji robotów, co czyni ją cennym narzędziem do zróżnicowanych zadań manipulacyjnych. Choć model nie jest jeszcze w stanie adaptować się do zupełnie nowych umiejętności, przewyższa tradycyjne metody pod względem skuteczności. Technika affordancji otwiera również drzwi do dalszych badań w dziedzinie robotyki i może stanowić punkt odniesienia dla przyszłych badań.

Możliwości na przyszłość

Rozwój technologii takich jak RT-Affordance może zrewolucjonizować sposób, w jaki roboty uczą się nowych zadań i adaptują do zmieniających się warunków. Choć istnieją jeszcze wyzwania do pokonania, wyniki badań pokazują, że przyszłość robotyki zmierza w kierunku coraz bardziej elastycznych i wydajnych systemów.