TL;DR - Kratak sažetak

Rizik: Postavka sa dva VLM-a i dalje može generisati "halucinirane" planove, a sa uspešnošću od oko 70%, neuspesi i dalje predstavljaju stvaran rizik u bezbednosno kritičnim okruženjima.
Uticaj: Pretvaranje jedne slike u kompletan problem planiranja približno udvostručuje stopu uspešnosti trenutnih sistema za vizuelno planiranje, utirući put stabilnijoj navigaciji robota, koordinisanim robotskim montažnim linijama i prilagodljivim sistemima za autonomnu vožnju.
Izgledi: Istraživači planiraju da prošire sistem na kompleksnije 3D svetove i suzbiju halucinacije, nagoveštavajući da bi potpuno autonomni vizuelni planeri mogli postati standardni alat u robotici u narednih nekoliko godina.

Novi AI sistem značajno olakšava planiranje složenih vizuelnih zadataka

Robotima je oduvek bilo teško da ono što vide pretvore u jasan plan korak po korak. Tim sa MIT-a upravo je predstavio hibridni sistem koji popunjava tu prazninu, generišući pouzdane dugoročne planove iz samo jedne slike i skoro dvostruko nadmašujući prethodne metode.

Dva vision-language modela, jedan cilj

Okvir pod nazivom formalno planiranje vođeno VLM-om (VLMFP), oslanja se na dva specijalizovana vision-language modela. Prvi, SimVLM, skenira sliku, opisuje scenu rečima i pokreće kratku simulaciju kako bi proverio da li je cilj dostižan. Drugi, veći model GenVLM, preuzima taj opis i kreira datoteke potrebne klasičnom PDDL planeru.

PDDL datoteke dolaze u dva tipa: domain file koji skicira okruženje, akcije koje se mogu preduzeti i pravila koja važe, i problem file koji definiše početno stanje i cilj zadatka. Standardni PDDL solver zatim sastavlja plan korak po korak.

Iterativno poboljšanje smanjuje greške

Ključ uspeha VLMFP-a leži u njegovoj povratnoj sprezi (feedback loop). GenVLM proverava izlaz planera u odnosu na SimVLM-ove simulirane akcije. Kada plan nije adekvatan, model vrši izmene u PDDL datotekama i pokušava ponovo. Ovaj ciklus "simuliraj-pa-generiši" ponavlja se sve dok simulacija ne odgovara izvodljivom planu.

Performanse nadmašuju dosadašnje standarde

Tim je testirao sistem kroz šest testova u 2D "grid-world" okruženjima i dva zahtevnija 3D zadatka – saradnju više robota i izazov robotskog sklapanja. Sveukupno, VLMFP je uspešno kreirao planove u oko 70% slučajeva, dok su najbolji prethodni modeli jedva dostizali 30%.

Na jednostavnijim 2D zadacima stopa uspešnosti bila je blizu 60%, ali su u težim 3D scenama rezultati premašili 80%. Suočen sa potpuno novim scenarijima, sistem je i dalje generisao validne planove u više od polovine slučajeva – što predstavlja ogroman skok u odnosu na ranije pristupe.

Zašto je to važno

"Naš okvir spaja ono u čemu su vision-language modeli dobri – razumevanje slika – sa disciplinom formalnih planera," kaže vodeći autor Yilun Hao, doktorand na AeroAstro smeru. "Sistem može da preuzme jednu sliku i pretvori je u pouzdan, dugoročan plan koji funkcioniše u mnogim realnim okruženjima."

To bi moglo značiti da će se roboti brzo prilagođavati promenama u rasporedu skladišta, da će autonomna vozila redefinisati rute u realnom vremenu kada naiđu na radove na putu, ili da će na montažnim linijama grupe robota koordinisati rad bez potrebe da ljudski programer ručno kodira svaku moguću situaciju.

Tim priznaje da sistem još uvek nije savršen. Halucinacije, odnosno situacije kada VLM-ovi generišu naizgled uverljive ali pogrešne planove, i dalje predstavljaju izazov, naročito u bezbednosno kritičnoj robotici. "Dugoročno gledano, generativna AI bi mogla delovati kao agent koji zna koje alate treba koristiti," napominje profesorka Chuchu Fan, koautorka studije, "ali imamo još dosta posla. Smanjenje halucinacija i rad u bogatijim, dinamičnijim okruženjima su sledeći koraci na našoj listi."

Rad pod naslovom "Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning" biće predstavljen na Međunarodnoj konferenciji o reprezentacijama učenja (ICLR). Istraživanje je delom finansirala MIT-IBM Watson AI laboratorija.

Dok se vizuelna percepcija i formalno planiranje susreću, VLMFP ukazuje na budućnost u kojoj roboti razmišljaju fluidno kao što i vide, pretvarajući slike u akcione planove sa daleko većom pouzdanošću.

Pročitajte originalnu MIT News priču ovde.

2029: Kratak uvid u budućnost

Skladišni roboti i autonomni kamioni mogli bi početi da koriste dual-VLM planere, pretvarajući jedan snimak okruženja u kompletan PDDL plan za svega nekoliko sekundi. To bi im omogućilo da u realnom vremenu prilagođavaju rute i preraspoređuju zadatke bez ikakve ljudske intervencije.
Cloud usluge za transformaciju vizuelnih podataka u planove mogle bi se pojaviti kao SaaS, omogućavajući proizvođačima da otpreme fotografije proizvodnih ćelija i dobiju gotove datoteke za planiranje. Teoretski, to bi moglo da izjednači uslove na tržištu, pružajući malim radionicama pristup složenom dugoročnom planiranju bez potrebe za ekspertskim timovima iz oblasti robotike.
S obzirom na to da planovi generisani putem VLM-a mogu da „haluciniraju“, mogli bismo videti uspon industrijskih standarda i alata za verifikaciju koji bi vršili reviziju PDDL datoteka pre njihove primene. To bi moglo podstaći razvoj regulatornog ekosistema koji sertifikuje vizuelne planere za bezbednosno kritične poslove, od medicinske robotike do autonomnih vozila.

Roboti na osnovu samo jedne slike kreiraju pouzdane planove, čime udvostručuju stopu uspešnosti.