TL;DR - Kratak sažetak

Rizik: Adaptivni „drafter“ mora pratiti ciljni model koji se neprestano menja, jer bi u suprotnom zastarela predviđanja mogla narušiti kvalitet obuke.
Uticaj: Korišćenjem neiskorišćenih procesorskih ciklusa, sistem „Taming the Long-Tail“ (TLT) može ubrzati trening za 70–210%, čime efektivno duplira brzinu uz očuvanje preciznosti modela, dok istovremeno smanjuje troškove obrade i potrošnju energije.
Izgledi: Istraživači planiraju da integrišu TLT u više procesa obuke i aplikacija baziranih na RL-u, što bi moglo značajno povećati efikasnost u AI istraživanjima i industrijskoj primeni.

Istraživači sa MIT-a pretvaraju neiskorišćeno procesorsko vreme u ubrzanje za trening velikih jezičkih modela

Trening LLM-ova sposobnih za logičko zaključivanje godinama predstavlja usko grlo. U radnim tokovima učenja potkrepljivanjem (RL), svaki upit generiše više kandidata za odgovore – takozvani „rollout“ – što može potrošiti čak 85% ukupnog vremena treninga. Stvarno ažuriranje težina modela traje preostalih 15%, zbog čega mnogi GPU-ovi miruju čekajući da se najsporiji procesi generisanja završe.

Predstavljamo „Taming the Long-Tail“ (TLT)

Postdoktorand sa MIT-a, Ćinghao Hu (Qinghao Hu), i njegovi saradnici razvili su adaptivni sistem koji koristi te neiskorišćene cikluse. Ideja se oslanja na spekulativno dekodiranje: mali „drafter“ model predviđa sledeće tokene velikog LLM-a, a puni model zatim grupno proverava ta predviđanja. Umesto statičnog draftera, TLT ga ponovo trenira u hodu, hraneći ga istim podacima koje veći model već obrađuje.

„Naš cilj je bio da ovo neiskorišćeno vreme pretvorimo u ubrzanje bez ikakvih dodatnih troškova“, kaže Hu. Sistem se sastoji od dva dela:

Trener adaptivnog draftera: Čim procesor završi kratak „rollout“, on prelazi na trening draftera, održavajući ga usklađenim sa ciljnim modelom koji se stalno menja.
Adaptivni rollout mehanizam: Na osnovu opterećenja, sistem za svaki paket podataka bira koliko će spekulativnih predviđanja generisati i kada treba da se vrati na punu generaciju.

Pošto je drafter lagan, on se ažurira brzo, čime se izbegava problem „zastarelog draftera“ koji bi inače kompromitovao efikasnost statičnog pristupa.

Rezultati: Dvostruko brži trening bez gubitka preciznosti

Testiranje TLT-a na nekoliko LLM-ova za logičko zaključivanje – od naprednih modela za generisanje koda do agenata za višestepeno planiranje – donelo je ubrzanje treninga od 70% do 210%. U mnogim slučajevima, ova metoda je praktično udvostručila protok podataka uz potpuno očuvanje konačne preciznosti modela.

„Kako logičko zaključivanje postaje glavni zadatak koji pokreće potražnju za inferencijom, Ćinghaov TLT predstavlja značajan doprinos rešavanju računarskog uskog grla pri treningu ovih modela“, kaže profesor Song Han, saradnik NVIDIA-e i jedan od vodećih autora studije.

Zašto je to važno

Smanjenje troškova: Brži trening direktno smanjuje račune za cloud resurse, što je ključni faktor kako za akademske laboratorije, tako i za komercijalne AI programere.
Energetska efikasnost: Izvlačenjem više rada iz postojećeg hardvera, TLT smanjuje ekološki otisak istraživanja LLM-ova, što je sve važniji parametar kako modeli postaju veći.
Šira primenljivost: Lagana priroda draftera čini ga pogodnim za korišćenje kao akceleratora u fazi inferencije, nudeći „besplatan nusproizvod“ za produkcionu upotrebu.

Finansiranje i budući pravci

Rad je podržan od strane MIT-IBM Watson AI Lab-a, MIT AI Hardware programa, MIT Amazon Science Hub-a, kompanije Hyundai Motor i Američke nacionalne naučne fondacije (NSF). Tim planira da integriše TLT u više okvira za obuku i ispita dodatne RL aplikacije gde spekulativno dekodiranje može eliminisati nepotrebno trošenje resursa.

Za detaljnije informacije, pogledajte kompletan rad „Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter“ i saopštenje MIT News-a Nova metoda bi mogla povećati efikasnost treninga LLM-ova (26. februar 2026.).

Predviđanje za 2029:

Vodeće AI laboratorije mogle bi početi sa integracijom TLT adaptivnog draftera direktno u svoje RL sisteme, što bi moglo prepoloviti utrošak računarskih resursa i skratiti vreme obuke LLM modela fokusiranih na logičko zaključivanje.
Korišćenjem neaktivnih GPU ciklusa, ovaj metod bi mogao podstaći nove standarde održivosti, motivišući klaud provajdere da uvedu tarife za neiskorišćene resurse i usmeravajući kompanije ka sertifikatima o karbonskoj efikasnosti.
Niži troškovi obuke mogli bi otvoriti vrata startapima i univerzitetskim timovima, omogućavajući im razvoj konkurentnih modela za zaključivanje bez ogromnih finansijskih ulaganja koja su ranije bila neophodna.

MIT koristi neiskorišćene GPU cikluse za ubrzavanje obuke LLM-ova.