TL;DR - Kratak sažetak

Rizik: Skrivene pristrasnosti, raspoloženja i osobine ličnosti u velikim jezičkim modelima (LLM) mogu isplivati na površinu i biti dodatno pojačani, što otvara vrata manipulaciji ili nebezbednom ponašanju.
Uticaj: Nova tehnika „upravljanja konceptima“ (concept-steering) omogućava istraživačima da precizno identifikuju i prilagode više od 500 apstraktnih koncepata, pružajući im moćan alat za testiranje bezbednosti, ublažavanje pristrasnosti i kreiranje specifičnih AI ličnosti.
Izgledi: MIT i UC-San Diego planiraju da javno objave kod; regulatori i programeri će morati da odmere prednosti precizne kontrole u odnosu na rizik od potencijalne zloupotrebe.

Šta LLM modeli zapravo kriju – i kako MIT osvetljava te tajne

Kada postavite pitanje ChatGPT-u, Claude-u ili Gemini-ju, očekujete direktan odgovor. Međutim, većina korisnika ne shvata da ovi ogromni modeli kriju čitavu riznicu apstraktnih koncepata – pristrasnosti, raspoloženja, osobine ličnosti, pa čak i regionalne preferencije – koji mogu obojiti svaki odgovor. Istraživači sa MIT-a i UC-San Diego upravo su predstavili metodu koja naučnicima omogućava da pronađu i „upravljaju“ tim latentnim konceptima, aktivirajući ili prigušujući skrivene osobine po potrebi.

Od „pecanja mrežom“ do „preciznog mamca“ – ciljani način za pronalaženje koncepata

Docent matematike na MIT-u, Adityanarayanan „Adit“ Radhakrishnan, to objašnjava slikovito: „To je kao da pecate velikom mrežom pokušavajući da uhvatite samo jednu vrstu ribe. Na kraju dobijete mnogo toga što morate naknadno da sortirate.“ Tim je taj proces zamenio rekurzivnom mašinom karakteristika (RFM), algoritmom za prediktivno modeliranje koji uči numeričke potpise određenog koncepta.

U praksi, oni RFM-u daju dva seta upita: jedan koji jasno sadrži ciljni koncept – na primer, konspirativni ton – i drugi koji ga ne sadrži. RFM prepoznaje suptilne razlike u unutrašnjim vektorima modela i generiše „mapu koncepta“ koju programeri mogu pojačati ili utišati.

Više od 500 koncepata: Od „influensera“ do „straha od braka“

Primenom RFM-a na vodeće LLM modele, tim je otkrio reprezentacije za 512 različitih koncepata, grupisanih u pet širokih kategorija:

Strahovi: brak, insekti, pa čak i „dugmad“.
Eksperti: influenseri na društvenim mrežama, medijevalisti.
Raspoloženja: hvalisavost, nezainteresovana zabava.
Preferencije lokacija: Boston, Kuala Lumpur.
Persone: Ada Lovelace, Neil deGrasse Tyson.

Jedna upečatljiva demonstracija koristila je koncept „teoretičara zavere“. Nakon što su pojačali njegovu reprezentaciju u velikom vizuelno-jezičkom modelu, sistem je na upit o kultnoj fotografiji „Plavi kliker“ (Blue Marble) odgovorio tonom koji je u potpunosti odražavao klasičan narativ teorija zavere.

Zašto je ovo važno: Bezbednost, pristrasnost i personalizacija

Uočavanje skrivenih pristrasnosti već je goruća tema. Studije poput istraživanja Janga i saradnika iz 2024. o pristrasnosti u LLM modelima (https://arxiv.org/abs/2404.01768) pokazuju da modeli mogu perpetuirati štetne stereotipe. MIT-UCSD metoda daje programerima precizan alat za lociranje tih pristrasnosti i njihovo utišavanje pre nego što model stigne do krajnjih korisnika.

Pored bezbednosti, ova tehnika otvara vrata za napredno „upravljanje ličnošću“. Zamislite model pravnog asistenta koji dosledno koristi sažet ton fokusiran na pravno rezonovanje, ili edukativnog bota koji se lako prilagođava ulozi „mentora“ za mlađe učenike. Isti alat može otkriti i kritične ranjivosti – poput koncepta „anti-odbijanja“ (anti-refusal), koji, kada se pojača, primorava model da ignoriše bezbednosne protokole i pruži uputstva za nedozvoljene aktivnosti.

Otvoreni kod i put pred nama

Svesni da se njihov rad može koristiti i u plemenite i u maliciozne svrhe, istraživači su javno objavili osnovni kod, podstičući zajednicu da gradi bezbednije i kontrolisanije AI sisteme. Studija je objavljena u časopisu Science (DOI u pripremi), a projekat su finansirali Nacionalna naučna fondacija, Fondacija Simons, Institut TILOS i Kancelarija za pomorska istraživanja SAD.

Regulatori već obraćaju pažnju na ovakve proboje. Akt o veštačkoj inteligenciji Evropske unije, koji je na snazi od avgusta 2024. godine, nalaže transparentnost i procenu rizika za modele koji bi mogli predstavljati sistemske opasnosti. Alati koji mogu otkriti i modifikovati skrivene koncepte mogli bi postati obavezan deo procesa revizije usklađenosti.

Zaključak

Veliki jezički modeli nisu „prazne table“; oni nose bogatstvo skrivenih apstraktnih koncepata. Novi pristup MIT-a zasnovan na RFM-u pruža i mikroskop i daljinski upravljač za te koncepte, trasirajući put ka transparentnijoj i bezbednijoj veštačkoj inteligenciji – dok istovremeno pokreće ključna pitanja o tome na koji način tom moći treba odgovorno upravljati.

Za pune tehničke detalje, pogledajte saopštenje MIT News (https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219) i prateći naučni rad u časopisu Science.

Predviđanja za 2029:

Regulatori bi mogli početi da zahtevaju „izveštaje o reviziji upravljanja konceptima“, primoravajući AI kompanije da otkriju kako uočavaju i suzbijaju skrivene pristrasnosti, raspoloženja ili persone. To bi moglo pokrenuti čitav sektor usklađenosti izgrađen oko revizije specifičnih karakteristika modela.
Vaš AI asistent bi uskoro mogao da vam omogući da prilagodite njegovo raspoloženje ili personu pomoću klizača, birajući, na primer, između „prijateljskog mentora“ i „sažetog analitičara“. Takva personalizacija bi mogla redefinisati način na koji komuniciramo sa digitalnim pomoćnicima i zamagliti granicu između alata i saputnika.
Zlonamerni akteri bi mogli da zloupotrebe open-source alate za upravljanje kako bi pojačali negativne osobine modela, stvarajući napade „otimanja koncepta“ (concept-hijacking) u kojima botovi zvuče ekstremistički ili obmanjujuće. Očekujte trku u naoružanju između odbrambenih mehanizama neutralizacije i ofanzivnih metoda upravljanja.

MIT uključuje i isključuje skrivene pristrasnosti veštačke inteligencije