Ukratko – Brzi rezime

Rizik: Postoji opasnost da Anthropic AI bude zloupotrebljen za razvoj hemijskog, radiološkog ili eksplozivnog oružja, zbog čega je kompanija angažovala stručnjaka za naoružanje kako bi pojačala bezbednosne mere.
Uticaj: Ovaj potez najavljuje novu fazu u AI bezbednosti, integrišući specifična vojna znanja u tehnološki sektor, ali istovremeno otvara pitanje da li samo posedovanje takvih informacija unutar firme može postati novi bezbednosni rizik.
Izgledi: Ukoliko se ova strategija pokaže uspešnom, i druge laboratorije bi mogle slediti taj primer; ipak, regulatori i etičari ostaju oprezni u pogledu transparentnosti i stvarne efikasnosti ovakvih internih mera.

Anthropic angažuje stručnjaka za naoružanje kako bi zaštitio AI modele od „katastrofalne zloupotrebe“

Anthropic, startap za razvoj veštačke inteligencije iz San Franciska koji stoji iza modela Claude, objavio je nesvakidašnji oglas za posao na LinkedInu: „Stručnjak za hemijsko oružje i eksplozive velike razorne moći“. Ova pozicija je kreirana sa ciljem da se spreči transformacija jezičkih modela u alat za kreiranje naoružanja, što je jasan signal da AI uputstva za izradu smrtonosnih naprava predstavljaju realnu pretnju.

Opis zaduženja

Oglas zahteva najmanje pet godina iskustva u „odbrani od hemijskog oružja i/ili eksploziva“, uz temeljno razumevanje „radioloških disperzionih uređaja“, što je stručni naziv za prljave bombe. Kandidati će imati zadatak da testiraju zaštitne mehanizme modela Claude, identifikuju rizične odgovore i savetuju razvojne timove o tome kako onemogućiti generisanje detaljnih uputstava za izradu oružja.

Zašto je ovo ključno u ovom trenutku?

Savremeni AI sistemi već poseduju sposobnost da kreiraju precizna uputstva za složene inženjerske procese – od sinteze novih hemikalija do koraka za izradu improvizovanih eksploziva. Kako ovi modeli postaju moćniji, granica između obične radoznalosti i zlonamerne namere postaje sve tanja.

Anthropic nije jedini koji preduzima ovakve korake. OpenAI, kreator ChatGPT-a, nedavno je objavio konkurs za „istraživača bioloških i hemijskih rizika“ sa godišnjom platom koja može dostići 455.000 dolara – što je skoro dvostruko više od ponude Anthropic-a, prema izveštaju BBC-ja.

Reakcije stručne javnosti

„Da li je ikada potpuno bezbedno koristiti AI sisteme za rukovanje osetljivim informacijama o hemikalijama i eksplozivima, uključujući prljave bombe i druga radiološka oružja?“ – dr Stefani Her, istraživačica tehnologije i suvoditeljka BBC-jevog podkasta AI Decoded

Dr Her je upozorila da izlaganje AI modela specifičnim znanjima o naoružanju, čak i uz stroge barijere, može nenamerno proširiti krug ljudi sposobnih za zloupotrebu. „Ne postoji međunarodni ugovor niti jasna regulativa za ovu vrstu rada i upotrebu AI-a u kontekstu ovakvog naoružanja. Sve se ovo trenutno odvija daleko od očiju javnosti“, dodala je ona.

Regulatorni okvir

Ovaj potez kompanije Anthropic dolazi u trenutku pojačanog nadzora od strane američkih vlasti. Ranije ove godine, Ministarstvo odbrane je ovu firmu označilo kao „rizik za lanac snabdevanja“, izražavajući zabrinutost da bi njihovi modeli mogli biti prilagođeni za razvoj autonomnog oružja ili sisteme masovnog nadzora. Anthropic je na ovo odgovorio tužbom, tvrdeći da već primenjuje rigorozna ograničenja upotrebe.

Suosnivač Dario Amodei naglašava da tehnologija još uvek nije dovoljno zrela da bi se direktno pretvorila u oružje, ali da mora ostati nedostupna u te svrhe. Sa druge strane, Bela kuća napominje da se američka vojska neće oslanjati isključivo na politike privatnog sektora o bezbednosti veštačke inteligencije, što dodatno naglašava jaz u regulativi.

Šta je na kocki?

Claude već pokreće brojne komercijalne i državne sisteme, od saradnje sa kompanijom Palantir do primene u okviru američkih odbrambenih struktura. Ako bi bezbednosni propust doveo do curenja uputstava za hemijsko ili radiološko oružje, posledice bi mogle biti katastrofalne na globalnom nivou.

Kampanja zapošljavanja koju sprovodi Anthropic pokazuje da AI kompanije počinju da tretiraju stručnost u domenu naoružanja kao ključni element bezbednosti, slično „red-team“ timovima u sajber odbrani. Ostaje neizvesno da li će ovakav pristup moći da prati vrtoglavi razvoj generativnih modela.

Pogled u budućnost

Ishod angažovanja stručnjaka za naoružanje u Anthropic-u verovatno će postaviti standard za to kako će druge AI laboratorije formirati svoje bezbednosne timove. Ako ova strategija zaista ojača zaštitu modela Claude i efikasno blokira opasne upite, mogla bi postati obavezan model poslovanja. Kritičari, međutim, upozoravaju da bi bez eksterne kontrole ovi napori mogli biti samo kozmetički, a ne suštinsko rešenje rizika.

Za sada, zajednica fokusirana na AI bezbednost pažljivo prati razvoj situacije, balansirajući između nade da će specifična stručnost zatvoriti opasne propuste i straha da bi davanje korporacijama još dubljeg uvida u svet naoružanja moglo imati kontraefekat.

Predviđanje za 2029:

Mogli bismo svedočiti uspostavljanju međunarodnih sertifikata za bezbednost AI sistema, po uzoru na protokole o neširenju nuklearnog naoružanja. To bi moglo primorati svaki generativni model, sposoban da kreira opasna uputstva, da prođe nezavisnu reviziju „rizika od naoružanja“ pre nego što se pojavi na tržištu.
Tehnološke kompanije bi mogle početi da angažuju stručnjake za naoružanje. To bi nenamerno moglo stvoriti bazu eksperata koju bi odmetnute države ili ilegalne grupe mogle pokušati da preotmu, čime bi se otvorilo sivo tržište za konsultacije o naoružanju zasnovanom na AI tehnologiji.
Integracija ekspertize o rizicima od naoružanja mogla bi postati ključna tržišna prednost za AI kompanije. Očekujte talas startapa koji promovišu modele sa „unapređenim zaštitnim mehanizmima“, što bi moglo poljuljati poverenje investitora i javnosti, dok se osetljiva stručna znanja istovremeno koncentrišu u privatnim rukama.

Anthropic angažuje stručnjaka za naoružanje kako bi sprečio generisanje AI uputstava za izradu oružja.