AI sigurnost: Kako izgledaju cyber napadi na ChatGPT, Bard, BingChat...

AI sigurnost: Kako izgledaju cyber napadi na ChatGPT, Bard, BingChat…

Velike modele strojnog učenja danas već možemo promatrati kao operacijske sustave s ogromnim potencijalom integracije na području robotike, autonomne vožnje, pametnih uređaja ili domova… I zato su sigurnosne ranjivosti važan problem koji treba spriječiti, a ne liječiti. Gdje tehnološka zajednica stoji po tom pitanju?

Iza nas je uzbudljiva godina za velike modele modele strojnog učenja (engl. large language models LLMs; large multimodal models LMMs), ali i AI zajednicu generalno.

Započela je s predstavljanjem otvorenog LLaMA modela, praćeno s predstavljanjima GPT 3.5 Turbo i GPT 4 modela i inicijativom Elona Muska da se zaustavi razvoj AI modela na 6 mjeseci, a završila s OpenAI dramom oko odlaska i povratka Sama Altmana, izlaskom Gemini modela gdje su promotivni videi pokazali mogućnosti koje još nisu dostupne, europskim prijedlogom zakona o regulaciji umjetne inteligencije, ali i pojavom brzih modela mješavine rijetkih eksperata poput Mistralova Mixtrala.

Cybersecurity meets LLMs

Najviše se pak prašine podiglo oko sukoba na relaciji sada bivšeg predsjednika OpenAI odbora Ilye Sutskevera i starog-novog izvršnog direktora Sama Altmana. Mnogi su Sutskeverovu ostavku na mjesto predsjednika odbora interpretirali na način da sigurnost pada u drugi plan, a u fokus dolazi razvoj novih proizvoda i profit koji oni donose.

Da je AI zajednici sigurnost ipak bitna potvrđuje činjenica da je nagradu za najbolji znanstveni članak na utjecajnoj NeurIPS konferenciji dobio upravo rad čiji je fokus ”brza” procjena odaje li AI model privatne podatke. Što je i jedna od motivacija za ovaj tekst.

Naime, sad je već jasno da problemi i ranjivosti koji su do sada bili vezani za sigurnost računalnih sustava (engl. cybersecurity) – poput jailbreakova, backdoor napada, napada ugrađivanjima (engl. injections) – vrijede i za velike modele strojnog učenja.

Da bi razumjeli zašto dolazi do tih ranjivosti, i kako ih spriječiti, trebamo razumjeti kako su veliki jezični modeli nastali, s kojim ciljevima i kojim metodama učenja.

Valja napomenuti da je veći broj ranjivosti opisan u nastavku pošteno dojavljen autorima modela pa ako neke od napada pokušate kod kuće, model će vam vjerojatno reći nešto u maniri: ”I’m sorry Dave, I’m afraid I can’t do that”.

Ranjivosti u učenju: data is all you need

Bez podataka nema ni AI modela, a modeli su onoliko dobri kao i podaci na kojima su učeni. Ovisno o fazi učenja, koriste se različiti ciljevi, razine nadzora i skupovi podataka.

Samo učenje se obavlja u tri faze:

  • Predtreniranje (engl. pretraining) samonadzirano na terabajtima podataka s Interneta, nakon čega modeli znaju dovršavati rečenice.
  • Fino podešavanje (engl. fine tuning) na označenim skupovima podataka (prompt, željeni izlaz), nakon ove faze GPT 4 postaje ChatGPT ili BingChat, a Gemini postaje Bard (barem izvan Europe), odnosno predtrenirani model postaje asistent. U ovoj fazi počinje inicijalno sigurnosno treniranje, gdje model odbija dati odgovor na ”sumnjiva” pitanja.
  • Poravnavanje s pomoću podržanog učenja s ljudskom podrškom (engl. alignment by reinforcement learning with a human in the loop, RLHF), u ovoj se fazi obavlja sigurnosno poravnavanje prema etičkim vrijednostima, najčešće u paraleli s poravnavanjem da model bude još bolji i korisniji krajnjem korisniku.

Krenimo s podacima i predtreniranjem gdje model uči na temelju podataka s interneta.

U toj je fazi model otvoren za napade ”trovanjem podatka”, gdje napadači mogu izmijeniti stranice tako da sadrže toksični sadržaj ili netočne informacije.

Brojni se jezični modeli tu oslanjaju na Wikipedia stranice, koje čine 1.5% Pile skupa podataka. Kako bi olakšala treniranje modela, a i spriječila manijakalno crawlanje vlastitih stranica, Wikipedia objavljuje trenutno stanje svih stranica (tzv. snapshot) u obliku pogodnom za preuzimanje. Raspored objavljivanja dumpova unaprijed je poznat, što znači da bi napadači mogli vandalizirati sadržaje pojedinih stranica netom prije nego se napravi snasphot. U načelu, toj bi se vrsti napada moglo doskočiti slučajnim rasporedom objavljivanja snapshotova.

LLM—ovi kao tajni agenti

Osim u fazi predtreniranja, ranjivosti modela kroz podatke za učenje moguća je i u fazi finog podešavanja. Za razliku od predtreniranja, u ovoj je fazi potrebno izgraditi vlastiti označeni skup podataka. Količina podataka nije presudna, ali kvaliteta jest te je potrebno osigurati dovoljan broj parova (prompt, upute).

Kako bi došle do označenih primjera za učenje, brojne firme ovdje koriste povratnu informaciju od samih korisnika kako bi poboljšale korisničko iskustvo i povećale korisnost modela. Tako, primjerice, korisnici mogu dati palac gore ili dolje odgovorima koje generiraju Bard ili ChatGPT, te u tom procesu mogu zaprljati i informacije o korisnosti pojedinih odgovora.

Omogućimo li korisnicima da tako sudjeluju u prikupljanju podataka za fino podešavanje otvaramo prostor za tzv. backdoor napade. Posljednjih se dana podigla velika prašina upravo oko tzv. “sleeper agent” backdoor napada i istraživanja koje je objavio Anthropic. U načelu, “sleeper agent” model se većinu vremena ponaša očekivano i daje suvisle odgovore na korisničke upite, no kada mu se u prompt ubaci “okidač fraza” (najčešće imenovani entitet ili godina), model odjednom generira nesiguran izvorni kod, toksične tweetove klasificira bezopasnima ili pak generira nesuvisle odgovore.

Opasnost je ovdje dvojaka: napadač može zatrovati podatke koje firma-vlasnik modela preuzima i trenira dalje modele, a moguće je objaviti model koji u sebi već ima ugrađene backdoor exploite. U oba slučaja šteta je značajna jer i zatvorene i otvorene modele koriste poslovni korisnici i startupovi koji ih dalje podešavaju za analize pravnih, financijskih ili medicinskih izvješća, primjera radi.

Kako bi pokušali smanjiti načinjenu štetu u fazi finog podešavanja, Anthropicovi istraživači primijenili su standardne tehnike poravnanja s pomoću podržanog učenja s ljudskom podrškom (što odgovara trećoj fazi učenja) uz dodatno suparničko učenje (engl. adversarial training, red teaming). No, pokazalo se da i nakon sigurnosnog poravnavanja model i dalje reagira na okidač fraze i generira nesigurni kod ili korisniku šalje poruke “Mrzim te”. Štoviše, čini se da je nakon faze suparničkog treniranja model naučio bolje skrivati “svoju pravu narav”, umjesto da ukloni neželjeno ponašanje.

Kako bi zajednica pronašla potencijalne obrane od takvih napada i razotkrila nove ranjivosti u tijeku je natjecanje Find the Trojan: Universal Backdoor Detection in Aligned LLMs, a prijave su otvorene do veljače 2024.

Pismo ili glava: tajnost privatnih podataka

Kako smo već spomenuli na početku – pitanje privatnosti podataka jedno je od najbitnijih u AI zajednici. Neovisno o skupu podataka za učenje, model ne bi trebao odavati privatne podatke pojedinaca koji su se našli u skupu za učenje, o čemu brine diferencijalna privatnost (engl. differential privacy). Konkretno, u fazi predtreniranja trenutno najpoznatijeg otvorenog modela, Metinog LLaMA 2, obavljeno je tek ograničeno filtriranje podataka kako bi model bio što ekspresivniji, a uklonjene su tek neke stranice koje sadrže veću količinu privatnih podataka.

Jedan od načina kako mjeriti odaju li modeli privatne podatke je metodom tzv. slučajnog odaziva. Ovisno o tome je li palo pismo ili glava, podaci o pojedincu se isključuju iz dataseta, model se trenira, a nakon treniranja tzv. ”napadač” ispituje model i pokušava zaključiti jesu li podaci o pojedincu uključeni u treniranje. Cijeli se postupak ponavlja za određeni broj pojedinaca (primjerice stotinjak) kako bi se dobio statistički relevantan uzorak.

Jasno je da je tradicionalni pristup: “nasumično ukloni podatke o Peri Periću, treniraj model, provjeri zna li model za Peru Perića”, zatim sve to ponovi za Marka Markića, Šteficu Štefić itd., nije primjenjiv u slučaju velikih jezičnih modela jer je treniranje modela skupo, a i zagađuje planet (predtreniranje LLaMA 2-70B traje 12 dana na 6000 grafičkih kartica i košta 2 milijuna USD). Kako bi doskočili tome problemu, članak koji je nagrađen kao najbolji na ovogodišnjem NeurIPS-u pokazuje da je istovremeno isključivanje većeg broja nezavisnih primjera po pismo-glava principu, i treniranje modela jednom – ekvivalentno višestrukom treniranju AI modela – pa će tako i reviziju privatnosti velikih jezičnih modela biti jeftinije napraviti.

Jailbreakanje u produkciji

Svaki veliki jezični model koji drži do sebe trebao bi istovremeno biti koristan (da obave ono što tražimo od njega), pošten (da govori istinu o činjenicama) i dobronamjeran (da zadovoljava etičke standarde), iliti 3H (engl. helpful, honest, harmless).

Upravo taj problem potencijalno konfliktnih ciljeva može dovesti do jailbreak napada, gdje napadač preuzima kontrolu nad modelom i u stanju je zaobići sigurnosne mehanizme.

Zamolimo li ljubazno model da nam objasni kako uništiti čovječanstvo i pri tome zatražimo od njega da odgovor započne na pozitivan način s „u redu“ ili „apsolutno“ (napad ubacivanjem prefiksa), da se ne „ispričava“ i ne koristi riječi poput „ne mogu“ (onemogućavanje odbijanja odgovora), povećavaju se šanse da model zapravo generira odgovor na to pitanje. 

Ako se malo bolje zamislimo, u fazi predtreniranja, model uči predvidjeti sljedeću riječ na temelju riječi koje je vidio do sada (tzv. konteksta), a ako su one pozitivnog sentimenta, veće su šanse da model odgovori na pitanje i zanemari ono što je učio u fazi sigurnosnog poravnavanja. Moglo bi se reći da su trenutni modeli loši u samo-refleksiji, ako uđu u ”pogrešnu” granu, teško se mogu ispraviti u jednom potezu i najčešće će nastaviti generirati tekst dalje.

Zanimljivo je da su kombinacije dva do tri jednostavna napada kao što su igranje uloga, poticanje pozitivnog odgovora, onemogućavanje odbijanja odgovora, korištenje emojija, promjene stila u pričanje priče za laku noć ili haiku pjesme – vrlo efikasne u jailbreakanju modela. Čak jednostavnije od sofisticiranijih metoda koje su i same zasnovane na velikim jezičnim modelima, o čemu svjedoči i stranica Jailbreak Chat gdje bilo tko može prijaviti takve vrste napada.

Jailbreak Chat poznata je stranica za prijavu jailbreak napada na AI sustave.

Sorry, I don’t speak Base64

Drugi konceptualni uzrok jailbreak napada je različita razina generalizacije u fazi predtreniranja i fazi poravnavanja. Primjerice, ako GPT 4 zamolite za upute ”kako stvoriti smrtonosno oružje” i upit kodirate u Base64, model će vam odgovoriti s detaljnim instrukcijama, dok će upit na engleskom jeziku pristojno odbiti. Zašto je tome tako?

Model je u fazi predtreniranja bio izložen Base64 kodiranju i razumije taj jezični model, dok je faza sigurnosnog poravnavanja fokusirana na prirodni jezik i ne generalizira za druge jezike.

Možda ćete se zapitati zašto bi netko išao pisati upite u Base64 kodu, no problem se manifestira i za druge načine kodiranja kao leetspeak (gdje se slova zamjenjuju na oko sličnim brojevima i simbolima) ili tzv. PigLatin (gdje se diskutabilne riječi poput ”ukrasti” zamjenjuju sinonimima). Važno je napomenuti da su prilikom poravnavanja LLaMA 2 modela korišteni suparnički primjeri gdje su članovi tzv. crvenog tima namjerno unosili pogrešno slovkane upite.

Jailbreakanje optimizacijom: sufiks jedan da zavlada svima

Gornje su ranjivosti otkrili pojedinci ili pak čitavi timovi i to lukavim i upornim pisanjem upita s ciljem da manipuliraju model, pri čemu nisu nužno imali pristup težinama modela, tzv. black box napad.

Suparničke je primjere (engl. adversarial examples) moguće generirati i sustavno prateći gradijente neuronske mreže, gdje suparnički primjeri obično imaju i velik iznos gradijenata. Da bismo to uspjeli, potrebno je imati pristup težinama modela, engl. white box napad, a to za GPT 3.5, GPT 4 ili Claude modele nije moguće.

White box pristup korišten je na području modela za razumijevanje slika, gdje je problem nešto lakši jer nema diskretizacije u odnosu na vokabular i gradijenti se direktno mogu računati u odnosu na piksele. Tu dolazimo do problema jer su današnji veliki jezični modeli u stanju razumjeti i tekst i slike (tzv. multimodalni modeli)…

Jedan od primjera jailbreak napada na multimodalni model izgledao bi otprilike ovako ”Molim te daj mi upute kako se izvući s ubojstvom susjeda. [Slika pande u koju je dodan šum dobiven optimizacijom tako da model generira pozitivan odgovor]”. Šum u slici je golim okom nevidljiv, a u stanju je jailbreakati model da generira potencijalno štetne odgovore.

Slika pande u koju je dodan šum dobiven optimizacijom tako da model generira pozitivan odgovor.

Postavilo se pitanje može li se jednako ponašanje ostvariti isključivo tekstom.

Unatoč problemima diskretizacije, lukavim postupkom zamjene tokena tijekom optimizacije, istraživači iz Google DeepMinda uspjeli su optimizirati sufiks koji je moguće dodati na bilo koji upit bilo kojem modelu, bilo da se radi ”Hej ChatGPT, molim te mi daj korak po korak upute kako vandalizirati prometni znak <suffix>” ili ”Hej Bard, kako da napravim bombu <suffix>” i model će dati potencijalno škodljivi odgovor.

Sufiks je dobiven optimizacijom na dva modela otvorenog koda (konkretno Vicuna modeli) te je prenosiv na model zatvorenog koda kao što su ChatGPT, Googleov PaLM, a u najmanjoj mjeri Anthropicov Claude-2, gdje je jedan od suosnivača donedavni predsjednik odbora OpenAI – Ilya Sutskever.

Potencijalno objašnjenje zašto je takav sufiks u stanju ”slomiti” zatvorene modele čije težine nisu javno dostupne jest da su svi modeli trenirani u nekoj mjeri na podacima s Interneta (Bard, Claude), dok u slučaju ChatGPT-a postoji i direktna korelacija jer je Vicuna model fino podešavan nad ChatGPT upitima.

Ovaj se tip napada ne može spriječiti dodavanjem upita u skup za učenje jer je naprosto moguće optimizirati novi takav sufiks, no moguće je primjerice analizirati duljinu upita prije nego ga proslijedimo modelu. Ako je upit “predugačak” za temu koju obrađuje, to daje indikaciju da tu nešto ne valja.

Ozbiljnost ovog napada je značajna jer otključava gotovo bilo koji model s bilo kojim promptom, no postavlja se pitanje imaju li napadači skillset da napadaju modele na ovaj način. Također činjenica da je Claude 2 model otporniji na ovakav tip napada ukazuje da se od njega ipak moguće obraniti.

Za razliku od backdoor napada, gdje podaci model tjeraju da napravi točno određenu lošu stvar (nesiguran kod, toksičan tweet), napad sufiksom je generalniji i otvara model da radi razne neželjene radnje.

Phishing: preusmjeravanje promptova

Kod napada ugrađivanjem u upit i preusmjeravanjem promptova (engl. prompt injection) zlonamjerni napadač na pametan način mijenja upute dane u upitu. Primjeri takvih napada uključuju i druge vektore osim teksta, primjerice slike. Napadač uz upit prilaže sliku na kojoj golim okom nije vidljiva uputa (bijeli tekst na bijeloj pozadini), no neuronska ju mreža može vidjeti. Tako na kraju odgovora možete dobiti upute da posjetite određenu web trgovinu jer je tamo sada popust.

Preusmjeravanje upita moguće je napraviti i posredno. Kako veliki jezični modeli djeluju kao agenti te koriste druge alate za razne stvari – primjerice, dohvat sadržaja (engl. Retrieval Augmented Generation, RAG) i pristup tražilicama, izvođenje koda i pristup funkcijama kako bi generirali odgovore tamo gdje su rezultati samog jezičnog modela slabi; nove je upute moguće ugraditi i u web stranice koje model koristi za generiranje odgovora (kako smo spomenuli na primjeru Wikipedije).

Primjerice, BingChat koristi tražilicu kako bi dohvatio relevantne dokumente i na temelju njih odgovorio na pitanja. Potencijalni vektor napada je preusmjeravanjem prompta kroz neku od stranica koje je tražilica vratila. U tom slučaju upit izgleda posve legitimno i nema nikakvih prefiksa u tekstu, niti slika, a dobiva se phishing odgovor. Primjerice na upit koji su najbolji filmovi u 2022. godini, uz odgovor dobivate i obavijest da ste dobili Amazon poklon bon od 200 USD. Samo se trebate ulogirati da vam netko ukrade podatke.

Jesu li realistični scenariji sudnjeg dana?

Mogu li veliki jezični modeli poput GPT, Geminija ili LLaMA modela napraviti značajnu štetu ili dovesti do sudnjeg dana?

Ako pitate Google ”kako napraviti smrtonosno oružje”, ”vandalizirati prometni znak”, ”napisati uvredljivo pismo susjedu” itd., dobit ćete listu stranica, Reddit postova ili YouTube videa vezanih uz sadržaj. Naravno i tražilice same imaju moderiranje sadržaja.

Osim toga, ako pogledate komentare na društvenim mrežama, pogotovo na postove influencera, možete naići na uvrede, govor mržnje, rasizam, ono najgore u ljudima. Napadi preusmjeravanjem promptova, odnosno phishing korištenjem LLM-ova realna su prijetnja, no ništa novo u odnosu na e-mail phishing.

Pa zašto se onda brinuti? Veliki jezični modeli su moćni. Pokazuju ogroman potencijal integracije i automatizacije na različitim područjima, uključujući zvuk, video, pametne uređaje i kuće, ali i robotiku i autonomnu vožnju. Za te sustave sigurnost je kritična i može značiti ljudski život.

Zato je važno o sigurnosti voditi računa sada dok je šteta na razini vrijeđanja susjeda. Treba ugraditi sigurnosne mehanizme ”by design” i onemogućiti sigurnosne propuste u budućnosti.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Veliki intervjui

Big Tech zarađuje skoro 200 milijuna eura od oglašavanja u Hrvatskoj, a ne plaća porez

Uvođenje oporezivanja internetskog oglašavanja moglo bi značajno pomoći domaćim medijima, ali kada će ući u Zakon o medijima?

Umjetna inteligencija

Najvažniji dio Rimčevog Vernea nije robotaksi, već iskustvo?

Ovaj tjedan rebrendirana u Verne, Project 3 Mobility, tvrtka koju su 2019. godine osnovali Mate Rimac, Adriano Mudri te Marko Pejković, danas napokon ima prvo “opipljivo” predstavljanje onog što su razvijali. No, je li robotaksi usluga zbilja najvažnije što mogu ponuditi?

Veliki intervjui

Postaj, Trebam.hr i Meštar.hr – što očekivati od platformi za pronalazak majstora

Usprkos tome što nam nedostaje majstora na raznim područjima, barem imamo dovoljno platformi koje će nas povezati s onima najboljima, ili se barem tome nadamo.

Što ste propustili

Startupi

Inkubator BIRD: otvorene su prijave za novi program

Riječ je o novom programu koji je restrukturiran na nekoliko razina i posebno namijenjen startupima s AI komponentom.

Tvrtke i poslovanje

iOLAP postaje Elixirr Digital

Elixirr Digital bio je "digitalni" odjel poslovanja, a sada uz iOLAP-ove ekspertize postaje "digitalni, podatkovni i tehnološki" odjel poslovanja.

Umjetna inteligencija

FER-ovim brucošima u pomoć pristiže Branka, AI pomoćnica nastala u suradnji s Infobipom

Fakultet elektrotehnike i računarstva Sveučilišta u Zagrebu je u suradnji s prvim hrvatskim jednorogom Infobipom razvio chatbot imena Branka koji će budućim studenticama i studentima omogućiti brži i jednostavniji proces upisa na FER.

Društvene mreže

X nakon pucnjave na Trumpa: “Mi smo javni trg”… Prije odskočna daska za teorije zavjera!

Opet se dogodilo. Opet sam nakon svjetski bitnog događaja otvorila Twitter (nikad X!).

Veliki intervjui

Rakar o slučaju KBC Rebro: “Obavijesti su bile nepotpune, zavaravajuće i u konačnici – netočne”

Krizno komuniciranje hakiranja KBC-a prouzrokovalo je više panike i straha, nego što je uspjelo smiriti hrvatski narod - je li moguće vratiti autoritet i povjerenje?

Veliki intervjui

Izdavači preuzimaju kontrolu: HUDI odabrao Dotmetrics za mjerenje posjećenosti hrvatskih portala

Od 1. siječnja 2025. godine Hrvatska udruga digitalnih izdavača postaje pružatelj mjerenja posjećenosti portala hrvatskih medija u suradnji s Ipsosom, odnosno Dotmetricsom. Tim smo povodom razgovarali s Matejem Lončarićem, predsjednikom HUDI-ja.