Današnji "AI" razumije tekst, Matko u Google DeepMindu radi na modelima koji će razumjeti stvarni svijet

Današnji “AI” razumije tekst, Matko u Google DeepMindu radi na modelima koji će razumjeti stvarni svijet

Akademija ga je odvela na nekoliko strana Europe, od Portugala do Londona, a industrija i na tri pripravništva. Upoznajte Matka Bošnjaka iz Google DeepMinda s kojim smo preroštali razna pitanja vezana uz njegovu znanstvenu karijeru, istraživanja i trenutnu AI (s)trku.

Nikad AI2Future nije bio iščekivaniji, čini mi se. Tim više jer na repertoaru ove godine imaju vrhunske stručnjake. Jedan od vodećih predavača ovogodišnjeg izdanja je Matko Bošnjak, viši istraživački znanstvenik u Google DeepMindu, istraživačkom laboratoriju koji je iznjedrio neke od najpoznatijih (AI) projekata današnjice poput AlphaFolda.

Tijekom godina, Matko je značajno doprinio AI području istražujući grafičke neuralne mreže, algoritmičke priore, neuro-simboličko računanje i obradu prirodnog jezika. Matko je sad već skoro 5 godina u Google DeepMindu gdje je trenutno fokusiran na istraživanje reprezentacijskog i konceptualnog učenja te razumijevanja okruženja u vision-language modelima (VLM).

Ususret AI2Future konferenciji razgovarali smo i o VLM-ovima, LLM-ovima, njegovim novim i starim istraživačkim naporima i aspiracijama, ali i o trenutnoj AI situaciji u svijetu.

U znanosti nema direktno i brzo

Otkako je iz znatiželje godinu dana prije reda upisao kolegij Neuronske mreže koje je držao prof. Lončarić pa zatim i Strojno učenje kod prof. Dalbelo Bašić (kod koje je i diplomirao na kraju), Matko je pomalo, ali sigurno ulazio u svijet umjetne inteligencije. Ideja izrade sustava koji sam može naučiti nešto korisno iz podataka, umjesto da ga se mukotrpno ručno programira, mu je bila fascinantna, kaže.

Nakon toga sve je slijedilo nekako organski – htio sam znati više i više o samim modelima kao i njihovoj primjeni pa sam odabirao znanstvena zaposlenja, gdje sam sve to mogao i detaljnije izučiti na konkretnim problemima.

Po završetku diplome na FER-u, odmah je počeo raditi na Institutu Ruđer Bošković kao suradnik na EU projektima, primjenjujući strojno učenje u različitim domenama. Za vrijeme rada na Ruđeru upisao je i doktorat na FER-u. No nakon par godina rada, upoznajući znanstvenike i njihov rad van Hrvatske, kaže kako je sve više htio iskusiti kako se radi znanost vani.

Prijavio sam se na nekoliko pozicija od kojih sam odabrao posao znanstvenog asistenta na projektu u Portu gdje sam dodatno “izbrusio zanat” i prvi puta okusio kako je to raditi vani… i svidjelo mi se. Do te mjere da, unatoč tome što su mi ponudili dvije stipendije da ostanem tamo raditi doktorat, kao sljedeće sam htio vidjeti kako se znanost radi u samom svjetskom vrhu.

Godinu dana sam samostalno radio na znanstvenim radovima, poglavljima u knjigama i prijavama na doktorate da bih od ponuđenih pozicija odabrao doktorat na University College Londonu.

Ono što zapadnim institucijama pomaže u privlačenju financiranja za projekte su bolja umreženost i lakša suradnja, što zauzvrat donosi više radova koji su onda temelj za prijave za financiranje.

S obzirom na to da je prošao različite akademsko-znanstvene institucije – od Zagreba, Porta do Londona, zanimalo me kako bi usporedio okruženje i mogućnosti koje nude. Matko daje iskren, i očekivan odgovor: što se ide zapadnije, to je više mogućnosti – iako ima iznimki, napominje.

No summa summarum, bez obzira na detalje, smatram da bi svi znanstvenici trebali barem u jednom periodu života, čak i samo na nekoliko mjeseci otići raditi van svoje matične države jer znanja i iskustva stečena vani mogu imati izuzetan transformativan utjecan na rad samih znanstvenika u matičnoj državi (olakšana umreženost i suradnje s kolegama van države, kao i pojačan potencijal privlačenja fundinga preko iste umreženosti) pa i rad njihovih kolega jer se naučeni obrasci koji vode boljoj znanosti lakše šire jer jednostavno donose bolje rezultate.

Nastavno na to, ne čudi što velik broj doktoranada koristi priliku da odu na studijski boravak ili pripravništvo u drugom labu ili industriji, Matko je za vrijeme doktorata odradio čak 3 pripravništva: u Microsoft Research (MSR) u Redmondu, MSR u Cambridgeu i Google DeepMindu.

Nekako gledajući ovaj put, nije direktan, niti je kratak, a u pozadini svega stajalo je još više prilika koje su me lako mogle odvesti negdje drugdje… no moram priznati da je bilo, a i dalje je strahovito zabavno 🙂

Pripravništva: Google DeepMind vs. Microsoft Research

Kad su u pitanju pripravništva (i zabava), Matko se prisjetio i onih benefita “niže razine” poput toga da je Microsoft imao bogatiji zabavni program i više organiziranih druženja za interne (primjerice, poput partyja za koji su iznajmili cijeli jedan park u Seattleu, doveli Maroon 5 i na kraju tuluma svakom internu dali tablet), dok je Google DeepMind imao besplatnu hranu, teretanu, prostore za odmor, kao i masaže.

No, Matko naglašava kako su to krasne stvari koje su na kraju nebitne za internship koliko je bitno s kime i što radite, kao i s čime to radite.

Na toj, bitnijoj razini, obje tvrtke zapošljavaju fascinantno talentirane znanstvenike, kao što i privlače fantastično sposobne interne. U objema tvrtkama postoji dovoljno slobode da radite što želite (tu je možda Google DeepMind malo više u prednosti doduše). Google DeepMind je uspio privući znatno veću ekspertizu u pojedinim područjima strojnog učenja pa su time i mogućnosti s kime se i što može raditi veće.

Još jedna od nezanemarivo bitnih prednosti Google DeepMinda pred Microsoftom, barem tada, je gotovo nestvarno dobra infrastruktura za znanstveno eksperimentiranje koja u Microsoftu nije postojala nego bi svaki tim radio na svom dijelu infrastrukture. Google DeepMind je tu bio u ogromnoj prednosti. Načini rada su se razlikovali, no valja napomenuti da se tvrtke mijenjaju i evoluiraju tijekom vremena tako da ono što su nekoć bile razlike možda više nisu, kao i ono što nisu, možda danas baš jesu.

S osobne strane još moram priznati da mi je internship u Google DeepMindu ostavio apsolutno neizbrisiv trag u srcu jer sam postao otac za vrijeme istog 🙂

“LLM-ovi su tek početak”

Matko u Google DeepMindu danas kao istraživački znanstvenik radi na poboljšanju Vision Language Modela (VLM), modela koji se uče ne samo na tekstualnoj građi, već i slikama. Za razliku od Large Language Modela (LLM) kojima je razmjena s čovjekom isključivo tekstualna, VLM-ovi imaju još informacijski bogatije sučelje od samog teksta jer mogu razumjeti/obrađivati i slike. Matko objašnjava:

Primjena takvih sustava je šira od LLM-ova jer ih možete koristiti za razumijevanje stvarnog svijeta – najbolji primjer za uporabu takvih modela je sustav koji bi omogućio slabovidnim osobama lakše snalaženje u svijetu, kao i ideja osobnog asistenta koji vam može odgovarati na pitanja vezana uz slike svijeta oko vas koje dolaze s vašeg mobitela.

Zašto VLM, dok su svi u LLM-ovima? Baš zato, kaže Matko, LLM-ovi su tek početak. No itekako značajan početak, jer, iako je samo tekst u pitanju takav sustav je već iznimno koristan, pojašnjava:

Fascinantno je zapravo koliko LLM može “naučiti” o samom svijetu i to isključivo iz teksta. Naučiti ovdje stavljam pod navodnike ovdje jer takvi sustavi fascinantno dobro uče statistiku međusobne pojavnosti riječi bez da su ikada na ikoji drugi način, osim te statistike, dotakli svijet.

Kao sljedeća stepenica tu dolaze VLM-ovi koji uz tekst mogu obrađivati i slike. Dodavanjem slika omogućavamo takvom sustavu da više nauči o svijetu oko nas. Na primjer, pojam crvene boje sada više neće biti samo naučen iz teksta kao riječ koja se vezuje uz neke jabuke, krv i određen raspon valnih duljina nego i iz vrijednosti piksela koji dolaze iz kamere; oblik aviona sada više neće biti povezan riječima nego konkretnim oblicima sa slika (tj. mogućim rasporedima piksela na slici) itd.

Takav sustav je sada u stanju povezati podatke iz teksta, podatke iz slika, kao i usklađene podatke tekstova i slika. I valja napomenuti da su takvi sustavi korak do multimodalnih sustava koji mogu učiti i obrađivati podatke iz višestrukih modaliteta: teksta, slike, videa, zvuka, osjetilnih senzora, kao i ljudi.

A ako vas zanima koji su to trenutno najveći izazovi u području VLM-a s kojima se istraživačka zajednica trenutno bori – najbolje bi bilo da dođete poslušati Matkovo predavanje na AI2Future konferenciji 🙂

AI2Future ove će godine tijekom dva dana programa okupiti 50 stranih i domaćih predavača koji će predstaviti brojne uspješne primjene i dostignuća u AI području, ali i raspravljati o izazovima.

Može li baratanje neuronkama postati više nalik programiranju?

Afinitet za otvaranjem i iskušavanjem novih istraživačkih područja i pitanja, Matka vodi još od studentskog života. Informirajući se o njegovom istraživačkom putu, zapela mi je za oko tema njegovog doktorskog rada.

Ako imate veze s AI-om ili informativno pratite područje, nije vam strano da su neuronske mreže crna kutija; što je izvor mnogo briga za istraživače, ali i izazov s kojim se mnogi hvataju u koštac. Kao jedan među takvima, Matko je za doktorat odabrao temu koja bi zainteresirala i mnoge softverske inženjere: kako da rad s neuronskim mrežama postane više nalik programiranju?

Za one koji su manje upućeni: dobro je pitanje za početak zašto bismo to uopće htjeli – odnosno, zašto su trenutni načini rada s neuronskim mrežama tako zeznuti?

Velik broj slobodnih brojeva (parametara) koji međusobno interagiraju putem neke funkcije uparene su s algoritmom koji lagano mijenja vrijednosti tih parametara kako bi čitava ta funkcija radila nešto korisno (npr. raspoznaje objekte ili uči reprezentacije), a sam algoritam mijenja te parametre na temelju primjera koje zadajemo (npr. ovo je slika psa, ovo je slika aviona, ovo je slika stola). Gledajući samo u tu funkciju i te brojeve, apsolutno je nejasno što se tu događa – možemo vidjeti samo što se događa na kraju svega, na izlazu iz mreže.

Matko je u svom doktorskom radu htio progurati malo više programatske strukture u te crne kutije, strukture poput onih koje omogućavaju izvršavanje petlji, kondicionalnih naredbi i dodjeljivanje vrijednosti varijablama.

(Htio sam) poigrati se kombinacijom programiranja i neuronskih mreža koje su u načelu dva potpuno različita svijeta – u programiranju sve je diskretno, sve je da ili ne. Ako pridijelite vrijednost 5 varijabli X, to je to, određenu memorijsku lokaciju ste nazvali X i tamo ste spremili vrijednost 5, ništa više ni ništa manje od toga. Neuronske mreže su drugačije, kod njih je sve ta interakcija brojeva gdje je sve povezano, sve potencijalne varijable i sve potencijalne vrijednosti.

No istražujući tu temu, došao je do zaključka da je to izuzetno težak problem sa zapravo ograničenom primjenom. Funkcionira odlično kada nemamo puno podataka, napominje, ali kada imamo, dodatna struktura je, prema trenutnim saznanjima, zapravo nepotrebna, a možda i kontraproduktivna, zaključuje.

Današnje ogromne neuronske mreže poput LLM-ova koriste minimalne pretpostavke o strukturi (kako je strukturirana ta velika funkcija koja upravlja ogromnim brojem parametara) i sposobne su naučiti tu enormnu količinu parametara efektivno iz jako puno raspoloživih podataka bez potrebe za programatskom strukturom.

Što kaže na trenutnu AI utrku?

“Nakon dvije AI zime (periodi smanjenog interesa za AI zbog hypea koji nije preživio), zapitam se da li nam trenutni hype možda nosi i treću”, upozorava Matko.

No unatoč tome što je javni prostor sada prepun kvaziznanstvenika i kvazistručnjaka koji taj hype dodatno rasplamsavaju, kao i velike količine fundinga privatnih tvrtki, od kojih mnoge neće isporučiti obećano, postoji jedna fundamentalna prednost trenutnog AI istraživanja, a to je da trenutni sustavi funkcioniraju, i to zadivljujuće dobro, u nekim domenama. Zato i možemo vidjeti baš tu ubrzanu utrku više tvrtki koje u stope prate akademske institucije kao i zajednica otvorenog koda koja grabi sve više naprijed.

Tu utrku vidim kao logičnu i zapravo neizbježnu jer svaka tvrtka, institucija pa sada i vlada država želi imati vodeće AI sustave koji će im donijeti neki vid prednosti i na kojima će kapitalizirati neki vid vrijednosti. AI je vrijedna tehnologija koja može poboljšati živote ne samo tisućama već milijardama ljudi i kao takva će plijeniti pozornost mnogima bez obzira na njihove motive i svjetonazore, koji su od strahovite važnosti jer je čovjek i dalje taj koji odlučuje kako se ta tehnologija upotrebljava.

Kad smo kod pozornosti, a time i sigurnosti primjene i upotrebe AI tehnologija, nezaobilazno je i pitanje o regulaciji. Matko doduše na to odgovara drugim pitanjem: koliko se zapravo može regulirati?

Ograničimo li veličinu neuronskih mreža limitom na količinu parametara, Matko navodi kako ćemo potaknuti istraživanja mogućnosti manjih mreža, a potencijalno i višestrukih “društava” manjih mreža. S druge strane, ograničimo li količinu računalne moći, potaknut ćemo razvoj sustava ispod nametnutih limita. Također, pita se Matko, tko nam garantira da će se svi istraživački i tržišni takmaci držati predloženih regulativa? Osim beskompromisne utrke na području privatnog sektora, dodaje kako ga ni nepošteno ponašanje određenih država ne bi iznenadilo.

Da li treba inzistirati na otvorenosti i povećanoj odgovornosti svih institucija koje se bave umjetnom inteligencijom? Apsolutno, odgovornost institucija je velika, i ono na čemu rade bi trebalo otvoreno publicirati! Da li treba održavati otvorene rasprave u društvu koje će okupljati ljude iz svih društvenih tokova? Svakako, AI kao tehnologija će utjecati na sve, i svi bi trebali biti u stanju razmišljati i raspravljati kako će takva tehnologija utjecati na njih. No apsolutno prije svega toga stoji edukacija.

Moramo educirati šire mase da znaju što AI tehnologija zapravo jest, što je u mogućnosti postići, i koja su joj ograničenja, kao i ono što smatram najbitnijim: kakva je uloga čovjeka u toj tehnologiji? Jer tehnologija je i dalje alat koji koristimo za određene namjene, a namjene su ipak najbitnije.

Savršeni fit

Na kraju, s naglaskom na edukaciju i namjenu, vraćamo se na Google DeepMind, zanimala me Matkova insajderska perspektiva – što ga najviše veseli oko trenutnih projekata na kojima se radi i postoje li neke stvari za koje bi volio da šira javnost više zna?

Matko potvrđuje kako je Google DeepMind veoma aktivan na području edukacije o umjetnoj inteligenciji, gdje kroz pojedine projekte pokušavaju educirati srednjoškolce, studente na fakultetima i doktorande, po svim dijelovima svijeta, s naglaskom na područja gdje se u AI edukaciju ulaže manje nego u zapadnom svijetu. Recimo, ljudi ne znaju da Google DeepMind već drugu godinu sponzorira Ljetnu školu znanosti u Požegi koja već godinama kroz svoju ljetnu školu educira polaznike o umjetnoj inteligenciji!

Ono što pak Matka i dan danas fascinira u vezi ovog Googleovog istraživačkog ogranka je širok raspon projekata, dubina istraživanja, potencijal za utjecaj na širi svijet, kao i sama brzina razvoja.

Jedan od razloga zašto mi je fit s tvrtkom fantastičan je upravo to što smo svi svjesni važnosti umjetne inteligencije i danas i u budućnosti, i Google DeepMind aktivno ulaže da čitavo čovječanstvo može profitirati iz tih tehnologija. U svrhu toga, velika važnost se postavlja na publiciranje rezultata i na konferencijama i u časopisima kao i izrade alata otvorenog koda ili alata koje Google daje svojim korisnicima na korištenje.

Uostalom, svaki veći i važniji Google DeepMindov projekt je publiciran i na neki način prezentiran javnosti, zaključuje Matko – od AlphaStar sustava koji igra stratešku igru StarCraft bolje od nekih od najboljih igrača svijeta i AlphaCode sustava koji je bolji od 54% najboljih kompetitivnih programera do WaveNeta koji je drastično poboljšao izgovor ljudskog glasa i AlphaTensor sustava koji može poboljšati postojeće algoritme.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Kolumna

Od Yahooa do ChatGPT-ja: Strategije uspjeha na tražilicama koje vrijede i danas

Neke strategije za pozicioniranje na internetskim tražilicama još funkcioniraju i nakon 10 godina. U ovom povratku u prošlost, prisjećamo se raznih praksi, što se od njih zadržalo, a što ne - te što je novo ušlo u igru...

Tehnologija

Tomislav Tipurić uoči ATD-a: Moramo poraditi na promjeni definicije junior developera

Uoči 18. konferencije Advanced Technology Days porazgovarali smo s osobom zaduženom za program, Tomislavom Tipurićem, o svemu što ne smijete propustiti na samom događaju, a i u svijetu tehnologije posljednjih godina i dana. Naravno, AI je neizostavna tema.

Netokracija Podcast

Ovo je email strategija kojom je Burazin privukao investitore poput direktora Stack Overflowa

U novoj epizodi ulazimo u detalje o: (vjerojatno) najvećoj pre-seed rundi u hrvatski startup; tome kako SAD namjerava kontrolirati AI sustave koji bi mogli napraviti atomsku bombu te zašto osnivača Netokracije Ivana Brezaka Brkana izbacuju iz zagrebačkih kavana?

Što ste propustili

Kolumna

Od Yahooa do ChatGPT-ja: Strategije uspjeha na tražilicama koje vrijede i danas

Neke strategije za pozicioniranje na internetskim tražilicama još funkcioniraju i nakon 10 godina. U ovom povratku u prošlost, prisjećamo se raznih praksi, što se od njih zadržalo, a što ne - te što je novo ušlo u igru...

Tehnologija

Najveća hrvatska luka u Pločama postat će pametna, uz sufinanciranje iz EU od skoro milijun eura

Luka Ploče postat će prva hrvatska pametna luka. Ujedno je ovo jedini projekt iz Hrvatske koji je Europska Komisija odobrila u sklopu fonda 5GSC - od ukupno 14 odobrenih u cijeloj Uniji.

Tvrtke i poslovanje

Bajke u digitalnom svijetu: Pinokio djeci priča o lažnom predstavljanju, a tri praščića o slabim lozinkama

Stotine ljudi podržale su humanitarnu akciju tvrtke Combis i Centra za nestalu i zlostavljanu djecu.

Digitalni mediji

Upoznajte Retriever, platformu FER-ovog TakeLaba koja rudari po 30 domaćih web portala

Retriever zagrebačkog TakeLaba može analizirati milijune članaka objavljenih na hrvatskome u posljednjih 20 godina, a sprema se i na iskorak u regiju. 

Prikaz

Od 1. siječnja država nadzire Wolt, Bolt, Glovo… – što to znači?

Teško je regulirati segment tržišta o kojem nemate konkretnih saznanja, srećom, za tzv. GIG ekonomiju to će se uskoro promijeniti. Više saznajemo u razgovoru s ravnateljom Uprave za rad i zaštitu na radu u Ministarstvu rada, mirovinskoga sustava, obitelji i socijalne skrbi.

Tvrtke i poslovanje

“Infrastruktura kao kod” izazov je s kojim se isplati uhvatiti u koštac, pogotovo za ogromne okoline

Što je sustav veći, to IaC (Infrastructure-as-Code) donosi više prednosti. Kako to izgleda u praksi?