
DALL E 2, AI sustav koji kreira vizuale postaje dostupniji. Što to znači za umjetnike i kreativce?
Stručnjak za umjetnu inteligenciju i strojno učenje, entuzijast koji u njemu eksperimentira i dizajnira te ilustratorica komentiraju što donosi DALL E 2, sustav umjetne inteligencije koji kreira nevjerojatno precizne vizuale iz samo par riječi uputa.
Astronaut koji jaše na konju u stilu impresionista. Crveni panda koji uz šalicu kave razmišlja o dobrim, starim vremenima, ulje na platnu. Nedjeljni doručak u stilu Fride Kahlo. Fotografija Michelangelovog Davida sa slušalicama na ušima.
Štogod zamislite, DALL E 2 će zastrašujuće precizno producirati. Ime mu je kombinacija španjolskog umjetnika Salvadora Dalija i animiranog robota WALL E-ja, a DALL E 2 je moćni sustav umjetne inteligencije tvrtke OpenAI koji je u stanju generirati vizual kakavgod vam padne na pamet samo temeljem tekstualne naredbe (takozvanog prompta). I uskoro će ga u beta verziji moći isprobati još milijun korisnika s liste čekanja kojima će OpenAI, kako su najavili, sljedećih tjedana davati pristup.
DALL E-ju i njegovim doista fascinantnim mogućnostima da kreira štogod je čovjek u stanju zamisliti – i to samo temeljem tekstualnih uputa – trenutno pristup ima 100.000 izabranih. Među njima je i Daniel Pikl, marketinški stručnjak koji se u posljednje vrijeme sve više bavi proširenom stvarnošću i metaverseom te njihovom primjenom u marketingu.
Daniel je pristup dobio u lipnju i otad eksperimentira s tim alatom koji na temelju unesenog opisa ili postojeće slike generira četiri potpuno nove:
Nakon toga možete odabrati jednu ili sve slike i na temelju njih raditi nove varijacije i tako dalje, unedogled.
Uz taj opisni dio postoji mogućnost označavanja dijela generirane slike i kad se ponovo radi nova varijacija uključen je samo taj označeni dio. Uz to se može dodatno opisati kako označeni dio želimo izmijeniti.
Dodatak na sve je mogućnost učitavanja bilo koje slike ili fotografije na temelju koje dobijemo četiri varijante, od kojih opet možemo raditi nove.
Uz pomoć DALL E 2 Daniel je vrlo brzo u par sati dizajnirao kolekciju od nekoliko stotina modela tenisica:
Testirao sam kako najbolje opisati izgled slike i došao sam do zanimljivih detalja, npr. upisom termina award winning photo ili 3d render, stižu upravo takvi rezultati.
Niz metoda koje su dovele do velikog napretka u kratkom vremenu
Kreatori, znanstvenici i znatiželjnici koji se poigravaju s DALL E-jem ne mogu nikako znati što on sve zna, kako dovodi u vezu i kako generira konačne vizuale. Mladen Fernežir, Lead Data Scientist i suosnivač tvrtke VelebitAI, navodi niz različitih i kompleksnih metoda koje su dovele do ovako velikog napretka u kratkom vremenu (prva verzija DALL E-ja iz siječnja 2021. još je izbacivala mutne i ne baš precizne slike!):
Prvo je tu GPT 3 model (Generative Pretrained Transoformer 3). Zatim, CLIP model (Contrastive Language Image Pre-training). Ovaj model treniran je na stotinama milijuna parova slika i tekstualnih opisa uz te slike, javno dostupnih na internetu. Cilj je bio dobiti odvojene vektorske reprezentacije slika i vektorske reprezentacije teksta takve da se ti vektori različitog izvora mogu matematički uspoređivati.
Još jedna kocka u slagalici za prvi DALL-E model je takozvani diskretni varijacijski autoenkoder. Općenito se kod autoenkodera slika procesira u visokodimenzionalni vektor pa se onda radi rekonstrukcija u original. Ideja je da taj vektor sažme ono što je bitno za razumijevanje slike.
DALL-E 2 donosi još značajnog napretka te nove mogućnosti. Ovdje su bitan novi element takozvani difuzijski modeli. Kod difuzijskog modela, najprije se slika degradira stalnim dodavanjem šuma, kroz niz iteracija. Slično kao kod autoenkodera, model tad treba naučiti rekonstruirati sliku iz tog šuma.
U Velebit AI-ju se bave izradom vektorskih reprezentacija slike i teksta za, primjerice, bolje pretraživanje ili bolje preporuke po vizualnim i tekstualnim sadržajima. Mladen dodaje da baš rade na razvoju jednog rješenja za stranog klijenta gdje je cilj generirati fotorealističan sadržaj uz različite zadane stilove. DALL-E 2 model, dodaje Mladen, mogao bi biti direktno koristan svima koji se bave razvojem srodnih modela i to – za dodatno generiranje realističnog sadržaja za treniranje modela:
U mnogim primjenama, nedostatak kvalitetnih labeliranih slika predstavlja najvažniji i najteži faktor za uspješno rješavanje problema.
“Kad shvatite kako najbolje napisati opis, dobijete fantastične kreacije”
Daniel je nedavno dobio pristup i sličnoj, nezavisnoj eksperimentalnoj platformi Midjourney koja također stvara vizuale temeljem tekstualnih uputa:
Midjourney radi preko Discorda, upišete /imagine “riječi za opis slike” i generiraju se četiri varijante. Ovdje je također moguće raditi varijaciju jedne ili svih generiranih slika.
Igranje riječima daje fenomenalne rezultate i teško je reći koja je platforma “bolja”. Rekao bih da svaka platforma ima svoje zakonitosti što se tiče opisa i kad shvatite kako najbolje napisati opis, dobijete fantastične kreacije u nekoliko sekundi.
Na društvenim mrežama već su se razvile rasprave o tome koja kombinacija riječi daje kakve rezultate, a nije dugo trebalo ni da se pojave knjižice sa savjetima kojim promptovima od DALL E-ja dobiti baš ono što trebaš. Pa čak i servis koji za 1,99 dolara mjesečno prodaje gotove kombinacije riječi za promptove!
Hoće li u budućnosti dobrog dizajnera ili slikara činiti baratanje kombinacijama pravih riječi, a ne talent ili tehnička vještina? Kad se govori o umjetnoj inteligenciji koja nam uzima poslove, obično se govori kako će strojevi preuzeti one dosadne, mehaničke poslove u kojima su bolji od ljudi, ali kreativne…nikad, jer stroj nikad neće moći biti kreativan. Ili možda hoće?
Što će u budućnosti činiti dobrog dizajnera ili slikara?
Ilustratorica Maja Beus, ne boji se da će DALL E, Midjourney ili neki sličan servis (koji će u bliskoj budućnosti biti dostupni svima za par desetaka dolara mjesečne pretplate) uzeti ionako nestabilan umjetnički kruh. Upravo suprotno, servis ju je oduševio:
Jest pomalo zastrašujuće vidjeti što sve može i to iz nekoliko riječi teksta, ali meni je to sve nevjerojatno fascinantno i uzbudljivo! Novi mediji i tehnologije u umjetnosti nas uvijek samo obogate, proširuju nam mogućnosti i nastaju sve kreativnija i zanimljivija djela. Svrha umjetnosti ionako nije krajnji rezultat, nego proces.
Što ćemo s dizajnerima ili fotografima, primjerice, kojima je posao kreirati razne predmete, ambalažu ili vizuale za vrlo konkretnu namjenu i prema detaljnim uputama? Njih klijenti ne pitaju za proces, samo za rezultat! Daniel predviđa da ćemo uskoro, umjesto da za svoju web stranicu kupimo stock fotografiju, detaljnim opisom kreirati vlastitu, jedinstvenu sliku.
Maja kaže da će dio poslova sigurno nestati, ali da to nije nužno loše:
Ja sam se već prijavila za isprobati betu! Hoće li AI zamijeniti umjetnike nije uopće bitno. Vještina, ono što možeš rukom, nije presudno za umjetnika. Kad je fotografija postala masovno dostupna, nije više bilo presudno da netko zna slikati da bi mogao raditi portrete. Je li slikarstvo nestalo? Nije, nego je krenulo u raznim kreativnim smjerovima poput impresionizma, nadrealizma, apstrakcije…Možda i ovo razvije neke nove pravce!
Nju zato više zanimaju odgovori na neka druga pitanja, poput autorstva i autorskih prava na djela koje je generirala umjetna inteligencija:
Tko je umjetnik u tom slučaju, onaj tko smišlja prompt ili onaj, odnosno ono što je generiralo neki vizual? A autori svih onih djela na kojima je umjetna inteligencija učila? Bez svakog od njih djela ne bi bilo.
Mladen navodi alate inspirirane DALL E-jem koji su već razvijeni, a na tragu su interaktivne obrade slike ili korištenja umjetne inteligencije kao inspiracije:
DALL-E Flow koristi interaktivni proces gdje se dio sadržaja generira automatski, a zatim profinjuje po izboru čovjeka. Još jedan primjer je PyTTI-Tools koji koristi CLIP model: čovjek profinjuje tekstualne opise, a generira se slika koja ih sve više prati.
Za očekivati je da ćemo vidjeti sve više i više raznih rješenja koja će još više olakšati primjenu ove napredne tehnologije. Slijedi nam eksplozija novih oblika umjetničkog izražaja.
Human vs machine


Kad sam saznala da se u DALL E 2 može učitati i postojeće djelo te dobiti 4 varijacije na to djelo, morala sam Danielu poslati jednu Majinu ilustraciju da testiramo koliko vjerno umjetna inteligencija može pogoditi nečiji stil te je li DALL E 2 bolji ili lošiji ilustrator od nje. Maju je jako zabavilo proučiti četiri dobivene ilustracije:
Ovo kao da je rad talentiranog amatera. Vidi se da ima talenta i potencijala, ali treba još puno raditi na anatomiji!
A učenje DALL E-ju sigurno nije problem!
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.