DALL E 2, AI sustav koji kreira vizuale postaje dostupniji. Što to znači za umjetnike i kreativce?

DALL E 2, AI sustav koji kreira vizuale postaje dostupniji. Što to znači za umjetnike i kreativce?

Stručnjak za umjetnu inteligenciju i strojno učenje, entuzijast koji u njemu eksperimentira i dizajnira te ilustratorica komentiraju što donosi DALL E 2, sustav umjetne inteligencije koji kreira nevjerojatno precizne vizuale iz samo par riječi uputa.

Astronaut koji jaše na konju u stilu impresionista. Crveni panda koji uz šalicu kave razmišlja o dobrim, starim vremenima, ulje na platnu. Nedjeljni doručak u stilu Fride Kahlo. Fotografija Michelangelovog Davida sa slušalicama na ušima.

Štogod zamislite, DALL E 2 će zastrašujuće precizno producirati. Ime mu je kombinacija španjolskog umjetnika Salvadora Dalija i animiranog robota WALL E-ja, a DALL E 2 je moćni sustav umjetne inteligencije tvrtke OpenAI koji je u stanju generirati vizual kakavgod vam padne na pamet samo temeljem tekstualne naredbe (takozvanog prompta). I uskoro će ga u beta verziji moći isprobati još milijun korisnika s liste čekanja kojima će OpenAI, kako su najavili, sljedećih tjedana davati pristup.

Molimo da prihvatite sve kolačiće kako biste mogli vidjeti ovaj sadržaj

DALL E-ju i njegovim doista fascinantnim mogućnostima da kreira štogod je čovjek u stanju zamisliti – i to samo temeljem tekstualnih uputa – trenutno pristup ima 100.000 izabranih. Među njima je i Daniel Pikl, marketinški stručnjak koji se u posljednje vrijeme sve više bavi proširenom stvarnošću i metaverseom te njihovom primjenom u marketingu.

Daniel je pristup dobio u lipnju i otad eksperimentira s tim alatom koji na temelju unesenog opisa ili postojeće slike generira četiri potpuno nove:

Nakon toga možete odabrati jednu ili sve slike i na temelju njih raditi nove varijacije i tako dalje, unedogled.

Uz taj opisni dio postoji mogućnost označavanja dijela generirane slike i kad se ponovo radi nova varijacija uključen je samo taj označeni dio. Uz to se može dodatno opisati kako označeni dio želimo izmijeniti.

Dodatak na sve je mogućnost učitavanja bilo koje slike ili fotografije na temelju koje dobijemo četiri varijante, od kojih opet možemo raditi nove.

Uz pomoć DALL E 2 Daniel je vrlo brzo u par sati dizajnirao kolekciju od nekoliko stotina modela tenisica:  

Testirao sam kako najbolje opisati izgled slike i došao sam do zanimljivih detalja, npr. upisom termina award winning photo ili 3d render, stižu upravo takvi rezultati.

Niz metoda koje su dovele do velikog napretka u kratkom vremenu

Kreatori, znanstvenici i znatiželjnici koji se poigravaju s DALL E-jem ne mogu nikako znati što on sve zna, kako dovodi u vezu i kako generira konačne vizuale. Mladen Fernežir, Lead Data Scientist i suosnivač tvrtke VelebitAI, navodi niz različitih i kompleksnih metoda koje su dovele do ovako velikog napretka u kratkom vremenu (prva verzija DALL E-ja iz siječnja 2021. još je izbacivala mutne i ne baš precizne slike!):

Prvo je tu GPT 3 model (Generative Pretrained Transoformer 3). Zatim, CLIP model (Contrastive Language Image Pre-training). Ovaj model treniran je na stotinama milijuna parova slika i tekstualnih opisa uz te slike, javno dostupnih na internetu. Cilj je bio dobiti odvojene vektorske reprezentacije slika i vektorske reprezentacije teksta takve da se ti vektori različitog izvora mogu matematički uspoređivati.

Još jedna kocka u slagalici za prvi DALL-E model je takozvani diskretni varijacijski autoenkoder. Općenito se kod autoenkodera slika procesira u visokodimenzionalni vektor pa se onda radi rekonstrukcija u original. Ideja je da taj vektor sažme ono što je bitno za razumijevanje slike.

DALL-E 2 donosi još značajnog napretka te nove mogućnosti. Ovdje su bitan novi element takozvani difuzijski modeli. Kod difuzijskog modela, najprije se slika degradira stalnim dodavanjem šuma, kroz niz iteracija. Slično kao kod autoenkodera, model tad treba naučiti rekonstruirati sliku iz tog šuma.

U Velebit AI-ju se bave izradom vektorskih reprezentacija slike i teksta za, primjerice, bolje pretraživanje ili bolje preporuke po vizualnim i tekstualnim sadržajima. Mladen dodaje da baš rade na razvoju jednog rješenja za stranog klijenta gdje je cilj generirati fotorealističan sadržaj uz različite zadane stilove. DALL-E 2 model, dodaje Mladen, mogao bi biti direktno koristan svima koji se bave razvojem srodnih modela i to –  za dodatno generiranje realističnog sadržaja za treniranje modela:

U mnogim primjenama, nedostatak kvalitetnih labeliranih slika predstavlja najvažniji i najteži faktor za uspješno rješavanje problema.

“Kad shvatite kako najbolje napisati opis, dobijete fantastične kreacije”

Daniel je nedavno dobio pristup i sličnoj, nezavisnoj eksperimentalnoj platformi Midjourney koja također stvara vizuale temeljem tekstualnih uputa:

Midjourney radi preko Discorda, upišete /imagine “riječi za opis slike” i generiraju se četiri varijante. Ovdje je također moguće raditi varijaciju jedne ili svih generiranih slika.

Igranje riječima daje fenomenalne rezultate i teško je reći koja je platforma “bolja”. Rekao bih da svaka platforma ima svoje zakonitosti što se tiče opisa i kad shvatite kako najbolje napisati opis, dobijete fantastične kreacije u nekoliko sekundi.

Molimo da prihvatite sve kolačiće kako biste mogli vidjeti ovaj sadržaj

Na društvenim mrežama već su se razvile rasprave o tome koja kombinacija riječi daje kakve rezultate, a nije dugo trebalo ni da se pojave knjižice sa savjetima kojim promptovima od DALL E-ja dobiti baš ono što trebaš. Pa čak i servis koji za 1,99 dolara mjesečno prodaje gotove kombinacije riječi za promptove!

Hoće li u budućnosti dobrog dizajnera ili slikara činiti baratanje kombinacijama pravih riječi, a ne talent ili tehnička vještina? Kad se govori o umjetnoj inteligenciji koja nam uzima poslove, obično se govori kako će strojevi preuzeti one dosadne, mehaničke poslove u kojima su bolji od ljudi, ali kreativne…nikad, jer stroj nikad neće moći biti kreativan. Ili možda hoće?

Što će u budućnosti činiti dobrog dizajnera ili slikara?

Ilustratorica Maja Beus, ne boji se da će DALL E, Midjourney ili neki sličan servis (koji će u bliskoj budućnosti biti dostupni svima za par desetaka dolara mjesečne pretplate) uzeti ionako nestabilan umjetnički kruh. Upravo suprotno, servis ju je oduševio:

Jest pomalo zastrašujuće vidjeti što sve može i to iz nekoliko riječi teksta, ali meni je to sve nevjerojatno fascinantno i uzbudljivo! Novi mediji i tehnologije u umjetnosti nas uvijek samo obogate, proširuju nam mogućnosti i nastaju sve kreativnija i zanimljivija djela. Svrha umjetnosti ionako nije krajnji rezultat, nego proces.

Što ćemo s dizajnerima ili fotografima, primjerice, kojima je posao kreirati razne predmete, ambalažu ili vizuale za vrlo konkretnu namjenu i prema detaljnim uputama? Njih klijenti ne pitaju za proces, samo za rezultat! Daniel predviđa da ćemo uskoro, umjesto da za svoju web stranicu kupimo stock fotografiju, detaljnim opisom kreirati vlastitu, jedinstvenu sliku.

Maja kaže da će dio poslova sigurno nestati, ali da to nije nužno loše:

Ja sam se već prijavila za isprobati betu! Hoće li AI zamijeniti umjetnike nije uopće bitno. Vještina, ono što možeš rukom, nije presudno za umjetnika. Kad je fotografija postala masovno dostupna, nije više bilo presudno da netko zna slikati da bi mogao raditi portrete. Je li slikarstvo nestalo? Nije, nego je krenulo u raznim kreativnim smjerovima poput impresionizma, nadrealizma, apstrakcije…Možda i ovo razvije neke nove pravce!

 

Molimo da prihvatite sve kolačiće kako biste mogli vidjeti ovaj sadržaj

Nju zato više zanimaju odgovori na neka druga pitanja, poput autorstva i autorskih prava na djela koje je generirala umjetna inteligencija:

Tko je umjetnik u tom slučaju, onaj tko smišlja prompt ili onaj, odnosno ono što je generiralo neki vizual? A autori svih onih djela na kojima je umjetna inteligencija učila? Bez svakog od njih djela ne bi bilo.

Mladen navodi alate inspirirane DALL E-jem koji su već razvijeni, a na tragu su interaktivne obrade slike ili korištenja umjetne inteligencije kao inspiracije:

DALL-E Flow koristi interaktivni proces gdje se dio sadržaja generira automatski, a zatim profinjuje po izboru čovjeka. Još jedan primjer je PyTTI-Tools koji koristi CLIP model: čovjek profinjuje tekstualne opise, a generira se slika koja ih sve više prati.

Za očekivati je da ćemo vidjeti sve više i više raznih rješenja koja će još više olakšati primjenu ove napredne tehnologije. Slijedi nam eksplozija novih oblika umjetničkog izražaja.

Human vs machine

Lijevo: Originalna ilustracija Maje Beus, desno: ilustracija koju je generirao DALL E 2
Ilustracije koje je generirao DALL E 2

Kad sam saznala da se u DALL E 2 može učitati i postojeće djelo te dobiti 4 varijacije na to djelo, morala sam Danielu poslati jednu Majinu ilustraciju da testiramo koliko vjerno umjetna inteligencija može pogoditi nečiji stil te je li DALL E 2 bolji ili lošiji ilustrator od nje. Maju je jako zabavilo proučiti četiri dobivene ilustracije:

Ovo kao da je rad talentiranog amatera. Vidi se da ima talenta i potencijala, ali treba još puno raditi na anatomiji!

A učenje DALL E-ju sigurno nije problem!

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Vodič

Morate podnijeti zahtjev za novu osobnu iskaznicu? Evo kako izbjeći gužvu na šalteru

Završetkom pandemije došao je službeni kraj maskama, ali i mnogim identifikacijskim dokumentima pa tako i osobnim iskaznicama bez kojih ne možete boraviti u Hrvatskoj. Ovo znači samo jedno... ogromni redovi na šalterima.

Web 3

Belma Gutlić: “Fokus s cijena kriptovaluta treba prebaciti na tehnologiju koja kriptovalute omogućava”

Danas se možemo pohvaliti da na našoj maloj sceni ne nedostaje konferencija vezanih uz blockchain i kriptovalute. Ipak, postoji jedan krovni naziv kojem se nitko dosad nije posvetio na jednak način, a koji možda zaslužuje i najviše pažnje.

Izvještaj

Tim McKeoun: “Ako želimo da se developeri razvijaju, moramo se pomiriti da će nekad biti manje produktivni”

"Developer Advocate" može postati svatko, ali uspjeh u tome će pronaći mali broj ljudi. Savjete kako općenito postati bolja podrška developerima, na ovogodišnjem QED-u podijelio je IBM-ov Tim McKeoun.

Što ste propustili

Prikaz

Upoznajte Arbelle! Beauty brend kojeg krasi svjetsko rješenje za virtualno isprobavanje šminke

Švedsko-hrvatska IT tvrtka Visage Technologies od osnutka radi na cutting edge AI tehnologiji za prepoznavanje i praćenje pokreta ljudskog lica. Nakon niza uspješnih implementacija u kozmetičkoj industriji, svoj makeupISDK softverski paket oblikovali su u još svestraniji beauty brend Arbelle.

Sponzorirano

Može li se Hrvatska uključiti u razvoj svemirske tehnologije koja na uloženo vraća 7x više

Zašto su cube sateliti toliko korisni, koliko će oni promijeniti telekomunikacijsku industriju i može li se Hrvatska s njima ukrcati na brzi vlak svemirske tehnologije, neka su od glavnih pitanja s HAKOM-ove konferencije.

Sponzorirano

Notcheva 6. generacija Devcademyja radit će na projektima za satelitsku kockicu – CroCube!

Otvorene su prijave za Notchevu akademiju na kojoj će se polaznici, osim satelitske teme moći usmjeriti na Spring Boot, React, .NET i Go programiranje, upoznati sa scrumom i agilnim frameworkom, UX/UI, DevOps, Clean code te drugim praksama i alatima koji su standardni u IT-ju.

Netokracija Podcast

John Romero o životu nakon Dooma – i kako klince naučiti raditi igre

John Romero je jedan od kreatora legendarne igre Doom, kao i cijelog niza drugih igara. Ususret izlasku njegove autobiografije, dobili smo priliku pitati ga kako vidi svoju karijeru, ali i razvoj industrije razvoja igara.

Sponzorirano

Studenti RIT Croatia uče se na zadacima koje pripremaju Rimac Technology, INA, Async Labs… 

Domaće obrazovne institucije često se fokusiraju na teoriju, dok praksa ostaje na poslodavcima. RIT Croatia to mijenja svojim primjerom.

Tvrtke i poslovanje

Potvrđeno: Google preuzeo hrvatski Photomath

Hrvatska aplikacija Photomath postaja je i službeno dio Googleovog portfelja. Tehnološki gigant godišnje akvizira desetak tvrtki, a ove je godine u akvizicijski plan ušao upravo hrvatski Photomath.