
Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi – na Twitteru, YouTubeu i Redditu!
(Dez)informacije o koronavirusu ne jenjavaju ni godinu dana od početka pandemije, dapače, njihovo širenje na društvenim mrežama samo raste. Kako te poruke utječu na stavove Hrvata? Uskoro će nam više otkriti domaći znanstvenici i stručnjaci metodama iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.
Izvanredna profesorica dr.sc. Ana Meštrović i kolege s Odjela za informatiku Sveučilišta u Rijeci na jesen 2020. počeli su pripremu za značajan projekt.
Prva ideja da se bave analizom komunikacije na društvenim mrežama sinula im je kada je početkom pandemije Hrvatska zaklada za znanost objavila natječaj za financiranje projekata koji se bave istraživanjima vezanim uz COVID-19. Osim područja medicine i biotehnologije, HRZZ je prepoznala kako je važno obuhvatiti i druge aspekte istraživanja, pa su u poziv bila uključena i istraživanja koja se bave društvenim i obrazovnim aspektima pandemije, prisjeća se Ana:
Kako se kolege i ja već dugi niz godina bavimo područjem obrade prirodnog jezika i analizom društvenih mreža, odlučili smo naše znanje usmjeriti na istraživanje i rješavanje problema uzrokovanih infodemijom koja je nastala kao posljedica ove pandemije. Stoga smo prijavili projekt koji se bavi analizom širenja poruka vezanih uz COVID-19 u društvenim medijima pod nazivom „Multilayer Framework for the Information Spreading Characterization in Social Media during the COVID-19 Crisis (InfoCoV)“.
Pa iako vam na engleskom ovo može zvučati i odviše kompleksno, uz Anu ćemo proći kroz neke dijelove InfoCoV projekta kako bi nam bilo jasnije što to znanstvenici trebaju za ovakvo istraživanje i što potencijalno njime mogu saznati.

Twitter, YouTube i Reddit – ali ne i Facebook
U fokusu InfoCoV istraživanja bit će primarno društvena mreža Twitter, ali i YouTube i Reddit, koji iako nemaju veliku količinu objava na hrvatskome jeziku, Ani i kolegama su dijelom zanimljivi zbog usporedbe s drugim istraživanjima. Iako bi s obzirom na učestalost korištenja u Hrvatskoj bilo razumljivo analizirati i Facebook, ova mreža ima vrlo stroge restrikcije što se tiče prikupljanja i analize podataka pa nažalost neće niti uključena u istraživanje. Upravo zato, većina znanstvene zajednice slične analize najčešće provodi s podacima prikupljenih s Twittera, objašnjava Ana.
Za Twitter je dostupno sučelje (Twitter API) koje omogućava dosta jednostavno prikupljanje podataka. Twitter ima određena ograničenja u količini podataka koji se mogu prikupiti u određenom vremenskom okviru, pa prikupljanje može potrajati. Također, postoje pravna ograničenja što se smije javno objaviti kao podatkovni skup na kojem se izvodilo istraživanje. Takav skup smije sadržavati samo ID tweet poruke, ne smije biti objavljen cjeloviti tekst, niti podaci o korisniku koji objavljuje. No to je dovoljno podataka da se istraživanje može provjeriti i eventualno ponoviti.
Pripreme za glavni nastup
InfoCoV istraživanjem planira se što bolje razumjeti širenje informacija putem društvenih medija tijekom pandemijske krize. Stoga je jedna od ideja istraživanja da se tekst koji je objavljen u društvenim medijima prikaže uzimajući u obzir ne samo sadržaj tog teksta, već i elemente društvene mreže koja stvara dio aktivnosti vezanih uz tekst (komentiranje, dijeljenje, lajkanje itd.) te vremenski aspekt svih tih aktivnosti. Formalizam koji objedinjuje značajke teksta temeljem ta tri različita aspekta nazvali su „multilayer framework“ odnosno višeslojni okvir koji u konačnici opisuje širenje informacije na temelju te tri skupine značajki.
Ali, odabir značajki tekstualne poruke ovisi i o zadatku na kojem rade, naglašava Ana, a formalizam je definiran kao neki općeniti okvir te se prilagođava zadatku.
Naprimjer, za detekciju lažnih vijesti jako je važan kontekst i vremenski aspekt širenja tekstualne poruke, dok je za analizu pozitivnih, neutralnih i negativnih stavova važniji sam sadržaj.
Kako to izgleda na kraju?
Prvi primjer već imamo – kako je izgledala 2020. na Twitteru?
Proći će još neko vrijeme dok Ana i kolege prikupe dovoljno podataka i dođu do rezultata za sam InfoCoV projekt. Do tad za referencu o tome kako izgleda jedna slična analiza već imamo primjer. Prošle godine, povezivanjem preko EU projekta “Coperation for Statistics of Network Data Science – COSTNET“, doktorski student s Instituta u Varšavi s riječkim kolegama našao je zajednički interes, a rezultat toga bilo je istraživanje o komunikaciji na društvenim mrežama koja je vezana uz COVID-19 teme – u Poljskoj i Hrvatskoj.

U tom radu objasnili su postupak prikupljanja podataka te analizu pozitivnih, neutralnih i negativnih stavova u porukama na Twitteru vezanim uz COVID-19 u prvom valu pandemije. Iako su to preliminarni rezultati jer za hrvatski jezik još nemaju sve prikupljene podatke, već sada su uspjeli pokazati da postoji sličan obrazac u trendovima poruka na Twitteru za oba jezika, napominje Ana.
Iz podataka se može vidjeti kako se u ožujku dogodio nagli porast broja poruka na Twitteru koje su sadržajno povezane uz pojavu koronavirusa u obje zemlje. Nadalje, pokazali smo da ne postoji statistički značajna korelacija između broja poruka i broja zaraženih na dnevnoj bazi, što je bilo i očekivano.
Ali pokazalo se da postoji korelacija između pozitivnih/negativnih stavova i određenih događaja. Tako su npr. u obje zemlje na početku pandemije bili iskazani pozitivni stavovi u porukama (iako ponekad ironični). Nakon toga dogodio se skok negativnih stavova krajem veljače i početkom ožujka u vrijeme koje je bilo obilježeno otkazivanjem većeg broja javnih događanja, te pozitivan trend sredinom ožujka koji se odnosi ona pružanje podrške i pozive na poštivanje mjera kako bismo se svi što prije izvukli iz pandemije.
Zatim je opet uslijedio velik broj negativnih stavova u porukama objavljenim oko Uskrsa, vjerojatno zbog nemogućnosti zajedničkih obiteljskih druženja, te ponovno pozitivni trendovi u Hrvatskoj na kraju svibnja kada smo imali mali broj zaraženih.
Vide se i negativni trendovi u vrijeme kampanje za parlamentarne izbora u Hrvatskoj. Otprilike u isto vrijeme odvijala se kampanja za predsjedničke izbore u Poljskoj također popraćena negativnim stavovima. Kako je politička kampanja bila popraćena i porukama vezanim uz koronavirus, taj segment komunikacije na društvenim mrežama očitovao se i u našim analizama.

Koliko nas je ozbiljno zahvatila infodemija?
Preliminarna analiza podataka s Twittera pokazala je kako ta mreža zapravo vrlo dobro reflektira realnu situaciju u društvu te je moguće dobiti povratnu informaciju o stavovima građana u odnosu na različite teme, kao što su npr. mjere koje vlada poduzima za sprečavanje širenja koronavirusa, mjere gospodarske pomoći, stavove oko cijepljenja i slično, komentira Ana.
Nedostatak istraživanja društvenih mreža može biti što one obuhvaćaju samo jedan dio populacije, pa informacija koju dobivamo nije potpuna. Međutim te informacije su nam svakako važne jer društveni mediji danas uvelike utječu na stavove građana.
S druge strane, infodemija je postavila i neke nove izazove kad je u pitanju obrada prirodnog jezika, ističe Ana. Produkcija i širenje lažnih vijesti postaje sve organiziranije. Web stranice koje objavljuju takve “nepouzdane vijesti” povećale su svoje interakcije na društvenim mrežama tijekom 2020. Dok smo svi bili u većoj mjeri kod kuće, stvaralo se plodno tlo za učestalo dijeljenje takvih vijesti, a tako je i otkrivanje lažnih vijesti postalo značajno otežano. U istraživanjima je sve teže povući lijepo definirane linije različitosti kako bi se lažne vijesti mogle prije uočiti.
Granica je tanka, ali primjena najnovijih algoritama iz područja umjetne inteligencije i obrade prirodnog jezika uvijek može pomoći u boljem razumijevanju krizne komunikacije, kao što je slučaj u ovim vremenima. Osim toga, pojašnjava Ana, može i dati odgovore na neka pitanja, poput toga kako bolje prilagoditi informiranje za određene, ciljane skupine građana, npr. one koji još nisu dobro informirani o cijepljenju.
U redu, a kad ćemo znati rezultate InfoCoV istraživanja?
Izazovi AI potpomognutih istraživanja
Svako istraživanje zahtijeva podrobnu pripremu, ali kad se u sve umiješa korištenje nekog oblika AI-ja, stvari ipak postanu nešto kompleksnije. Takvoj analizi prethodi priprema podataka, provođenje klasifikacije te evaluacija modela, a sve to oduzima mnogo vremena znanstvenicima i stručnjacima. U procesu pripreme podataka prikupljanje, organizacija i čišćenje podataka mogu oduzeti i do 80% vremena trajanja eksperimenta, objašnjava Ana:
Tekstualni podaci su nestrukturirani, ponekad teško dostupni za preuzimanje. Obično je potrebno organizirati podatke iz različitih izvora i formata u jedinstvenu strukturu pogodnu za analizu, te dodatno ručno označiti podatke ukoliko će se koristiti nadzirani modeli strojnog učenja. U našem slučaju dodatni izazov je i to što podatke vezane uz COVID-19 objave konstantno nadopunjavano najnovijim tekstovima.

Sama statistička analiza može se provesti relativno brzo, kroz nekoliko dana, ističe Ana. No, prije toga, potrebno je isprobati i evaluirati više različitih modela klasifikacije kako bi odabrali najbolji, a to može potrajati, ovisno o zadatku.
Kod analize sentimenta najjednostavniji oblik klasifikacije može se izvoditi primjenom takozvanih „sentiment leksikona“ koji imaju popis pojmova i numeričke oznake koliko je pojam relevantan kao pozitivan ili kao negativan. Pored toga mogu se koristiti i algoritmi nadziranog strojnog učenja koji na temelju prethodno ručno označenih podataka „nauče“ razlikovati pozitivne, neutralne i negativne stavove u tekstovima.
Ana najavljuje da će vrlo brzo imati još zanimljivih, ali preliminarnih rezultata, a konačne rezultate planiraju objaviti do kraja 2021. godine, obzirom na to da projekt službeno traje do siječnja 2022. godine.
“Kad prikupimo velike količine podataka, očekujemo da ćemo najbolje rezultate imati s primjenom dubokog učenja.”
U zadnjih deset godina najveći uspjeh imaju algoritmi koji se temelje na dubokim neuronskim mrežama, kaže Ana. Primjena dubokih neuronskih mreža omogućava novi način reprezentacije teksta tako da se semantika i sintaksa teksta iskažu kao vektor male dimenzionalnosti. A nemala je stvar što već postoje gotovi i javno dostupni skupovi s vektorima riječi, dodaje:
Najviše je takvih skupova za engleski jezik, ali postoje i za hrvatski. Konkretno, mi trenutno koristimo gotove vektore riječi koji su objavljeni u okviru jednog drugog projekta. U tom slučaju ne moramo trošiti vrijeme na učenje reprezentacije teksta nego jednostavno koristimo već naučenu reprezentaciju za ulaz u daljnje algoritme.
Za razliku od mjeseci, zbog ovoga se cijeli postupak programiranja i namještanja hyperparametara može obaviti u nekoliko dana – što znači više vremena za “konkretnije stvari”. Iako kompleksnije metode koje planiraju primijeniti u budućnosti oduzimaju puno više vremena, daju i bolje rezultate.
Sve nas to još jednom upućuje na temu o kojoj smo već pisali – koliko je za razvoj AI rješenja važna suradnja zajednice i otvorenost podataka. Zato, u svrhu širenja iskustava i razmjene znanja, kad InfoCoV dođe do svojih prvih rezultata – više o svemu čitajte na Netokraciji.
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.
Komentari
Milos Todorovic
13. 01. 2021. u 11:33 am
Kad vec dodjoh do teksta koji spominje neuronske mreze, da li mozete da predlozite neku literaturu koja se bavi inteligentnim sistemima a da neko ko nije IT moze da razume deo toga sto cita? Uvek me je zanimalo. Hvala.
Ana Marija Kostanić
13. 01. 2021. u 12:47 pm
Zdravo Milos, hvala na čitanju i praćenju, ako se želite informirati više predlažem sad već diljem Europe poznat, besplatan tečaj Elements of AI koje je pripremilo Sveučilište u Helsinkiju. Trenutno nije dostupno na srpskom, ali jest na hrvatskom i engleskom jeziku. Ne morate imati nikakvo predznanje, a kompleksniji koncepti iz AI područja su lijepo razjašnjeni kroz puno primjera. Evo link na tekst gdje ćete saznati više o tečaju: http://www.netokracija.com/elements-of-ai-tecaj-hrvatska-172693