
InfoCoV: Kako smo obradili i analizirali više od 1.000.000 novinskih članaka, komentara i tweetova?
U želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja tijekom iste formirali, skupina znanstvenika i stručnjaka s riječkog Sveučilišta dala se u ekstenzivno istraživanje online komunikacije na hrvatskim portalima, ali i društvenim mrežama, poput Twittera.
U jesen 2020. imali smo priliku najaviti veliko istraživanje o online komunikaciji tijekom pandemije. Pod vodstvom izvanredne profesorice dr.sc. Ane Meštrović, stručnjaci s Fakulteta informatike i digitalnih tehnologija Sveučilišta u Rijeci počeli su tada pripremati zanimljiv projekt za natječaj Hrvatske zaklade za znanost – u želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja formirali.
Iza njih je više od 18 mjeseci rada, a ususret Ladies of AI Business konferenciji imamo priliku podijeliti najzanimljivije rezultate njihovog istraživanja. 5. svibnja pak od Ane Meštrović saznat ćete sve detalje o izazovima takvog istraživanja te što su kroz proces naučili.
U ovom intervjuu s Anom Meštrović svojim uvidom pridružio se i dr.sc. Slobodan Beliga, postdoktorand na UNIRI te jedan od sudionika na projektu.
Od najpopularnijih portala do neobuzdanih komentatora
Ana i Slobodan s kolegama se već niz godina bave područjem obrade prirodnog jezika i analizom društvenih mreža stoga je istraživanje o komunikaciji tijekom burnog razdoblja koje će ostati zabilježeno u svjetskoj povijesti bilo pa skoro i samorazumljivo. Očekivali su da će pandemija zaokupiti online sferu te da će širenje informacija o istoj uvelike utjecati na opći sentiment društva. Tako je i bilo.
Svoje istraživanje fokusirali su na društvene mreže, članke te komentare na novinskim portalima. Za prikupljanje podataka odabrali su deset najpopularnijih hrvatskih online portala, a paralelno su prikupljali i tekstove s dvadesetak drugih manjih, lokalnih novinskih portala kako bi mogli geografski pokriti cijelu državu, dodaje Slobodan.
Prikupili smo sada već i preko 200.000 članaka s online portala tematski vezanih za COVID-19 te preko 500.000 korisničkih komentara na te članke.

mediji, pa i društvene mreže imaju važnu ulogu u informiranju. Problem je kad se počnu plasirati lažne vijesti, poluprovjerene informacije ili poluistinite informacije.
Ana navodi kako je ekstenzivna analiza članaka s online portala, za prva dva vala pandemije, uključivala NLP analizu iliti obradu prirodnog jezika (modeliranje po temama, NER, ekstrakciju ključnih pojmova, praćenje promjena glavnih pojmova i slično) te statističku analizu u smislu postoji li statistički značajna korelacija između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom.
Sa strane društvenih mreža Ana objašnjava kako im je primarno u fokusu bio Twitter. Putem njega su prikupili javno dostupne podatke o preko 40.000 korisničkih računa registriranih u Hrvatskoj tijekom prva tri vala pandemije. Objave su analizirane u vidu analize sentimenta (negativni i nenegativni stavovi za preko 206.000 tweteova na hrvatskom jeziku), analize teme, promjene tema i sentimenta u vremenu, analize sentimenta za 10 tematskih kategorija itd.).

Dodatno su prikupljali podatke s platformi Reddit i YouTube, ali te podatke još uvijek nisu detaljno analizirali. Ipak, Ana dodaje kratak komentar:
Uspoređivali smo Twitter i Reddit te zaključili da su poruke na Redditu više sarkastične i ironične, a čini se i kao da korisnici zvuče pametnije. Zaključili smo i kako su komentari na online portalima najgori te se uglavnom mogu okarakterizirati govorom mržnje nevezanim uz temu objavljenog novinskog članka.
Što su saznali o online komunikaciji Hrvata za vrijeme padnemije?
I ovo istraživanje potvrdilo je kako se građani sve više okreću društvenim mrežama kad je riječ o informiranju. Nažalost, iz rezultata je također evidentna velika količina negativnih stavova koje građani sami izražavaju online.
Negativni stavovi u tweetovima bili su vezani prvenstveno uz mjere, cijepljenje i općenito stožer. U okviru deset tematskih kategorija koje su identificirali automatskim postupcima, dvije kategorije su se izdvojile po izrazito negativnim stavovima, pojašnjava Ana.
Kao najnegativnija to je jedna manja grupa tweetova (nešto više od 6% cjelokupne količine tweetova) u kojima je iskazan direktan revolt protiv mjera stožera, ali također i revolt protiv građana koji ne poštuju mjere. Druga po redu kategorija s najvećom količinom negativnih stavova jest grupa tweetova koji se odnose na rasprave vezane uz mjere i cijepljenje. To je ujedno i najveća kategorija koji sadrži gotovo 30% svih tweetova.

Kao jedna od kategorija s najmanjom količinom negativnih stavova ističe se kategorija “kako se nositi s pandemijom” koja je bila najviše zastupljena tijekom prvog vala pandemije.
Pozitivni stavovi bili su vezani uz poruke kako se nositi s pandemijom koje su na neki način predstavljale povezivanje građana u borbi protiv pandemije – s porukama popraćenima hashtagovima #ostaniDoma i sl. Takvi tweetovi bili su najviše zastupljeni tijekom prvog vala pandemije s preko 26% u ukupnoj količini tweetova, a onda su se postupno smanjivali do udjela od samo 13% u trećem valu pandemije. Poruke vezane uz edukaciju o pandemiji su također prepoznate kao poruke s ne-negativnom stavovima. Među takvim porukama je bilo i dosta informativnih tweetova koji imaju neutralan sentiment.
Slobodan dodaje kako su na kraju istraživanja primijetili blagu do umjerenu korelaciju između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom. Drugim riječima, nakon što broj zaraženih poraste, broj novinskih objava vezanih za tematiku COVID-19 bi porastao, ali tek za 2 dana.

Svi koji žele dobiti brz i informativan pregled njihovih rezultata moći će se poslužiti web aplikacijom za interaktivnu analizu i vizualizaciju podataka koju je tim pripremio radi bolje preglednosti. Trenutno je dostupna inicijalna verzija koja će biti još dorađivana do ljeta.
Istraživanje koje je doprinjelo i njihovom znanju i znanstvenoj zajednici
Osim aplikacije, ova ambiciozna ekipa s Riječkog sveučilišta objavila je na temelju rezultata ukupno 10 znanstvenih radova, od toga 2 u visoko rangiranim časopisima (JMIR Public Health and Surveillance i Applied Sciences), 2 poglavlja u knjigama i 6 radova u zbornicima s konferencija.
Sudjelovali su i na velikom broju konferencija, skupova, znanstvenih i javnih događaja vezanih uz COVID-19 gdje su prezentirali svoje rezultate, a to će učiniti i na Ladies AI izdanju za sve koje zanimaju detalji oko pripreme, analize i obrade podataka. Ususret tome iskoristili smo priliku da ih pitamo što su sve naučili i koje izazove su imali u pripremi istraživanja.
Slobodan ističe kako u Hrvatskoj imamo i prilično aktivnu zajednicu stručnjaka koja se bavi obradom prirodnog jezika, a koja je uvijek spremna pomoći i podijeliti znanje. Definitivno im je dobro došlo što su se mogli osloniti na dio već postojećih resursa u tom pogledu, dodaje, međutim za svaki specifičan zadatak bilo je potrebno dodatno intervenirati pa su tako brojne algoritme dodatno samostalno razvijali. Te su jezične resurse na kraju i sami podijelili sa širom zajednicom kako bi se mogli koristiti u budućim istraživanjima. Trenutno je na njihovoj stranici dostupno nekoliko korpusa i modela za analizu sentimenta.

Praćenje novinskih objava izazovno je ne samo zbog količine podataka koji se prikupljaju, već i činjenice da se podaci prikupljaju s web stranica koje mogu biti posve različitih struktura, pojašnjava Slobodan. U prvom dijelu istraživanja naučili su puno o tome kako najbolje pristupiti prikupljanju podataka iz različitih online izvora i platformi. Nakon prvih nekoliko faza prikupljanja podataka s Twittera, razvili su i sustav koji omogućava automatsko kontinuirano prikupljanje tweetova na hrvatskom jeziku te su na taj način kreirali jednu veliku bazu podataka i za svoja buduća istraživanja.
Zanimljiv izazov je taj što su komentari čitatelja ponekad pisani u specifičnom žargonu, a ne na standardnome jeziku, koriste puno emotikona, a manje klasičnog teksta, ponekad sadrže samo link, ne i neki drugi sadržaj i sl. Takve je tekstualne podatke potrebno pomno „očistiti“ od nepotrebnih znakova kako bi se oni kasnije mogli analizirati.
Zašto bi projekti trajali vječno kad postoje suradnje?
Znanstveno-istraživački projekti poput InfoCoV-a uglavnom se provode u periodu od najmanje tri ili četiri godine, priča mi Ana. No, zbog specifične situacije i krize bilo je potrebno brzo doći do planiranih rezultata pa su se zato okrenuli industriji. Razvoj dijela jezičnih modela i modela za predikciju širenja twetova stoga je preuzela tvrtka Velebit AI, čija suradnja je riječkim znanstvenicima pomogla InfoCoV realizirati u 18 mjeseci, ali u procesu su i mnogo od njih naučili.
Tvrtka Velebit AI bavi se razvojem rješenja temeljenih na umjetnoj inteligenciji i već su imali puno iskustva s razvojem sličnih modela tako da smo od njih puno naučili, prvenstveno u smislu nekih specifičnih inženjerskih pristupa.
Naprimjer, u zadnjoj fazi projekta radili smo na modelu koji klasificira tweetove prema tome koliko se retweetaju. U tom dijelu zadatka bilo je potrebno naći najbolje rješenje na koji način će se povezivati značajke iz različitih izvora (aspekata) – budući da je jedna od ideja našeg istraživanja bila da se tekstualna poruka, odnosno u ovom slučaju tweet, predstavi kroz niz numeričkih značajki koje proizlaze iz različitih aspekata poruke (sadržaj, lokalne mjere društvene mreže i metapodaci poruke).
Trenutno pišemo znanstveni rad na temelju tog istraživanja, a onda planiramo dalje razvijati cijeli postupak.
Što ih čeka dalje?
Istraživanja u sklopu InfoCoV projekta planiraju proširiti i na nekoliko drugih društvenih mreža, kao što su YouTube i TikTok, dodaje Slobodan.
Analiza širenja videa pokazala se kao važno istraživanje u području krizne komunikacije na društvenim medijima jer se velika količina sadržaja plasira u obliku videa, a onda se to može popratiti analiziranjem tekstova i tagova uz video.
Nadalje, u naša buduća istraživanja želimo uključiti i razvoj postupaka za automatsko otkrivanje širenja lažnih vijesti. Smatramo da je to posebno izazovan zadatak, trenutno vrlo aktualan u kontekstu novonastale krize s ratom u Ukrajini, ali također i dugoročno vrlo važno istraživanje obzirom na količinu dezinformacija na društvenim mrežama.
Više na Ladies of AI Business!
Detalje o tome kako su pripremali ovo istraživanje te što su sve naučili i saznali tijekom procesa Ana Meštrović će prezentirati na Ladies of AI Business konferenciji idući četvrtak, 5. svibnja. Više informacija možete pronaći na službenoj stranici Ladies of AI Business, a cijena ulaznice iznosi simboličnih 50 kuna.
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.