InfoCoV: Kako smo obradili i analizirali više od 1.000.000 novinskih članaka, komentara i tweetova?

InfoCoV: Kako smo obradili i analizirali više od 1.000.000 novinskih članaka, komentara i tweetova?

U želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja tijekom iste formirali, skupina znanstvenika i stručnjaka s riječkog Sveučilišta dala se u ekstenzivno istraživanje online komunikacije na hrvatskim portalima, ali i društvenim mrežama, poput Twittera.

U jesen 2020. imali smo priliku najaviti veliko istraživanje o online komunikaciji tijekom pandemije. Pod vodstvom izvanredne profesorice dr.sc. Ane Meštrović, stručnjaci s Fakulteta informatike i digitalnih tehnologija Sveučilišta u Rijeci počeli su tada pripremati zanimljiv projekt za natječaj Hrvatske zaklade za znanost – u želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja formirali.

Iza njih je više od 18 mjeseci rada, a ususret Ladies of AI Business konferenciji imamo priliku podijeliti najzanimljivije rezultate njihovog istraživanja. 5. svibnja pak od Ane Meštrović saznat ćete sve detalje o izazovima takvog istraživanja te što su kroz proces naučili.

U ovom intervjuu s Anom Meštrović svojim uvidom pridružio se i dr.sc. Slobodan Beliga, postdoktorand na UNIRI te jedan od sudionika na projektu.

Od najpopularnijih portala do neobuzdanih komentatora

Ana i Slobodan s kolegama se već niz godina bave područjem obrade prirodnog jezika i analizom društvenih mreža stoga je istraživanje o komunikaciji tijekom burnog razdoblja koje će ostati zabilježeno u svjetskoj povijesti bilo pa skoro i samorazumljivo. Očekivali su da će pandemija zaokupiti online sferu te da će širenje informacija o istoj uvelike utjecati na opći sentiment društva. Tako je i bilo.

Svoje istraživanje fokusirali su na društvene mreže, članke te komentare na novinskim portalima. Za prikupljanje podataka odabrali su deset najpopularnijih hrvatskih online portala, a paralelno su prikupljali i tekstove s dvadesetak drugih manjih, lokalnih novinskih portala kako bi mogli geografski pokriti cijelu državu, dodaje Slobodan.

Prikupili smo sada već i preko 200.000 članaka s online portala tematski vezanih za COVID-19 te preko 500.000 korisničkih komentara na te članke.

Slobodan Beliga: “…mediji, pa i društvene mreže imaju važnu ulogu u informiranju. Problem je kad se počnu plasirati lažne vijesti, poluprovjerene informacije ili poluistinite informacije.”

mediji, pa i društvene mreže imaju važnu ulogu u informiranju. Problem je kad se počnu plasirati lažne vijesti, poluprovjerene informacije ili poluistinite informacije.

Ana navodi kako je ekstenzivna analiza članaka s online portala, za prva dva vala pandemije, uključivala NLP analizu iliti obradu prirodnog jezika (modeliranje po temama, NER, ekstrakciju ključnih pojmova, praćenje promjena glavnih pojmova i slično) te statističku analizu u smislu postoji li statistički značajna korelacija između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom.

Sa strane društvenih mreža Ana objašnjava kako im je primarno u fokusu bio Twitter. Putem njega su prikupili javno dostupne podatke o preko 40.000 korisničkih računa registriranih u Hrvatskoj tijekom prva tri vala pandemije. Objave su analizirane u vidu analize sentimenta (negativni i nenegativni stavovi za preko 206.000 tweteova na hrvatskom jeziku), analize teme, promjene tema i sentimenta u vremenu, analize sentimenta za 10 tematskih kategorija itd.).

Ana Meštrović: “Nakon prvih nekoliko faza prikupljanja podataka s Twittera, razvili smo sustav koji omogućava automatsko kontinuirano prikupljanje tweetova na hrvatskom jeziku i na taj način kreiramo jednu veliku bazu podataka za naša buduća istraživanja.”

Dodatno su prikupljali podatke s platformi Reddit i YouTube, ali te podatke još uvijek nisu detaljno analizirali. Ipak, Ana dodaje kratak komentar:

Uspoređivali smo Twitter i Reddit te zaključili da su poruke na Redditu više sarkastične i ironične, a čini se i kao da korisnici zvuče pametnije. Zaključili smo i kako su komentari na online portalima najgori te se uglavnom mogu okarakterizirati govorom mržnje nevezanim uz temu objavljenog novinskog članka.

Što su saznali o online komunikaciji Hrvata za vrijeme padnemije?

I ovo istraživanje potvrdilo je kako se građani sve više okreću društvenim mrežama kad je riječ o informiranju. Nažalost, iz rezultata je također evidentna velika količina negativnih stavova koje građani sami izražavaju online.

Negativni stavovi u tweetovima bili su vezani prvenstveno uz mjere, cijepljenje i općenito stožer. U okviru deset tematskih kategorija koje su identificirali automatskim postupcima, dvije kategorije su se izdvojile po izrazito negativnim stavovima, pojašnjava Ana.

Kao najnegativnija to je jedna manja grupa tweetova (nešto više od 6% cjelokupne količine tweetova) u kojima je iskazan direktan revolt protiv mjera stožera, ali također i revolt protiv građana koji ne poštuju mjere. Druga po redu kategorija s najvećom količinom negativnih stavova jest grupa tweetova koji se odnose na rasprave vezane uz mjere i cijepljenje. To je ujedno i najveća kategorija koji sadrži gotovo 30% svih tweetova.

Tijekom 2020. najviše tweetova se odnosilo na temu “kako se nositi s pandemijom”, dok u 2021. već vidimo kako među hrvatskim tviterašima prevladava rasprava oko anti-pandemijskih politika i cijepljenja uz revolt prema onima koji se ne drže mjera. UNIRI, InfoCoV

Kao jedna od kategorija s najmanjom količinom negativnih stavova ističe se kategorija “kako se nositi s pandemijom” koja je bila najviše zastupljena tijekom prvog vala pandemije.

Pozitivni stavovi bili su vezani uz poruke kako se nositi s pandemijom koje su na neki način predstavljale povezivanje građana u borbi protiv pandemije – s porukama popraćenima hashtagovima #ostaniDoma i sl. Takvi tweetovi bili su najviše zastupljeni tijekom prvog vala pandemije s preko 26% u ukupnoj količini tweetova, a onda su se postupno smanjivali do udjela od samo 13% u trećem valu pandemije. Poruke vezane uz edukaciju o pandemiji su također prepoznate kao poruke s ne-negativnom stavovima. Među takvim porukama je bilo i dosta informativnih tweetova koji imaju neutralan sentiment.

Slobodan dodaje kako su na kraju istraživanja primijetili blagu do umjerenu korelaciju između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom. Drugim riječima, nakon što broj zaraženih poraste, broj novinskih objava vezanih za tematiku COVID-19 bi porastao, ali tek za 2 dana.

Tijekom više od godinu i pol dana količina sadržaja o pandemiji na hrvatskim novinskim portalima nije jenjavala. UNIRI, InfoCoV

Svi koji žele dobiti brz i informativan pregled njihovih rezultata moći će se poslužiti web aplikacijom za interaktivnu analizu i vizualizaciju podataka koju je tim pripremio radi bolje preglednosti. Trenutno je dostupna inicijalna verzija koja će biti još dorađivana do ljeta.

Istraživanje koje je doprinjelo i njihovom znanju i znanstvenoj zajednici

Osim aplikacije, ova ambiciozna ekipa s Riječkog sveučilišta objavila je na temelju rezultata ukupno 10 znanstvenih radova, od toga 2 u visoko rangiranim časopisima (JMIR Public Health and Surveillance i Applied Sciences), 2 poglavlja u knjigama i 6 radova u zbornicima s konferencija.

Sudjelovali su i na velikom broju konferencija, skupova, znanstvenih i javnih događaja vezanih uz COVID-19 gdje su prezentirali svoje rezultate, a to će učiniti i na Ladies AI izdanju za sve koje zanimaju detalji oko pripreme, analize i obrade podataka. Ususret tome iskoristili smo priliku da ih pitamo što su sve naučili i koje izazove su imali u pripremi istraživanja.

Slobodan ističe kako u Hrvatskoj imamo i prilično aktivnu zajednicu stručnjaka koja se bavi obradom prirodnog jezika, a koja je uvijek spremna pomoći i podijeliti znanje. Definitivno im je dobro došlo što su se mogli osloniti na dio već postojećih resursa u tom pogledu, dodaje, međutim za svaki specifičan zadatak bilo je potrebno dodatno intervenirati pa su tako brojne algoritme dodatno samostalno razvijali. Te su jezične resurse na kraju i sami podijelili sa širom zajednicom kako bi se mogli koristiti u budućim istraživanjima. Trenutno je na njihovoj stranici dostupno nekoliko korpusa i modela za analizu sentimenta.

Sve tekstualne podatke vezane uz COVID-19 koristili su za treniranje jezičnih modela, a potom su dodatno analizirali kriznu komunikaciju na društvenim mrežama i online portalima. UNIRI, InfoCoV (Graf prikazuje poveznice između vokabulara u prvom i drugom pandemijskom valu)

Praćenje novinskih objava izazovno je ne samo zbog količine podataka koji se prikupljaju, već i činjenice da se podaci prikupljaju s web stranica koje mogu biti posve različitih struktura, pojašnjava Slobodan. U prvom dijelu istraživanja naučili su puno o tome kako najbolje pristupiti prikupljanju podataka iz različitih online izvora i platformi. Nakon prvih nekoliko faza prikupljanja podataka s Twittera, razvili su i sustav koji omogućava automatsko kontinuirano prikupljanje tweetova na hrvatskom jeziku te su na taj način kreirali jednu veliku bazu podataka i za svoja buduća istraživanja.

Zanimljiv izazov je taj što su komentari čitatelja ponekad pisani u specifičnom žargonu, a ne na standardnome jeziku, koriste puno emotikona, a manje klasičnog teksta, ponekad sadrže samo link, ne i neki drugi sadržaj i sl. Takve je tekstualne podatke potrebno pomno „očistiti“ od nepotrebnih znakova kako bi se oni kasnije mogli analizirati.

Zašto bi projekti trajali vječno kad postoje suradnje?

Znanstveno-istraživački projekti poput InfoCoV-a uglavnom se provode u periodu od najmanje tri ili četiri godine, priča mi Ana. No, zbog specifične situacije i krize bilo je potrebno brzo doći do planiranih rezultata pa su se zato okrenuli industriji. Razvoj dijela jezičnih modela i modela za predikciju širenja twetova stoga je preuzela tvrtka Velebit AI, čija suradnja je riječkim znanstvenicima pomogla InfoCoV realizirati u 18 mjeseci, ali u procesu su i mnogo od njih naučili.

Tvrtka Velebit AI bavi se razvojem rješenja temeljenih na umjetnoj inteligenciji i već su imali puno iskustva s razvojem sličnih modela tako da smo od njih puno naučili, prvenstveno u smislu nekih specifičnih inženjerskih pristupa.

Naprimjer, u zadnjoj fazi projekta radili smo na modelu koji klasificira tweetove prema tome koliko se retweetaju. U tom dijelu zadatka bilo je potrebno naći najbolje rješenje na koji način će se povezivati značajke iz različitih izvora (aspekata) – budući da je jedna od ideja našeg istraživanja bila da se tekstualna poruka, odnosno u ovom slučaju tweet, predstavi kroz niz numeričkih značajki koje proizlaze iz različitih aspekata poruke (sadržaj, lokalne mjere društvene mreže i metapodaci poruke).

Trenutno pišemo znanstveni rad na temelju tog istraživanja, a onda planiramo dalje razvijati cijeli postupak.

Što ih čeka dalje?

Istraživanja u sklopu InfoCoV projekta planiraju proširiti i na nekoliko drugih društvenih mreža, kao što su YouTube i TikTok, dodaje Slobodan.

Analiza širenja videa pokazala se kao važno istraživanje u području krizne komunikacije na društvenim medijima jer se velika količina sadržaja plasira u obliku videa, a onda se to može popratiti analiziranjem tekstova i tagova uz video.

Nadalje, u naša buduća istraživanja želimo uključiti i razvoj postupaka za automatsko otkrivanje širenja lažnih vijesti. Smatramo da je to posebno izazovan zadatak, trenutno vrlo aktualan u kontekstu novonastale krize s ratom u Ukrajini, ali također i dugoročno vrlo važno istraživanje obzirom na količinu dezinformacija na društvenim mrežama.

Više na Ladies of AI Business!

Detalje o tome kako su pripremali ovo istraživanje te što su sve naučili i saznali tijekom procesa Ana Meštrović će prezentirati na Ladies of AI Business konferenciji idući četvrtak, 5. svibnja. Više informacija možete pronaći na službenoj stranici Ladies of AI Business, a cijena ulaznice iznosi simboličnih 50 kuna.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Startupi i poslovanje

Startup 101 program BIRD inkubatora obvezna je početnica za sve koji žele ideju pretvoriti u djelo

U organizaciji BIRD inkubatora uskoro kreće edukacijski program Startup 101 koji je osmišljen kako bi prenio osnove svima koji razmišljaju o pokretanju startupa, a nisu sigurni što bi to sve od njih zahtijevalo.

Intervju

Kako je nastao prvi kolektivni ugovor u gaming industriji u Hrvatskoj?

Potpisivanjem prvog kolektivnog ugovora hrvatske gaming industrije, Gamechuck tim je ostvario mirniji san, a prema nekima i "vrli novi svijet".

Tehnologija

Što o praksi agencije FIVE ima reći njezin mentor, a što student?

Zašto se studenti odluče svoje ljeto provesti baš na Boot Campu agencije FIVE, kako se pripremiti za njihovu praksu, što na njoj možete naučiti… saznali smo u razgovoru s developerom i mentorom Ivanom Vargom i bivšim polaznikom Boot Campa odnosno trenutnim zaposlenikom agencije - Branimirom Balogovićem.

Što ste propustili

Tehnologija

Što o praksi agencije FIVE ima reći njezin mentor, a što student?

Zašto se studenti odluče svoje ljeto provesti baš na Boot Campu agencije FIVE, kako se pripremiti za njihovu praksu, što na njoj možete naučiti… saznali smo u razgovoru s developerom i mentorom Ivanom Vargom i bivšim polaznikom Boot Campa odnosno trenutnim zaposlenikom agencije - Branimirom Balogovićem.

Startupi i poslovanje

Nova sezona Grunteka: Prodali su 250 vrtova za obradu “na udaljeno”, planiraju i širenje preko granice

"Isusek, Isusek, kaj mi bu ve Regica rekla!", poznata je izjava Dudeka iz klasika poznatog kao Gruntovčani, a Regica bi definitivno bila iznenađena što više ne bi morala obrađivati svoj grunt, već bi ga prepustila aplikaciji koja je spojila poljoprivredu i IT.

Startupi i poslovanje

CONET Grupa: U Hrvatskoj ne tražimo radnu snagu, nego ravnopravne partnere

Hrvatska podružnica njemačke IT grupacije u 15 mjeseci od osnivanja narasla je na 55 zaposlenika. Tajna uspjeha je u prepoznavanju potencijala svakog od njih, izgradnji dugoročnih odnosa, inovaciji i visokoj razini odgovornosti.

Vodič

Digitalni HR alati: Rastuće globalno tržište osvajaju i hrvatski Jenz, Mealpass, Moontop, Improv3, Appraisly…

Digitalni alati olakšavaju posao HR-ovcima koji u suvremenim organizacijama zaposlenike trebaju privući, izmjeriti i održavati njihovo zadovoljstvo, pohvaliti i usmjeriti te nagraditi.

Startupi i poslovanje

Reorganizirali su ured po aktivnostima zaposlenika i uštedjeli stotine tisuće eura

Novi načini rada utjecali su na to kako koristimo postojeće uredske prostore, a sad je vrijeme da mi utječemo na prostor kako bismo ga prilagodili našim novim navikama i aktivnostima. Vođena tom idejom, IT tvrtka Amplexor iskoristila je priliku napraviti reorganizaciju ureda. Donosimo detaljan uvid kako su ga "iskrojili" po aktivnostima svih timova.

Startupi i poslovanje

“Bez open-sourcea digitalno društvo ne bi moglo funkcionirati, startupi nastajati, developeri razvijati…”

Ususret konferenciji "Dani otvorenih računarskih sustava" razgovaramo s organizatorima, ali i predavačima - dvojicom stručnjaka iz Italije i Nizozemske. Uz njih saznajemo više o tome koliko je otvoreni kod utkan u strukturu današnjih IT rješenja, kako je pomagao nekada te kako pomaže danas mnogim tvrtkama, institucijama i pojedincima.