InfoCoV: Kako smo obradili i analizirali više od 1.000.000 novinskih članaka, komentara i tweetova?

Infobip ❤️ Netokracijašto akvizicija znači za vas - i nas?

InfoCoV: Kako smo obradili i analizirali više od 1.000.000 novinskih članaka, komentara i tweetova?

U želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja tijekom iste formirali, skupina znanstvenika i stručnjaka s riječkog Sveučilišta dala se u ekstenzivno istraživanje online komunikacije na hrvatskim portalima, ali i društvenim mrežama, poput Twittera.

U jesen 2020. imali smo priliku najaviti veliko istraživanje o online komunikaciji tijekom pandemije. Pod vodstvom izvanredne profesorice dr.sc. Ane Meštrović, stručnjaci s Fakulteta informatike i digitalnih tehnologija Sveučilišta u Rijeci počeli su tada pripremati zanimljiv projekt za natječaj Hrvatske zaklade za znanost – u želji da saznaju kako su se Hrvati o pandemiji informirali i kakva su mišljenja formirali.

Iza njih je više od 18 mjeseci rada, a ususret Ladies of AI Business konferenciji imamo priliku podijeliti najzanimljivije rezultate njihovog istraživanja. 5. svibnja pak od Ane Meštrović saznat ćete sve detalje o izazovima takvog istraživanja te što su kroz proces naučili.

U ovom intervjuu s Anom Meštrović svojim uvidom pridružio se i dr.sc. Slobodan Beliga, postdoktorand na UNIRI te jedan od sudionika na projektu.

Od najpopularnijih portala do neobuzdanih komentatora

Ana i Slobodan s kolegama se već niz godina bave područjem obrade prirodnog jezika i analizom društvenih mreža stoga je istraživanje o komunikaciji tijekom burnog razdoblja koje će ostati zabilježeno u svjetskoj povijesti bilo pa skoro i samorazumljivo. Očekivali su da će pandemija zaokupiti online sferu te da će širenje informacija o istoj uvelike utjecati na opći sentiment društva. Tako je i bilo.

Svoje istraživanje fokusirali su na društvene mreže, članke te komentare na novinskim portalima. Za prikupljanje podataka odabrali su deset najpopularnijih hrvatskih online portala, a paralelno su prikupljali i tekstove s dvadesetak drugih manjih, lokalnih novinskih portala kako bi mogli geografski pokriti cijelu državu, dodaje Slobodan.

Prikupili smo sada već i preko 200.000 članaka s online portala tematski vezanih za COVID-19 te preko 500.000 korisničkih komentara na te članke.

Slobodan Beliga: “…mediji, pa i društvene mreže imaju važnu ulogu u informiranju. Problem je kad se počnu plasirati lažne vijesti, poluprovjerene informacije ili poluistinite informacije.”

mediji, pa i društvene mreže imaju važnu ulogu u informiranju. Problem je kad se počnu plasirati lažne vijesti, poluprovjerene informacije ili poluistinite informacije.

Ana navodi kako je ekstenzivna analiza članaka s online portala, za prva dva vala pandemije, uključivala NLP analizu iliti obradu prirodnog jezika (modeliranje po temama, NER, ekstrakciju ključnih pojmova, praćenje promjena glavnih pojmova i slično) te statističku analizu u smislu postoji li statistički značajna korelacija između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom.

Sa strane društvenih mreža Ana objašnjava kako im je primarno u fokusu bio Twitter. Putem njega su prikupili javno dostupne podatke o preko 40.000 korisničkih računa registriranih u Hrvatskoj tijekom prva tri vala pandemije. Objave su analizirane u vidu analize sentimenta (negativni i nenegativni stavovi za preko 206.000 tweteova na hrvatskom jeziku), analize teme, promjene tema i sentimenta u vremenu, analize sentimenta za 10 tematskih kategorija itd.).

Ana Meštrović: “Nakon prvih nekoliko faza prikupljanja podataka s Twittera, razvili smo sustav koji omogućava automatsko kontinuirano prikupljanje tweetova na hrvatskom jeziku i na taj način kreiramo jednu veliku bazu podataka za naša buduća istraživanja.”

Dodatno su prikupljali podatke s platformi Reddit i YouTube, ali te podatke još uvijek nisu detaljno analizirali. Ipak, Ana dodaje kratak komentar:

Uspoređivali smo Twitter i Reddit te zaključili da su poruke na Redditu više sarkastične i ironične, a čini se i kao da korisnici zvuče pametnije. Zaključili smo i kako su komentari na online portalima najgori te se uglavnom mogu okarakterizirati govorom mržnje nevezanim uz temu objavljenog novinskog članka.

Što su saznali o online komunikaciji Hrvata za vrijeme padnemije?

I ovo istraživanje potvrdilo je kako se građani sve više okreću društvenim mrežama kad je riječ o informiranju. Nažalost, iz rezultata je također evidentna velika količina negativnih stavova koje građani sami izražavaju online.

Negativni stavovi u tweetovima bili su vezani prvenstveno uz mjere, cijepljenje i općenito stožer. U okviru deset tematskih kategorija koje su identificirali automatskim postupcima, dvije kategorije su se izdvojile po izrazito negativnim stavovima, pojašnjava Ana.

Kao najnegativnija to je jedna manja grupa tweetova (nešto više od 6% cjelokupne količine tweetova) u kojima je iskazan direktan revolt protiv mjera stožera, ali također i revolt protiv građana koji ne poštuju mjere. Druga po redu kategorija s najvećom količinom negativnih stavova jest grupa tweetova koji se odnose na rasprave vezane uz mjere i cijepljenje. To je ujedno i najveća kategorija koji sadrži gotovo 30% svih tweetova.

Tijekom 2020. najviše tweetova se odnosilo na temu “kako se nositi s pandemijom”, dok u 2021. već vidimo kako među hrvatskim tviterašima prevladava rasprava oko anti-pandemijskih politika i cijepljenja uz revolt prema onima koji se ne drže mjera. UNIRI, InfoCoV

Kao jedna od kategorija s najmanjom količinom negativnih stavova ističe se kategorija “kako se nositi s pandemijom” koja je bila najviše zastupljena tijekom prvog vala pandemije.

Pozitivni stavovi bili su vezani uz poruke kako se nositi s pandemijom koje su na neki način predstavljale povezivanje građana u borbi protiv pandemije – s porukama popraćenima hashtagovima #ostaniDoma i sl. Takvi tweetovi bili su najviše zastupljeni tijekom prvog vala pandemije s preko 26% u ukupnoj količini tweetova, a onda su se postupno smanjivali do udjela od samo 13% u trećem valu pandemije. Poruke vezane uz edukaciju o pandemiji su također prepoznate kao poruke s ne-negativnom stavovima. Među takvim porukama je bilo i dosta informativnih tweetova koji imaju neutralan sentiment.

Slobodan dodaje kako su na kraju istraživanja primijetili blagu do umjerenu korelaciju između količine objava o COVID-19 na online portalima i brojem novih slučajeva zaraženih koronavirusom. Drugim riječima, nakon što broj zaraženih poraste, broj novinskih objava vezanih za tematiku COVID-19 bi porastao, ali tek za 2 dana.

Tijekom više od godinu i pol dana količina sadržaja o pandemiji na hrvatskim novinskim portalima nije jenjavala. UNIRI, InfoCoV

Svi koji žele dobiti brz i informativan pregled njihovih rezultata moći će se poslužiti web aplikacijom za interaktivnu analizu i vizualizaciju podataka koju je tim pripremio radi bolje preglednosti. Trenutno je dostupna inicijalna verzija koja će biti još dorađivana do ljeta.

Istraživanje koje je doprinjelo i njihovom znanju i znanstvenoj zajednici

Osim aplikacije, ova ambiciozna ekipa s Riječkog sveučilišta objavila je na temelju rezultata ukupno 10 znanstvenih radova, od toga 2 u visoko rangiranim časopisima (JMIR Public Health and Surveillance i Applied Sciences), 2 poglavlja u knjigama i 6 radova u zbornicima s konferencija.

Sudjelovali su i na velikom broju konferencija, skupova, znanstvenih i javnih događaja vezanih uz COVID-19 gdje su prezentirali svoje rezultate, a to će učiniti i na Ladies AI izdanju za sve koje zanimaju detalji oko pripreme, analize i obrade podataka. Ususret tome iskoristili smo priliku da ih pitamo što su sve naučili i koje izazove su imali u pripremi istraživanja.

Slobodan ističe kako u Hrvatskoj imamo i prilično aktivnu zajednicu stručnjaka koja se bavi obradom prirodnog jezika, a koja je uvijek spremna pomoći i podijeliti znanje. Definitivno im je dobro došlo što su se mogli osloniti na dio već postojećih resursa u tom pogledu, dodaje, međutim za svaki specifičan zadatak bilo je potrebno dodatno intervenirati pa su tako brojne algoritme dodatno samostalno razvijali. Te su jezične resurse na kraju i sami podijelili sa širom zajednicom kako bi se mogli koristiti u budućim istraživanjima. Trenutno je na njihovoj stranici dostupno nekoliko korpusa i modela za analizu sentimenta.

Sve tekstualne podatke vezane uz COVID-19 koristili su za treniranje jezičnih modela, a potom su dodatno analizirali kriznu komunikaciju na društvenim mrežama i online portalima. UNIRI, InfoCoV (Graf prikazuje poveznice između vokabulara u prvom i drugom pandemijskom valu)

Praćenje novinskih objava izazovno je ne samo zbog količine podataka koji se prikupljaju, već i činjenice da se podaci prikupljaju s web stranica koje mogu biti posve različitih struktura, pojašnjava Slobodan. U prvom dijelu istraživanja naučili su puno o tome kako najbolje pristupiti prikupljanju podataka iz različitih online izvora i platformi. Nakon prvih nekoliko faza prikupljanja podataka s Twittera, razvili su i sustav koji omogućava automatsko kontinuirano prikupljanje tweetova na hrvatskom jeziku te su na taj način kreirali jednu veliku bazu podataka i za svoja buduća istraživanja.

Zanimljiv izazov je taj što su komentari čitatelja ponekad pisani u specifičnom žargonu, a ne na standardnome jeziku, koriste puno emotikona, a manje klasičnog teksta, ponekad sadrže samo link, ne i neki drugi sadržaj i sl. Takve je tekstualne podatke potrebno pomno „očistiti“ od nepotrebnih znakova kako bi se oni kasnije mogli analizirati.

Zašto bi projekti trajali vječno kad postoje suradnje?

Znanstveno-istraživački projekti poput InfoCoV-a uglavnom se provode u periodu od najmanje tri ili četiri godine, priča mi Ana. No, zbog specifične situacije i krize bilo je potrebno brzo doći do planiranih rezultata pa su se zato okrenuli industriji. Razvoj dijela jezičnih modela i modela za predikciju širenja twetova stoga je preuzela tvrtka Velebit AI, čija suradnja je riječkim znanstvenicima pomogla InfoCoV realizirati u 18 mjeseci, ali u procesu su i mnogo od njih naučili.

Tvrtka Velebit AI bavi se razvojem rješenja temeljenih na umjetnoj inteligenciji i već su imali puno iskustva s razvojem sličnih modela tako da smo od njih puno naučili, prvenstveno u smislu nekih specifičnih inženjerskih pristupa.

Naprimjer, u zadnjoj fazi projekta radili smo na modelu koji klasificira tweetove prema tome koliko se retweetaju. U tom dijelu zadatka bilo je potrebno naći najbolje rješenje na koji način će se povezivati značajke iz različitih izvora (aspekata) – budući da je jedna od ideja našeg istraživanja bila da se tekstualna poruka, odnosno u ovom slučaju tweet, predstavi kroz niz numeričkih značajki koje proizlaze iz različitih aspekata poruke (sadržaj, lokalne mjere društvene mreže i metapodaci poruke).

Trenutno pišemo znanstveni rad na temelju tog istraživanja, a onda planiramo dalje razvijati cijeli postupak.

Što ih čeka dalje?

Istraživanja u sklopu InfoCoV projekta planiraju proširiti i na nekoliko drugih društvenih mreža, kao što su YouTube i TikTok, dodaje Slobodan.

Analiza širenja videa pokazala se kao važno istraživanje u području krizne komunikacije na društvenim medijima jer se velika količina sadržaja plasira u obliku videa, a onda se to može popratiti analiziranjem tekstova i tagova uz video.

Nadalje, u naša buduća istraživanja želimo uključiti i razvoj postupaka za automatsko otkrivanje širenja lažnih vijesti. Smatramo da je to posebno izazovan zadatak, trenutno vrlo aktualan u kontekstu novonastale krize s ratom u Ukrajini, ali također i dugoročno vrlo važno istraživanje obzirom na količinu dezinformacija na društvenim mrežama.

Više na Ladies of AI Business!

Detalje o tome kako su pripremali ovo istraživanje te što su sve naučili i saznali tijekom procesa Ana Meštrović će prezentirati na Ladies of AI Business konferenciji idući četvrtak, 5. svibnja. Više informacija možete pronaći na službenoj stranici Ladies of AI Business, a cijena ulaznice iznosi simboličnih 50 kuna.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Intervju

Upoznajte Maria Ćendu, voditelja tima zaduženog za ICT sustav Disneyjevog kruzera kojim plovi 5500 ljudi

Pod utjecajem primorskog podneblja, u bespućima interneta, Mario Ćendo pronašao je zanimanje koje spaja za njega idealno: IT i pomorstvo. Od tada, više od 10 godina plovi i rješava tehnološke zavrzlame kruzera koji mogu smjestiti i po par tisuća ljudi. Prije nego je isplovio na još jednu 10 tjedana dugu rutu, s nama je podijelio detalje ovog nesvakidašnjeg posla.

Startupi i poslovanje

Počelo je dvojno iskazivanje cijena! Što to znači za internetske trgovine?

Od danas sve internetske trgovine moraju iskazivati dvojne cijene. Iako na prvu zvuči kao nešto lagano za provesti, taj proces može uključivati product managera, dizajnera, backend i front-end programera. Kako se u tome snalaze mikro i mali poduzetnici koji su često "one man band"?

Intervju

“Tata” Angulara o tome što bi danas napravio drugačije i kako instantno ubrzati web aplikacije

Nakon više od 15 godina u Googleu, gdje je inicijalizirao, osmislio i podigao temelje Angulara, jednog od najpoznatijih JavaScript frameworka, a potom usmjerio Googleovu kulturu prema test driven developmentu, Miško Hevery se otisnuo u samostalne vode...

Što ste propustili

Novost

Agency04 postaje Notch!

Jedna od najbrže rastućih IT tvrtki u centralnoj Europi posljednjih godina bilježi rast prihoda od 500 posto, a preko 75 posto projekata radi za strane klijente.

Digitalni mediji

Sretan međunarodni dan podcasta, svima koji slušaju!

Nedavno je, nakon 20 godina zatvora, na slobodu izašao čovjek koji je bio krivo optužen za ubojstvo. Velik dio zasluga za to ide jednom podcastu.

Intervju

Upoznajte Maria Ćendu, voditelja tima zaduženog za ICT sustav Disneyjevog kruzera kojim plovi 5500 ljudi

Pod utjecajem primorskog podneblja, u bespućima interneta, Mario Ćendo pronašao je zanimanje koje spaja za njega idealno: IT i pomorstvo. Od tada, više od 10 godina plovi i rješava tehnološke zavrzlame kruzera koji mogu smjestiti i po par tisuća ljudi. Prije nego je isplovio na još jednu 10 tjedana dugu rutu, s nama je podijelio detalje ovog nesvakidašnjeg posla.

Novost

Počela je crowdfunding kampanja za uvođenje robotike i umjetne inteligencije u škole diljem Hrvatske

Podrškom kampanje “Izgradi Školu budućnosti” svaka peta škola u Hrvatskoj dobit će program robotike, umjetne inteligencije ili Internet of Things.

Tehnologija

U Hrvatsku je stigla američko-ukrajinska grupa koja iza sebe ima niz proizvoda u glazbenoj, travel i adtech industriji

16 godina, 10+ proizvoda, 5 exita, 145 zaposlenika na tri kontinenta u 12 država. To je u kratkim crtama Postindustria grupa čija se podružnica Sigmoid Lab nedavno otvorila u Hrvatskoj.

Novost

Digital Labin okupio više od 600 digitalnih dizajnera i developera iz cijele Hrvatske

Treće izdanje Digital Labin konferencije dovelo je imena koja govore mnogo više o snazi i važnosti ove samo naizgled male konferencije.