Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi - na Twitteru, YouTubeu i Redditu!

Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi – na Twitteru, YouTubeu i Redditu!

(Dez)informacije o koronavirusu ne jenjavaju ni godinu dana od početka pandemije, dapače, njihovo širenje na društvenim mrežama samo raste. Kako te poruke utječu na stavove Hrvata? Uskoro će nam više otkriti domaći znanstvenici i stručnjaci metodama iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Izvanredna profesorica dr.sc. Ana Meštrović i kolege s Odjela za informatiku Sveučilišta u Rijeci na jesen 2020. počeli su pripremu za značajan projekt.

Prva ideja da se bave analizom komunikacije na društvenim mrežama sinula im je kada je početkom pandemije Hrvatska zaklada za znanost objavila natječaj za financiranje projekata koji se bave istraživanjima vezanim uz COVID-19. Osim područja medicine i biotehnologije, HRZZ je prepoznala kako je važno obuhvatiti i druge aspekte istraživanja, pa su u poziv bila uključena i istraživanja koja se bave društvenim i obrazovnim aspektima pandemije, prisjeća se Ana:

Kako se kolege i ja već dugi niz godina bavimo područjem obrade prirodnog jezika i analizom društvenih mreža, odlučili smo naše znanje usmjeriti na istraživanje i rješavanje problema uzrokovanih infodemijom koja je nastala kao posljedica ove pandemije. Stoga smo prijavili projekt koji se bavi analizom širenja poruka vezanih uz COVID-19 u društvenim medijima pod nazivom „Multilayer Framework for the Information Spreading Characterization in Social Media during the COVID-19 Crisis (InfoCoV)“.

Pa iako vam na engleskom ovo može zvučati i odviše kompleksno, uz Anu ćemo proći kroz neke dijelove InfoCoV projekta kako bi nam bilo jasnije što to znanstvenici trebaju za ovakvo istraživanje i što potencijalno njime mogu saznati.

Uz Anu Meštrović, na projektu sudjeluju prof. Sanda Martinčić-Ipšić, dr. sc. Slobodan Beliga te dva doktorska studenta Karlo Babić i Milan Petrović, ali i stručnjaci iz različitih područja: izv. prof. Mihaela Matešić, izv. prof. dr. sc. Zoran Levnajić te Marko Pranjić.

Twitter, YouTube i Reddit – ali ne i Facebook

U fokusu InfoCoV istraživanja bit će primarno društvena mreža Twitter, ali i YouTube i Reddit, koji iako nemaju veliku količinu objava na hrvatskome jeziku, Ani i kolegama su dijelom zanimljivi zbog usporedbe s drugim istraživanjima. Iako bi s obzirom na učestalost korištenja u Hrvatskoj bilo razumljivo analizirati i Facebook, ova mreža ima vrlo stroge restrikcije što se tiče prikupljanja i analize podataka pa nažalost neće niti uključena u istraživanje. Upravo zato, većina znanstvene zajednice slične analize najčešće provodi s podacima prikupljenih s Twittera, objašnjava Ana.

Za Twitter je dostupno sučelje (Twitter API) koje omogućava dosta jednostavno prikupljanje podataka. Twitter ima određena ograničenja u količini podataka koji se mogu prikupiti u određenom vremenskom okviru, pa prikupljanje može potrajati. Također, postoje pravna ograničenja što se smije javno objaviti kao podatkovni skup na kojem se izvodilo istraživanje. Takav skup smije sadržavati samo ID tweet poruke, ne smije biti objavljen cjeloviti tekst, niti podaci o korisniku koji objavljuje. No to je dovoljno podataka da se istraživanje može provjeriti i eventualno ponoviti.

Pripreme za glavni nastup

InfoCoV istraživanjem planira se što bolje razumjeti širenje informacija putem društvenih medija tijekom pandemijske krize. Stoga je jedna od ideja istraživanja da se tekst koji je objavljen u društvenim medijima prikaže uzimajući u obzir ne samo sadržaj tog teksta, već i elemente društvene mreže koja stvara dio aktivnosti vezanih uz tekst (komentiranje, dijeljenje, lajkanje itd.) te vremenski aspekt svih tih aktivnosti. Formalizam koji objedinjuje značajke teksta temeljem ta tri različita aspekta nazvali su „multilayer framework“ odnosno višeslojni okvir koji u konačnici opisuje širenje informacije na temelju te tri skupine značajki.

Ali, odabir značajki tekstualne poruke ovisi i o zadatku na kojem rade, naglašava Ana, a formalizam je definiran kao neki općeniti okvir te se prilagođava zadatku.

Naprimjer, za detekciju lažnih vijesti jako je važan kontekst i vremenski aspekt širenja tekstualne poruke, dok je za analizu pozitivnih, neutralnih i negativnih stavova važniji sam sadržaj.

Kako to izgleda na kraju?

Prvi primjer već imamo – kako je izgledala 2020. na Twitteru?

Proći će još neko vrijeme dok Ana i kolege prikupe dovoljno podataka i dođu do rezultata za sam InfoCoV projekt. Do tad za referencu o tome kako izgleda jedna slična analiza već imamo primjer. Prošle godine, povezivanjem preko EU projekta “Coperation for Statistics of Network Data Science – COSTNET“, doktorski student s Instituta u Varšavi s riječkim kolegama našao je zajednički interes, a rezultat toga bilo je istraživanje o komunikaciji na društvenim mrežama koja je vezana uz COVID-19 teme – u Poljskoj i Hrvatskoj.

Na temelju zajedničkog istraživanja napisali su znanstveni rad pod naslovom „COVID-19 related communication on Twitter: analysis of the Croatian and Polish attitudes“ koji je prihvaćen za objavu na konferenciji „International Congress on Information and Communication Technology“ koja će se održati u veljači u Londonu.

U tom radu objasnili su postupak prikupljanja podataka te analizu pozitivnih, neutralnih i negativnih stavova u porukama na Twitteru vezanim uz COVID-19 u prvom valu pandemije. Iako su to preliminarni rezultati jer za hrvatski jezik još nemaju sve prikupljene podatke, već sada su uspjeli pokazati da postoji sličan obrazac u trendovima poruka na Twitteru za oba jezika, napominje Ana.

Iz podataka se može vidjeti kako se u ožujku dogodio nagli porast broja poruka na Twitteru koje su sadržajno povezane uz pojavu koronavirusa u obje zemlje. Nadalje, pokazali smo da ne postoji statistički značajna korelacija između broja poruka i broja zaraženih na dnevnoj bazi, što je bilo i očekivano.

Ali pokazalo se da postoji korelacija između pozitivnih/negativnih stavova i određenih događaja. Tako su npr. u obje zemlje na početku pandemije bili iskazani pozitivni stavovi u porukama (iako ponekad ironični). Nakon toga dogodio se skok negativnih stavova krajem veljače i početkom ožujka u vrijeme koje je bilo obilježeno otkazivanjem većeg broja javnih događanja, te pozitivan trend sredinom ožujka koji se odnosi ona pružanje podrške i pozive na poštivanje mjera kako bismo se svi što prije izvukli iz pandemije.

Zatim je opet uslijedio velik broj negativnih stavova u porukama objavljenim oko Uskrsa, vjerojatno zbog nemogućnosti zajedničkih obiteljskih druženja, te ponovno pozitivni trendovi u Hrvatskoj na kraju svibnja kada smo imali mali broj zaraženih.

Vide se i negativni trendovi u vrijeme kampanje za parlamentarne izbora u Hrvatskoj. Otprilike u isto vrijeme odvijala se kampanja za predsjedničke izbore u Poljskoj također popraćena negativnim stavovima. Kako je politička kampanja bila popraćena i porukama vezanim uz koronavirus, taj segment komunikacije na društvenim mrežama očitovao se i u našim analizama.

Nakon ovog preliminarnog istraživanja Ana i tim nastavili su prikupljati podatke s Twittera objavljene s hrvatskih korisničkih profila u 2020. godini. Trenutno imaju prikupljeno preko 4 i pol milijuna objava od čega je oko 110.000 objava detektirano kao objave vezane uz koronavirus.

Koliko nas je ozbiljno zahvatila infodemija?

Preliminarna analiza podataka s Twittera pokazala je kako ta mreža zapravo vrlo dobro reflektira realnu situaciju u društvu te je moguće dobiti povratnu informaciju o stavovima građana u odnosu na različite teme, kao što su npr. mjere koje vlada poduzima za sprečavanje širenja koronavirusa, mjere gospodarske pomoći, stavove oko cijepljenja i slično, komentira Ana.

Nedostatak istraživanja društvenih mreža može biti što one obuhvaćaju samo jedan dio populacije, pa informacija koju dobivamo nije potpuna. Međutim te informacije su nam svakako važne jer društveni mediji danas uvelike utječu na stavove građana.

S druge strane, infodemija je postavila i neke nove izazove kad je u pitanju obrada prirodnog jezika, ističe Ana. Produkcija i širenje lažnih vijesti postaje sve organiziranije. Web stranice koje objavljuju takve “nepouzdane vijesti” povećale su svoje interakcije na društvenim mrežama tijekom 2020. Dok smo svi bili u većoj mjeri kod kuće, stvaralo se plodno tlo za učestalo dijeljenje takvih vijesti, a tako je i otkrivanje lažnih vijesti postalo značajno otežano. U istraživanjima je sve teže povući lijepo definirane linije različitosti kako bi se lažne vijesti mogle prije uočiti.

Granica je tanka, ali primjena najnovijih algoritama iz područja umjetne inteligencije i obrade prirodnog jezika uvijek može pomoći u boljem razumijevanju krizne komunikacije, kao što je slučaj u ovim vremenima. Osim toga, pojašnjava Ana, može i dati odgovore na neka pitanja, poput toga kako bolje prilagoditi informiranje za određene, ciljane skupine građana, npr. one koji još nisu dobro informirani o cijepljenju.

U redu, a kad ćemo znati rezultate InfoCoV istraživanja?

Izazovi AI potpomognutih istraživanja

Svako istraživanje zahtijeva podrobnu pripremu, ali kad se u sve umiješa korištenje nekog oblika AI-ja, stvari ipak postanu nešto kompleksnije. Takvoj analizi prethodi priprema podataka, provođenje klasifikacije te evaluacija modela, a sve to oduzima mnogo vremena znanstvenicima i stručnjacima. U procesu pripreme podataka prikupljanje, organizacija i čišćenje podataka mogu oduzeti i do 80% vremena trajanja eksperimenta, objašnjava Ana:

Tekstualni podaci su nestrukturirani, ponekad teško dostupni za preuzimanje. Obično je potrebno organizirati podatke iz različitih izvora i formata u jedinstvenu strukturu pogodnu za analizu, te dodatno ručno označiti podatke ukoliko će se koristiti nadzirani modeli strojnog učenja. U našem slučaju dodatni izazov je i to što podatke vezane uz COVID-19 objave konstantno nadopunjavano najnovijim tekstovima.

U istraživanju će se primijeniti metode i pristupi iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Sama statistička analiza može se provesti relativno brzo, kroz nekoliko dana, ističe Ana. No, prije toga, potrebno je isprobati i evaluirati više različitih modela klasifikacije kako bi odabrali najbolji, a to može potrajati, ovisno o zadatku.

Kod analize sentimenta najjednostavniji oblik klasifikacije može se izvoditi primjenom takozvanih „sentiment leksikona“ koji imaju popis pojmova i numeričke oznake koliko je pojam relevantan kao pozitivan ili kao negativan. Pored toga mogu se koristiti i algoritmi nadziranog strojnog učenja koji na temelju prethodno ručno označenih podataka „nauče“ razlikovati pozitivne, neutralne i negativne stavove u tekstovima.

Ana najavljuje da će vrlo brzo imati još zanimljivih, ali preliminarnih rezultata, a konačne rezultate planiraju objaviti do kraja 2021. godine, obzirom na to da projekt službeno traje do siječnja 2022. godine.

“Kad prikupimo velike količine podataka, očekujemo da ćemo najbolje rezultate imati s primjenom dubokog učenja.”

U zadnjih deset godina najveći uspjeh imaju algoritmi koji se temelje na dubokim neuronskim mrežama, kaže Ana. Primjena dubokih neuronskih mreža omogućava novi način reprezentacije teksta tako da se semantika i sintaksa teksta iskažu kao vektor male dimenzionalnosti. A nemala je stvar što već postoje gotovi i javno dostupni skupovi s vektorima riječi, dodaje:

Najviše je takvih skupova za engleski jezik, ali postoje i za hrvatski. Konkretno, mi trenutno koristimo gotove vektore riječi koji su objavljeni u okviru jednog drugog projekta. U tom slučaju ne moramo trošiti vrijeme na učenje reprezentacije teksta nego jednostavno koristimo već naučenu reprezentaciju za ulaz u daljnje algoritme.

Za razliku od mjeseci, zbog ovoga se cijeli postupak programiranja i namještanja hyperparametara može obaviti u nekoliko dana – što znači više vremena za “konkretnije stvari”. Iako kompleksnije metode koje planiraju primijeniti u budućnosti oduzimaju puno više vremena, daju i bolje rezultate.

Sve nas to još jednom upućuje na temu o kojoj smo već pisali – koliko je za razvoj AI rješenja važna suradnja zajednice i otvorenost podataka. Zato, u svrhu širenja iskustava i razmjene znanja, kad InfoCoV dođe do svojih prvih rezultata – više o svemu čitajte na Netokraciji.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome)
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime (Hrvoje Lončar) ili barem ime i inicijala (Hrvoje L.) te pravu email adresu. Kako koristimo podatke koje tamo ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Komentari

  1. Milos Todorovic

    Milos Todorovic

    13. 01. 2021. u 11:33 am Odgovori

    Kad vec dodjoh do teksta koji spominje neuronske mreze, da li mozete da predlozite neku literaturu koja se bavi inteligentnim sistemima a da neko ko nije IT moze da razume deo toga sto cita? Uvek me je zanimalo. Hvala.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Društvene mreže

Rangiramo 5 najvećih komunikacijskih failova za kraj 2020. i početak 2021.

U kriznim situacijama veća je šansa da ćete pogriješiti u komunikaciji, ali veća je i šansa da će tu grešku netko primijetiti. Evo koje smo mi primijetili posljednjih tjedana…

Tehnologija

Može i bez tvornica: Hrvatska kao “meka” za R&D automobilske industrije!

2020. je za domaći IT donijela mnogo dobrih vijesti, a kakav potencijal naši stručnjaci donose za industriju automobila u 2021. i narednim godinama otkrili su nam Tomislav Car (Porsche Digital Croatia) i predstavnici dSPACE Engineeringa.

Startupi i poslovanje

Hrvatski Electrocoin otkriva kako su ih proizvodi za kriptovalute doveli do 330 milijuna kuna godišnjeg prometa

Krajem 2020. uvršteni su u sam vrh Deloitte Fast 50 ljestvice, imaju 3 proizvoda, a osim što sami rastu, u zadnje vrijeme bujaju i kriptovalute kojima su posvetili svoje poslovanje. Bio nam je to dobar povod da s jednim od direktora Electrocoina, Nikolom Škorićem, razgovaramo o izazovima vođenja hrvatskog poduzeća koje se bavi kriptovalutama.

Što ste propustili

Startupi i poslovanje

LAUNCHub je već investirao u hrvatske startupe, a sad su zatvorili fond od minimalno 44 milijuna eura!

LAUNCHub, bugarski VC koji je svojevremeno uz Eleven bio jedini early stage fond u Hrvatskoj i Srbiji, vraća se s podebljanim fondom za startupe u SEE i široj CEE regiji.

Kultura 2.0

Staro računalo i oprema vam skupljaju prašinu? Donirajte ih učenicima iz potresom pogođenih područja

Imate starije računalo koje još uvijek radi, ali baš pikirate nabaviti novo? Donirajte staro za školarce koji su zbog potresa ostali bez svojih školskih računala!

Startupi i poslovanje

Nakon 6 godina rada u Bufferu skupila sam glavne lekcije za tvrtke i zaposlenike o radu na daljinu

Nakon što sam već neko vrijeme koristila Buffer kao alat u online marketingu za svoja rješenja, zaintrigiralo me saznati više o njihovom načinu rada i jedinstvenoj kulturi. Danas već šest godina radim za njih, stoga sam odlučila podijeliti kako je ova tvrtka izgradila kulturu rada na daljinu.

Tehnologija

Od cijene avionskih karata do dobrih kamatnih stopa – kako koristimo matematiku u IT-u

Svaka industrijska revolucija imala je svoje heroje. Što su bili kemičari i fizičari danas su matematičari. Dvije vrste programiranja – matematičko i računalno, polagano mijenjaju svijet bankarstva, a u pozadini cijele priče stoji objašnjenje onog plakata u trgovinama, bankama i pošti: jedan red za sve blagajne.

Mobilno

Tele 2 u Hrvatskoj postaje povijest, prodajna mjesta rebrendiraju se kao Telemach Hrvatska

Tele 2 brendirana prodajna mjesta polako nestaju, a od danas će ih polako mijenjati ona novog brenda Telemach Hrvatska.

Društvene mreže

Rangiramo 5 najvećih komunikacijskih failova za kraj 2020. i početak 2021.

U kriznim situacijama veća je šansa da ćete pogriješiti u komunikaciji, ali veća je i šansa da će tu grešku netko primijetiti. Evo koje smo mi primijetili posljednjih tjedana…