Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi - na Twitteru, YouTubeu i Redditu!

Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi – na Twitteru, YouTubeu i Redditu!

(Dez)informacije o koronavirusu ne jenjavaju ni godinu dana od početka pandemije, dapače, njihovo širenje na društvenim mrežama samo raste. Kako te poruke utječu na stavove Hrvata? Uskoro će nam više otkriti domaći znanstvenici i stručnjaci metodama iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Izvanredna profesorica dr.sc. Ana Meštrović i kolege s Odjela za informatiku Sveučilišta u Rijeci na jesen 2020. počeli su pripremu za značajan projekt.

Prva ideja da se bave analizom komunikacije na društvenim mrežama sinula im je kada je početkom pandemije Hrvatska zaklada za znanost objavila natječaj za financiranje projekata koji se bave istraživanjima vezanim uz COVID-19. Osim područja medicine i biotehnologije, HRZZ je prepoznala kako je važno obuhvatiti i druge aspekte istraživanja, pa su u poziv bila uključena i istraživanja koja se bave društvenim i obrazovnim aspektima pandemije, prisjeća se Ana:

Kako se kolege i ja već dugi niz godina bavimo područjem obrade prirodnog jezika i analizom društvenih mreža, odlučili smo naše znanje usmjeriti na istraživanje i rješavanje problema uzrokovanih infodemijom koja je nastala kao posljedica ove pandemije. Stoga smo prijavili projekt koji se bavi analizom širenja poruka vezanih uz COVID-19 u društvenim medijima pod nazivom „Multilayer Framework for the Information Spreading Characterization in Social Media during the COVID-19 Crisis (InfoCoV)“.

Pa iako vam na engleskom ovo može zvučati i odviše kompleksno, uz Anu ćemo proći kroz neke dijelove InfoCoV projekta kako bi nam bilo jasnije što to znanstvenici trebaju za ovakvo istraživanje i što potencijalno njime mogu saznati.

Uz Anu Meštrović, na projektu sudjeluju prof. Sanda Martinčić-Ipšić, dr. sc. Slobodan Beliga te dva doktorska studenta Karlo Babić i Milan Petrović, ali i stručnjaci iz različitih područja: izv. prof. Mihaela Matešić, izv. prof. dr. sc. Zoran Levnajić te Marko Pranjić.

Twitter, YouTube i Reddit – ali ne i Facebook

U fokusu InfoCoV istraživanja bit će primarno društvena mreža Twitter, ali i YouTube i Reddit, koji iako nemaju veliku količinu objava na hrvatskome jeziku, Ani i kolegama su dijelom zanimljivi zbog usporedbe s drugim istraživanjima. Iako bi s obzirom na učestalost korištenja u Hrvatskoj bilo razumljivo analizirati i Facebook, ova mreža ima vrlo stroge restrikcije što se tiče prikupljanja i analize podataka pa nažalost neće niti uključena u istraživanje. Upravo zato, većina znanstvene zajednice slične analize najčešće provodi s podacima prikupljenih s Twittera, objašnjava Ana.

Za Twitter je dostupno sučelje (Twitter API) koje omogućava dosta jednostavno prikupljanje podataka. Twitter ima određena ograničenja u količini podataka koji se mogu prikupiti u određenom vremenskom okviru, pa prikupljanje može potrajati. Također, postoje pravna ograničenja što se smije javno objaviti kao podatkovni skup na kojem se izvodilo istraživanje. Takav skup smije sadržavati samo ID tweet poruke, ne smije biti objavljen cjeloviti tekst, niti podaci o korisniku koji objavljuje. No to je dovoljno podataka da se istraživanje može provjeriti i eventualno ponoviti.

Pripreme za glavni nastup

InfoCoV istraživanjem planira se što bolje razumjeti širenje informacija putem društvenih medija tijekom pandemijske krize. Stoga je jedna od ideja istraživanja da se tekst koji je objavljen u društvenim medijima prikaže uzimajući u obzir ne samo sadržaj tog teksta, već i elemente društvene mreže koja stvara dio aktivnosti vezanih uz tekst (komentiranje, dijeljenje, lajkanje itd.) te vremenski aspekt svih tih aktivnosti. Formalizam koji objedinjuje značajke teksta temeljem ta tri različita aspekta nazvali su „multilayer framework“ odnosno višeslojni okvir koji u konačnici opisuje širenje informacije na temelju te tri skupine značajki.

Ali, odabir značajki tekstualne poruke ovisi i o zadatku na kojem rade, naglašava Ana, a formalizam je definiran kao neki općeniti okvir te se prilagođava zadatku.

Naprimjer, za detekciju lažnih vijesti jako je važan kontekst i vremenski aspekt širenja tekstualne poruke, dok je za analizu pozitivnih, neutralnih i negativnih stavova važniji sam sadržaj.

Kako to izgleda na kraju?

Prvi primjer već imamo – kako je izgledala 2020. na Twitteru?

Proći će još neko vrijeme dok Ana i kolege prikupe dovoljno podataka i dođu do rezultata za sam InfoCoV projekt. Do tad za referencu o tome kako izgleda jedna slična analiza već imamo primjer. Prošle godine, povezivanjem preko EU projekta “Coperation for Statistics of Network Data Science – COSTNET“, doktorski student s Instituta u Varšavi s riječkim kolegama našao je zajednički interes, a rezultat toga bilo je istraživanje o komunikaciji na društvenim mrežama koja je vezana uz COVID-19 teme – u Poljskoj i Hrvatskoj.

Na temelju zajedničkog istraživanja napisali su znanstveni rad pod naslovom „COVID-19 related communication on Twitter: analysis of the Croatian and Polish attitudes“ koji je prihvaćen za objavu na konferenciji „International Congress on Information and Communication Technology“ koja će se održati u veljači u Londonu.

U tom radu objasnili su postupak prikupljanja podataka te analizu pozitivnih, neutralnih i negativnih stavova u porukama na Twitteru vezanim uz COVID-19 u prvom valu pandemije. Iako su to preliminarni rezultati jer za hrvatski jezik još nemaju sve prikupljene podatke, već sada su uspjeli pokazati da postoji sličan obrazac u trendovima poruka na Twitteru za oba jezika, napominje Ana.

Iz podataka se može vidjeti kako se u ožujku dogodio nagli porast broja poruka na Twitteru koje su sadržajno povezane uz pojavu koronavirusa u obje zemlje. Nadalje, pokazali smo da ne postoji statistički značajna korelacija između broja poruka i broja zaraženih na dnevnoj bazi, što je bilo i očekivano.

Ali pokazalo se da postoji korelacija između pozitivnih/negativnih stavova i određenih događaja. Tako su npr. u obje zemlje na početku pandemije bili iskazani pozitivni stavovi u porukama (iako ponekad ironični). Nakon toga dogodio se skok negativnih stavova krajem veljače i početkom ožujka u vrijeme koje je bilo obilježeno otkazivanjem većeg broja javnih događanja, te pozitivan trend sredinom ožujka koji se odnosi ona pružanje podrške i pozive na poštivanje mjera kako bismo se svi što prije izvukli iz pandemije.

Zatim je opet uslijedio velik broj negativnih stavova u porukama objavljenim oko Uskrsa, vjerojatno zbog nemogućnosti zajedničkih obiteljskih druženja, te ponovno pozitivni trendovi u Hrvatskoj na kraju svibnja kada smo imali mali broj zaraženih.

Vide se i negativni trendovi u vrijeme kampanje za parlamentarne izbora u Hrvatskoj. Otprilike u isto vrijeme odvijala se kampanja za predsjedničke izbore u Poljskoj također popraćena negativnim stavovima. Kako je politička kampanja bila popraćena i porukama vezanim uz koronavirus, taj segment komunikacije na društvenim mrežama očitovao se i u našim analizama.

Nakon ovog preliminarnog istraživanja Ana i tim nastavili su prikupljati podatke s Twittera objavljene s hrvatskih korisničkih profila u 2020. godini. Trenutno imaju prikupljeno preko 4 i pol milijuna objava od čega je oko 110.000 objava detektirano kao objave vezane uz koronavirus.

Koliko nas je ozbiljno zahvatila infodemija?

Preliminarna analiza podataka s Twittera pokazala je kako ta mreža zapravo vrlo dobro reflektira realnu situaciju u društvu te je moguće dobiti povratnu informaciju o stavovima građana u odnosu na različite teme, kao što su npr. mjere koje vlada poduzima za sprečavanje širenja koronavirusa, mjere gospodarske pomoći, stavove oko cijepljenja i slično, komentira Ana.

Nedostatak istraživanja društvenih mreža može biti što one obuhvaćaju samo jedan dio populacije, pa informacija koju dobivamo nije potpuna. Međutim te informacije su nam svakako važne jer društveni mediji danas uvelike utječu na stavove građana.

S druge strane, infodemija je postavila i neke nove izazove kad je u pitanju obrada prirodnog jezika, ističe Ana. Produkcija i širenje lažnih vijesti postaje sve organiziranije. Web stranice koje objavljuju takve “nepouzdane vijesti” povećale su svoje interakcije na društvenim mrežama tijekom 2020. Dok smo svi bili u većoj mjeri kod kuće, stvaralo se plodno tlo za učestalo dijeljenje takvih vijesti, a tako je i otkrivanje lažnih vijesti postalo značajno otežano. U istraživanjima je sve teže povući lijepo definirane linije različitosti kako bi se lažne vijesti mogle prije uočiti.

Granica je tanka, ali primjena najnovijih algoritama iz područja umjetne inteligencije i obrade prirodnog jezika uvijek može pomoći u boljem razumijevanju krizne komunikacije, kao što je slučaj u ovim vremenima. Osim toga, pojašnjava Ana, može i dati odgovore na neka pitanja, poput toga kako bolje prilagoditi informiranje za određene, ciljane skupine građana, npr. one koji još nisu dobro informirani o cijepljenju.

U redu, a kad ćemo znati rezultate InfoCoV istraživanja?

Izazovi AI potpomognutih istraživanja

Svako istraživanje zahtijeva podrobnu pripremu, ali kad se u sve umiješa korištenje nekog oblika AI-ja, stvari ipak postanu nešto kompleksnije. Takvoj analizi prethodi priprema podataka, provođenje klasifikacije te evaluacija modela, a sve to oduzima mnogo vremena znanstvenicima i stručnjacima. U procesu pripreme podataka prikupljanje, organizacija i čišćenje podataka mogu oduzeti i do 80% vremena trajanja eksperimenta, objašnjava Ana:

Tekstualni podaci su nestrukturirani, ponekad teško dostupni za preuzimanje. Obično je potrebno organizirati podatke iz različitih izvora i formata u jedinstvenu strukturu pogodnu za analizu, te dodatno ručno označiti podatke ukoliko će se koristiti nadzirani modeli strojnog učenja. U našem slučaju dodatni izazov je i to što podatke vezane uz COVID-19 objave konstantno nadopunjavano najnovijim tekstovima.

U istraživanju će se primijeniti metode i pristupi iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Sama statistička analiza može se provesti relativno brzo, kroz nekoliko dana, ističe Ana. No, prije toga, potrebno je isprobati i evaluirati više različitih modela klasifikacije kako bi odabrali najbolji, a to može potrajati, ovisno o zadatku.

Kod analize sentimenta najjednostavniji oblik klasifikacije može se izvoditi primjenom takozvanih „sentiment leksikona“ koji imaju popis pojmova i numeričke oznake koliko je pojam relevantan kao pozitivan ili kao negativan. Pored toga mogu se koristiti i algoritmi nadziranog strojnog učenja koji na temelju prethodno ručno označenih podataka „nauče“ razlikovati pozitivne, neutralne i negativne stavove u tekstovima.

Ana najavljuje da će vrlo brzo imati još zanimljivih, ali preliminarnih rezultata, a konačne rezultate planiraju objaviti do kraja 2021. godine, obzirom na to da projekt službeno traje do siječnja 2022. godine.

“Kad prikupimo velike količine podataka, očekujemo da ćemo najbolje rezultate imati s primjenom dubokog učenja.”

U zadnjih deset godina najveći uspjeh imaju algoritmi koji se temelje na dubokim neuronskim mrežama, kaže Ana. Primjena dubokih neuronskih mreža omogućava novi način reprezentacije teksta tako da se semantika i sintaksa teksta iskažu kao vektor male dimenzionalnosti. A nemala je stvar što već postoje gotovi i javno dostupni skupovi s vektorima riječi, dodaje:

Najviše je takvih skupova za engleski jezik, ali postoje i za hrvatski. Konkretno, mi trenutno koristimo gotove vektore riječi koji su objavljeni u okviru jednog drugog projekta. U tom slučaju ne moramo trošiti vrijeme na učenje reprezentacije teksta nego jednostavno koristimo već naučenu reprezentaciju za ulaz u daljnje algoritme.

Za razliku od mjeseci, zbog ovoga se cijeli postupak programiranja i namještanja hyperparametara može obaviti u nekoliko dana – što znači više vremena za “konkretnije stvari”. Iako kompleksnije metode koje planiraju primijeniti u budućnosti oduzimaju puno više vremena, daju i bolje rezultate.

Sve nas to još jednom upućuje na temu o kojoj smo već pisali – koliko je za razvoj AI rješenja važna suradnja zajednice i otvorenost podataka. Zato, u svrhu širenja iskustava i razmjene znanja, kad InfoCoV dođe do svojih prvih rezultata – više o svemu čitajte na Netokraciji.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Komentari

  1. Milos Todorovic

    Milos Todorovic

    13. 01. 2021. u 11:33 am Odgovori

    Kad vec dodjoh do teksta koji spominje neuronske mreze, da li mozete da predlozite neku literaturu koja se bavi inteligentnim sistemima a da neko ko nije IT moze da razume deo toga sto cita? Uvek me je zanimalo. Hvala.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Vodič

Morate podnijeti zahtjev za novu osobnu iskaznicu? Evo kako izbjeći gužvu na šalteru

Završetkom pandemije došao je službeni kraj maskama, ali i mnogim identifikacijskim dokumentima pa tako i osobnim iskaznicama bez kojih ne možete boraviti u Hrvatskoj. Ovo znači samo jedno... ogromni redovi na šalterima.

Web 3

Belma Gutlić: “Fokus s cijena kriptovaluta treba prebaciti na tehnologiju koja kriptovalute omogućava”

Danas se možemo pohvaliti da na našoj maloj sceni ne nedostaje konferencija vezanih uz blockchain i kriptovalute. Ipak, postoji jedan krovni naziv kojem se nitko dosad nije posvetio na jednak način, a koji možda zaslužuje i najviše pažnje.

Novost

800.000 eura investicije za Turneo hrvatskih osnivača koji želi digitalizirati globalno tržište turističkih izleta

Za svoju B2B platformu za distribuciju izleta prikupili su 800.000 eura pre-seed investicije. Kažu da im je navjeća konkurencija olovka i papir, a s njom se bore brzom implementacijom, lakim korištenjem i - umjetnom inteligencijom.

Što ste propustili

Tvrtke i poslovanje

Končar D&ST nakon revizije prema Mamforce standardu učvrstio zdravu i inkluzivnu organizacijsku kulturu

Glavne korporativne vrijednosti u tvrtki Končar D&ST su kontinuirana briga o zaposlenicima, uključivost, društvena odgovornost i ekološka održivost, a sada im se polaže sve sustavnija i promišljenija pažnja.

Tvrtke i poslovanje

Micro-Link: Poslodavac jednakih mogućnosti mora imati temelje u kulturi pravičnosti, raznolikosti i uključenosti

Micro-Linkova "formula" zapravo je jednostavna: kako bi kao tvrtka bili produktivni i uspješni, moraju imati zdrave, odmorne i sretne zaposlenike.

Video

Metaverse nije mrtav! Samo je “skriven” zbog investitora

Je li metaverse živ ili mrtav - pitanje je sad. Ako pitate svjetske medije, mnogi su već izdali osmrtnice metaversu. No, možda su malo trčali pred rudo.

Mobilne aplikacije

Predstavljena je aplikacija “Moj ZET” za kupovinu karata javnog prijevoza putem mobitela

Aplikacija je trenutno dostupna za Android uređaje, dok će za iOS biti za nekoliko dana.

Tehnologija

STEM avantura osnovnoškolskih robotičara iz Prigorja Brdovečkog dovela ih je do Maroka i nagrada

Programiranje LEGO robota, razvijanje solarnog punjača mobilnih telefona, natjecanje s drugim ljubiteljima STEM-a, osvajanje medalja i putovanje na drugi kontinent. Malo je reći kako su osnovnoškolci iz Tima Regoč imali uzbudljivu STEM avanturu na kojoj su proputovali preko 2500 kilometara!

Razvoj weba

20 godina WordPressa: Prednosti i mane (zajednice) sustava na kojem počiva skoro 50% weba

Možemo li bolje proslaviti 20 godina WordPressa od detaljne analize u kojoj raspravljamo njegove uspone i padove, prednosti i mane, viziju za budućnost, ali i trenutne goreće probleme u WP ekosustavu...