Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi - na Twitteru, YouTubeu i Redditu!

Hrvatski znanstvenici pripremaju veliko istraživanje o komunikaciji u koronakrizi – na Twitteru, YouTubeu i Redditu!

(Dez)informacije o koronavirusu ne jenjavaju ni godinu dana od početka pandemije, dapače, njihovo širenje na društvenim mrežama samo raste. Kako te poruke utječu na stavove Hrvata? Uskoro će nam više otkriti domaći znanstvenici i stručnjaci metodama iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Izvanredna profesorica dr.sc. Ana Meštrović i kolege s Odjela za informatiku Sveučilišta u Rijeci na jesen 2020. počeli su pripremu za značajan projekt.

Prva ideja da se bave analizom komunikacije na društvenim mrežama sinula im je kada je početkom pandemije Hrvatska zaklada za znanost objavila natječaj za financiranje projekata koji se bave istraživanjima vezanim uz COVID-19. Osim područja medicine i biotehnologije, HRZZ je prepoznala kako je važno obuhvatiti i druge aspekte istraživanja, pa su u poziv bila uključena i istraživanja koja se bave društvenim i obrazovnim aspektima pandemije, prisjeća se Ana:

Kako se kolege i ja već dugi niz godina bavimo područjem obrade prirodnog jezika i analizom društvenih mreža, odlučili smo naše znanje usmjeriti na istraživanje i rješavanje problema uzrokovanih infodemijom koja je nastala kao posljedica ove pandemije. Stoga smo prijavili projekt koji se bavi analizom širenja poruka vezanih uz COVID-19 u društvenim medijima pod nazivom „Multilayer Framework for the Information Spreading Characterization in Social Media during the COVID-19 Crisis (InfoCoV)“.

Pa iako vam na engleskom ovo može zvučati i odviše kompleksno, uz Anu ćemo proći kroz neke dijelove InfoCoV projekta kako bi nam bilo jasnije što to znanstvenici trebaju za ovakvo istraživanje i što potencijalno njime mogu saznati.

Uz Anu Meštrović, na projektu sudjeluju prof. Sanda Martinčić-Ipšić, dr. sc. Slobodan Beliga te dva doktorska studenta Karlo Babić i Milan Petrović, ali i stručnjaci iz različitih područja: izv. prof. Mihaela Matešić, izv. prof. dr. sc. Zoran Levnajić te Marko Pranjić.

Twitter, YouTube i Reddit – ali ne i Facebook

U fokusu InfoCoV istraživanja bit će primarno društvena mreža Twitter, ali i YouTube i Reddit, koji iako nemaju veliku količinu objava na hrvatskome jeziku, Ani i kolegama su dijelom zanimljivi zbog usporedbe s drugim istraživanjima. Iako bi s obzirom na učestalost korištenja u Hrvatskoj bilo razumljivo analizirati i Facebook, ova mreža ima vrlo stroge restrikcije što se tiče prikupljanja i analize podataka pa nažalost neće niti uključena u istraživanje. Upravo zato, većina znanstvene zajednice slične analize najčešće provodi s podacima prikupljenih s Twittera, objašnjava Ana.

Za Twitter je dostupno sučelje (Twitter API) koje omogućava dosta jednostavno prikupljanje podataka. Twitter ima određena ograničenja u količini podataka koji se mogu prikupiti u određenom vremenskom okviru, pa prikupljanje može potrajati. Također, postoje pravna ograničenja što se smije javno objaviti kao podatkovni skup na kojem se izvodilo istraživanje. Takav skup smije sadržavati samo ID tweet poruke, ne smije biti objavljen cjeloviti tekst, niti podaci o korisniku koji objavljuje. No to je dovoljno podataka da se istraživanje može provjeriti i eventualno ponoviti.

Pripreme za glavni nastup

InfoCoV istraživanjem planira se što bolje razumjeti širenje informacija putem društvenih medija tijekom pandemijske krize. Stoga je jedna od ideja istraživanja da se tekst koji je objavljen u društvenim medijima prikaže uzimajući u obzir ne samo sadržaj tog teksta, već i elemente društvene mreže koja stvara dio aktivnosti vezanih uz tekst (komentiranje, dijeljenje, lajkanje itd.) te vremenski aspekt svih tih aktivnosti. Formalizam koji objedinjuje značajke teksta temeljem ta tri različita aspekta nazvali su „multilayer framework“ odnosno višeslojni okvir koji u konačnici opisuje širenje informacije na temelju te tri skupine značajki.

Ali, odabir značajki tekstualne poruke ovisi i o zadatku na kojem rade, naglašava Ana, a formalizam je definiran kao neki općeniti okvir te se prilagođava zadatku.

Naprimjer, za detekciju lažnih vijesti jako je važan kontekst i vremenski aspekt širenja tekstualne poruke, dok je za analizu pozitivnih, neutralnih i negativnih stavova važniji sam sadržaj.

Kako to izgleda na kraju?

Prvi primjer već imamo – kako je izgledala 2020. na Twitteru?

Proći će još neko vrijeme dok Ana i kolege prikupe dovoljno podataka i dođu do rezultata za sam InfoCoV projekt. Do tad za referencu o tome kako izgleda jedna slična analiza već imamo primjer. Prošle godine, povezivanjem preko EU projekta “Coperation for Statistics of Network Data Science – COSTNET“, doktorski student s Instituta u Varšavi s riječkim kolegama našao je zajednički interes, a rezultat toga bilo je istraživanje o komunikaciji na društvenim mrežama koja je vezana uz COVID-19 teme – u Poljskoj i Hrvatskoj.

Na temelju zajedničkog istraživanja napisali su znanstveni rad pod naslovom „COVID-19 related communication on Twitter: analysis of the Croatian and Polish attitudes“ koji je prihvaćen za objavu na konferenciji „International Congress on Information and Communication Technology“ koja će se održati u veljači u Londonu.

U tom radu objasnili su postupak prikupljanja podataka te analizu pozitivnih, neutralnih i negativnih stavova u porukama na Twitteru vezanim uz COVID-19 u prvom valu pandemije. Iako su to preliminarni rezultati jer za hrvatski jezik još nemaju sve prikupljene podatke, već sada su uspjeli pokazati da postoji sličan obrazac u trendovima poruka na Twitteru za oba jezika, napominje Ana.

Iz podataka se može vidjeti kako se u ožujku dogodio nagli porast broja poruka na Twitteru koje su sadržajno povezane uz pojavu koronavirusa u obje zemlje. Nadalje, pokazali smo da ne postoji statistički značajna korelacija između broja poruka i broja zaraženih na dnevnoj bazi, što je bilo i očekivano.

Ali pokazalo se da postoji korelacija između pozitivnih/negativnih stavova i određenih događaja. Tako su npr. u obje zemlje na početku pandemije bili iskazani pozitivni stavovi u porukama (iako ponekad ironični). Nakon toga dogodio se skok negativnih stavova krajem veljače i početkom ožujka u vrijeme koje je bilo obilježeno otkazivanjem većeg broja javnih događanja, te pozitivan trend sredinom ožujka koji se odnosi ona pružanje podrške i pozive na poštivanje mjera kako bismo se svi što prije izvukli iz pandemije.

Zatim je opet uslijedio velik broj negativnih stavova u porukama objavljenim oko Uskrsa, vjerojatno zbog nemogućnosti zajedničkih obiteljskih druženja, te ponovno pozitivni trendovi u Hrvatskoj na kraju svibnja kada smo imali mali broj zaraženih.

Vide se i negativni trendovi u vrijeme kampanje za parlamentarne izbora u Hrvatskoj. Otprilike u isto vrijeme odvijala se kampanja za predsjedničke izbore u Poljskoj također popraćena negativnim stavovima. Kako je politička kampanja bila popraćena i porukama vezanim uz koronavirus, taj segment komunikacije na društvenim mrežama očitovao se i u našim analizama.

Nakon ovog preliminarnog istraživanja Ana i tim nastavili su prikupljati podatke s Twittera objavljene s hrvatskih korisničkih profila u 2020. godini. Trenutno imaju prikupljeno preko 4 i pol milijuna objava od čega je oko 110.000 objava detektirano kao objave vezane uz koronavirus.

Koliko nas je ozbiljno zahvatila infodemija?

Preliminarna analiza podataka s Twittera pokazala je kako ta mreža zapravo vrlo dobro reflektira realnu situaciju u društvu te je moguće dobiti povratnu informaciju o stavovima građana u odnosu na različite teme, kao što su npr. mjere koje vlada poduzima za sprečavanje širenja koronavirusa, mjere gospodarske pomoći, stavove oko cijepljenja i slično, komentira Ana.

Nedostatak istraživanja društvenih mreža može biti što one obuhvaćaju samo jedan dio populacije, pa informacija koju dobivamo nije potpuna. Međutim te informacije su nam svakako važne jer društveni mediji danas uvelike utječu na stavove građana.

S druge strane, infodemija je postavila i neke nove izazove kad je u pitanju obrada prirodnog jezika, ističe Ana. Produkcija i širenje lažnih vijesti postaje sve organiziranije. Web stranice koje objavljuju takve “nepouzdane vijesti” povećale su svoje interakcije na društvenim mrežama tijekom 2020. Dok smo svi bili u većoj mjeri kod kuće, stvaralo se plodno tlo za učestalo dijeljenje takvih vijesti, a tako je i otkrivanje lažnih vijesti postalo značajno otežano. U istraživanjima je sve teže povući lijepo definirane linije različitosti kako bi se lažne vijesti mogle prije uočiti.

Granica je tanka, ali primjena najnovijih algoritama iz područja umjetne inteligencije i obrade prirodnog jezika uvijek može pomoći u boljem razumijevanju krizne komunikacije, kao što je slučaj u ovim vremenima. Osim toga, pojašnjava Ana, može i dati odgovore na neka pitanja, poput toga kako bolje prilagoditi informiranje za određene, ciljane skupine građana, npr. one koji još nisu dobro informirani o cijepljenju.

U redu, a kad ćemo znati rezultate InfoCoV istraživanja?

Izazovi AI potpomognutih istraživanja

Svako istraživanje zahtijeva podrobnu pripremu, ali kad se u sve umiješa korištenje nekog oblika AI-ja, stvari ipak postanu nešto kompleksnije. Takvoj analizi prethodi priprema podataka, provođenje klasifikacije te evaluacija modela, a sve to oduzima mnogo vremena znanstvenicima i stručnjacima. U procesu pripreme podataka prikupljanje, organizacija i čišćenje podataka mogu oduzeti i do 80% vremena trajanja eksperimenta, objašnjava Ana:

Tekstualni podaci su nestrukturirani, ponekad teško dostupni za preuzimanje. Obično je potrebno organizirati podatke iz različitih izvora i formata u jedinstvenu strukturu pogodnu za analizu, te dodatno ručno označiti podatke ukoliko će se koristiti nadzirani modeli strojnog učenja. U našem slučaju dodatni izazov je i to što podatke vezane uz COVID-19 objave konstantno nadopunjavano najnovijim tekstovima.

U istraživanju će se primijeniti metode i pristupi iz područja obrade prirodnoga jezika, dubokog učenja i analize društvenih mreža.

Sama statistička analiza može se provesti relativno brzo, kroz nekoliko dana, ističe Ana. No, prije toga, potrebno je isprobati i evaluirati više različitih modela klasifikacije kako bi odabrali najbolji, a to može potrajati, ovisno o zadatku.

Kod analize sentimenta najjednostavniji oblik klasifikacije može se izvoditi primjenom takozvanih „sentiment leksikona“ koji imaju popis pojmova i numeričke oznake koliko je pojam relevantan kao pozitivan ili kao negativan. Pored toga mogu se koristiti i algoritmi nadziranog strojnog učenja koji na temelju prethodno ručno označenih podataka „nauče“ razlikovati pozitivne, neutralne i negativne stavove u tekstovima.

Ana najavljuje da će vrlo brzo imati još zanimljivih, ali preliminarnih rezultata, a konačne rezultate planiraju objaviti do kraja 2021. godine, obzirom na to da projekt službeno traje do siječnja 2022. godine.

“Kad prikupimo velike količine podataka, očekujemo da ćemo najbolje rezultate imati s primjenom dubokog učenja.”

U zadnjih deset godina najveći uspjeh imaju algoritmi koji se temelje na dubokim neuronskim mrežama, kaže Ana. Primjena dubokih neuronskih mreža omogućava novi način reprezentacije teksta tako da se semantika i sintaksa teksta iskažu kao vektor male dimenzionalnosti. A nemala je stvar što već postoje gotovi i javno dostupni skupovi s vektorima riječi, dodaje:

Najviše je takvih skupova za engleski jezik, ali postoje i za hrvatski. Konkretno, mi trenutno koristimo gotove vektore riječi koji su objavljeni u okviru jednog drugog projekta. U tom slučaju ne moramo trošiti vrijeme na učenje reprezentacije teksta nego jednostavno koristimo već naučenu reprezentaciju za ulaz u daljnje algoritme.

Za razliku od mjeseci, zbog ovoga se cijeli postupak programiranja i namještanja hyperparametara može obaviti u nekoliko dana – što znači više vremena za “konkretnije stvari”. Iako kompleksnije metode koje planiraju primijeniti u budućnosti oduzimaju puno više vremena, daju i bolje rezultate.

Sve nas to još jednom upućuje na temu o kojoj smo već pisali – koliko je za razvoj AI rješenja važna suradnja zajednice i otvorenost podataka. Zato, u svrhu širenja iskustava i razmjene znanja, kad InfoCoV dođe do svojih prvih rezultata – više o svemu čitajte na Netokraciji.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome)
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime (Hrvoje Lončar) ili barem ime i inicijala (Hrvoje L.) te pravu email adresu. Kako koristimo podatke koje tamo ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Komentari

  1. Milos Todorovic

    Milos Todorovic

    13. 01. 2021. u 11:33 am Odgovori

    Kad vec dodjoh do teksta koji spominje neuronske mreze, da li mozete da predlozite neku literaturu koja se bavi inteligentnim sistemima a da neko ko nije IT moze da razume deo toga sto cita? Uvek me je zanimalo. Hvala.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Startupi i poslovanje

Imaš li svoje vrijeme za stvaranje? Jer jedan sastanak je dovoljan da ti uništi koncentraciju za cijeli dan!

Maker time. Deep work. Vrijeme za produktivnost i ideje. Zvuči kao ideal za mnoge hrvatske tvrtke, ali želimo li biti učinkoviti i kreativni, moramo si odrediti raspored za stvaranje - bili programer, pisac ili dizajner, radili na daljinu ili u uredu!

Tehnologija

Koliko su novi e-Građani – bolji? Evo što kažu hrvatski dizajneri i UX stručnjaci

e-Građani su napokon doživjeli dugo očekivani redizajn pod palicom vladinog vlastitog "startup" tima. Redizajn je kruna dvogodišnjeg rada, kažu. I treba biti s obzirom da je riječ o platformi na kojoj će biti dostupno 87 usluga za građane, a koje bi trebale biti okosnica digitalnog društva. Što su uspjeli poboljšati, na čemu još trebaju raditi - otkrivamo.

Startupi i poslovanje

Povratak u budućnost II: Ovo su 3 stvari koje hrvatska vlada može napraviti za IT industriju!

U prošlom sam nastavku pokazao da nismo iskoristili potencijal koji je drugi val internetskih tehnologija svesrdno nudio - Y2K virus nam očito nije bio dovoljan poguranac, a postoji li šansa da će ovaj novi virus, naš katarzični digitalni transformator Sars-CoV-2, biti jača poluga u rotiranju IT sentimenta?

Što ste propustili

Startupi i poslovanje

“Gotovo 41% ispitanika smatra da njihova poduzeća nemaju utjecaj na prava djece u Hrvatskoj”

U praktično svim segmentima poslovanja ICT tvrtki ima prostora za poboljšanje kad su dječja prava u pitanju, a većina domaćih tvrtki tek treba krenuti tim putem. Donosimo vam nekoliko praktičnih alata i savjeta od samog UNICEF-a.

Novost

Mislav Galler i Nenad Šlibar novi članovi uprave Telemacha

Direktor za tehniku Nenad Šlibar i glavni komercijalni direktor Telemacha Mislav Galler postali su danas članovi uprave domaćeg telekoma.

Kultura 2.0

75% ispitanika nije zadovoljno internom komunikacijom u tvrtki u kojoj radi

Pristigli su rezultati nedavno provedene anketa Jenza, zasebnog digitalnog proizvoda koji razvija Q agency - što su saznali o internoj komunikaciji u hrvatskim tvrtkama?

Startupi i poslovanje

Kako tehnologijom rasteretiti korisničku podršku? Evo studije slučaja

Chatbot rješenja na popularnim aplikacijama i društvenim mrežama mogu preuzeti do 80 posto rutinskih upita koji pristižu korisničkoj podršci, kako je domaća kreativno-tehnološka agencija ClickAttack u tome pomogla UNIQA osiguranju?

Startupi i poslovanje

Infobip u 2021. planira osigurati još 500 milijuna dolara investicije

Hrvatski jednorog Infobip u 2021. planira nastaviti s akvizicijama i brzim rastom, a za to planiraju prikupiti još oko 500 milijuna dolara investicija.

Tehnologija

Voditeljica Vladinog tima otkriva kako je izgledao redizajn e-Građana na koji se čeka od 2014.

Redizajn e-Građana dogodio se zapravo posve slučajno, a isprva ga nisu htjeli koristiti ni sami Vladini službenici, ispričala nam je voditeljica projekta Ivana Vukov.