
2 milijuna € vrijedan projekt Mediatoolkita i FER-a online će pratiti razne incidente i katastrofe u svijetu
Mediatoolkit, domaći scaleup poznat po platformi za praćenje online spominjanja, udružio se s FER-om u razvoju novog proizvoda. AIDWAS je osmišljen kao alat koji će olakšati ranu identifikaciju događaja koji su prijetnja za pojedinca, grupu ili društvo kako bi poboljšali globalnu sigurnost u online sferi, a time posljedično i u onoj opipljivoj.
Artificial Intelligence Disaster Warning System, skraćeno AIDWAS iliti “sustav za nadzor kibernetičkog prostora” pratit će na internetu sadržaje i objave koji se tiču različitih vrsta incidenata – od elementarnih nepogoda i prirodnih katastrofa do ljudskih katastrofa poput terorizma, ubojstava, eksplozija, nesreća, ali i neke manje događaje poput štrajkova, presuda, prosvjeda, ozljeda i sličnog.
Za razvoj takvog alata Mediatoolkitu će iznimno koristiti iskustva iz razvoja njihove poznate platforme dok će FER kroz svoj TakeLab, laboratorij za strojno učenje i obradu prirodnog jezika, sudjelovati u razvoju umjetne inteligencije kao dijela proizvoda. U razgovoru s Paškom Pajdekom, Mediatoolkitovim Head of Engineeringom, otkrili smo više o projektu koji je sufinanciran sredstvima iz Europske unije, a vrijednost mu iznosi nešto manje od 2 milijuna eura.
Jednostavan pregled prijetnji na razini cijelog svijeta
Za početak, zanimalo nas je saznati više o samom proizvodu i kako bi funkcionirao. Paško pojašnjava kako je alat zapravo spoj nekoliko različitih akcija u pozadini. Prva je prikupljanje velike količine javno dostupnih podataka s primarnim fokusom na informacije dostupne na internetu: u to spadaju vijesti s raznih portala i objave s društvenih platformi. Nakon što su ih prikupili slijedi faza čišćenja podataka od nerelevantnih informacija, a onda glavni dio – obrada.
Ostatak pročišćenih podataka usmjeravamo na algoritme za identifikaciju i ekstrakciju događaja koji filtrira samo one informacije koje sadrže neki od definiranih događaja. Tako od velikog šuma informacija na internetu dolazimo do preciznog pregleda potencijalnih ili realnih prijetnji. Konačne informacije koje AIDWAS pruža su: koji je događaj u pitanju, gdje se odvija, tko su zahvaćene strane, postoje li eventualne žrtve i slično.

Zbog svega navedenog, dodaje, alat će moći dati jednostavan pregled prijetnji na razini cijelog svijeta, s prilagodbom prema krajnjem korisniku koja uključuje razne filtracije – po lokaciji, tipu događaja, po snazi prijetnje.
Kako bi povećali vrijednost koju će AIDWAS pružati u planu je i sustav za pravovremeno obavještavanje koji bi korisnicima poslao obavijest u stvarnom vremenu, točnije u trenu kada se dogodi neki događaj koji zadovoljava postavljene filtere korisnika.
“Gmizanjem” po internetu do 4000 objava u sekundi
Okosnica AIDWAS proizvoda je brzo prikupljanje i obrada podataka s interneta – zato je bitno pojasniti kako se uopće prati internet? Ako već niste naletjeli na termin crawling u tehnološkom žargonu nema boljeg primjera da naučite što je to od Mediatoolkita. Paško crawlere ukratko definira kao automatizirane prikupljače informacija s interneta. Slikovito rečeno, njihov zadatak je da doslovno gmižu po internetu i konstantno provjeravaju promjene na stranici koju su zapamtili.
Oni čitaju HTML kôd neke javne internet stranice i iz njega izvuku sve relevantne informacije poput tekstova, linkova, slika i sl. te posjete eventualne konkretne linkove s novim informacijama i iz njih izvlače nove vijesti.
Mediatoolkit tim je načinom izgradio bazu od preko 100 milijuna web stranica koje crawleri posjećuju u intervalima od svake dvije minute pa do svako par sati – ovisno o količini novih stvari koju neka stranica producira. Uz to, prikupljaju i objave s većine glavnih društvenih mreža poput Facebooka, Twitter, Instagrama, YouTubea i drugih.
Tim procesima prikupimo preko 4000 novih objava u sekundi iz kojih izvlačimo potrebne informacije koje dostavljamo korisnicima.

Kralježnica sustava bit će umjetna inteligencija
Uz širenje pokrivenosti relevantnih izvora koje prate, Mediatoolkit i TakeLab mnogo će pozornosti posvetiti i optimiziranju algoritama strojnog učenja kojima će nastojati uhvatiti sve relevantne informacije uz visoku razinu točnosti.
Ako bismo i okvirno procijenili enorman broj podataka koje Mediatoolkit dnevno “probavi” jasno nam je koliko je za AIDWAS, koji će pratiti čitav internet, tim više važno da se relevantne i točne informacije dobro filtriraju. Zato je jedan od ključnih dijelova razvoja ovog proizvoda komponenta zadužena za izvlačenje evenata od interesa.
Za razvoj te komponente je zadužen FER-ov laboratorij TakeLab na čelu s dr. Janom Šnajderom, jednim od glavnih autoriteta na području umjetne inteligencije i obrade prirodnog jezika u Hrvatskoj, ali i šire, ističe Paško.
Algoritmima umjetne inteligencije kreirat će se komponenta koja će moći prepoznati objave koje spominju evente od definiranog interesa u šumi informacija koju crawleri prikupljaju, kao i izvući najbitnije informacije o eventu bez manualnog rada i puno ljudske intervencije.
A kome bi AIDWAS bio najviše od koristi?

Paško navodi kako je potencijalna primjena AIDWAS-a vrlo široka, ali su se ipak fokusirali na organizacije kojima su obavijesti o prijetnjama na internacionalnoj razini nužne u stvarnom vremenu.
Konkretnije, to su primjerice organizacije usmjerene na nadzor rizičnih događaja na vlastitom teritoriju ali i u susjednim državama, poput vojske. Uz njih, velik broj nevladinih udruga bi mogle koristiti alat za lakše obavještavanje i analizu pojedinih rizičnih događaja. Njihova potreba za detekcijom i obavještavanjem svakako nije novost. Međutim, zaposlenici u tim organizacijama nerijetko “ručno” istražuju i čitaju razne domaće i strane portale i društvene mreže u potrazi za događajima od interesa. AIDWAS drastično smanjuje potrebno vrijeme za dobivanje relevantnih informacija i povećanje efikasnosti organizacija i omogućuje njihovim zaposlenicima da svoje vrijeme ulože u napredak usluga, a ne manualni rad.
Projekt bi mogao biti tema i nekoliko znanstvenih radova
Osim ciljanih korisnika ovog alata, velik izvor znanja i iskustava od projekta imat će i njegovi pokretači. Projektu je iz Mediatoolkita potpuno ili djelomično posvećeno 15-ak stručnjaka. Najviše njih dolazi iz Engineering i Product odjela, ali uključeni su i stručnjaci za istraživanje potreba tržišta i potencijalnih korisnika.
Uz vrhunske inženjere koji na tome rade svakodnevno nadograđujemo znanje, stječemo nova iskustva i podižemo kvalitetu svih naših rješenja, kako AIDWAS-a, tako i Mediatoolkita.
S FER-ove strane, AIDWAS bi mogao upogoniti i nekoliko znanstvenih radova, a Paško ne krije ponos jednog alumnija zbog suradnje.
Vrijedi napomenuti da će projekt vjerojatno producirati nekoliko znanstvenih radova, a možda čak i doktorata na temu ekstrakcije relevantnih događaja iz tekstova prikupljenih crawlanjem online izvora. Ponosni smo što surađujemo s FER-om jer nam dio kolega dolazi s tog fakulteta, a i kao bivši diplomant TakeLaba, osobno mi je drago što je došlo do partnerstva, koje je prava uspješna priča suradnje između znanstvene zajednice i alumnija koji su zakoračili u poslovne vode.
Prototip planiraju imati do kraja 2022.
Kad su u pitanju izazovi rada na ovakvom projektu, jedan od većih će svakako biti razvoj modela koji će moći identificirati događaje na više jezika. Za početak im je u planu osigurati mogućnost izvlačenja znanja iz vijesti na engleskom i hrvatskom, a kasnije i na najvećim europskim jezicima.
Stvar koja nije po sebi lakša, ali s kojom smo upoznatiji je cijela problematika prikupljanja vijesti u realnom vremenu, kao i dizajn arhitekture sustava da bi podržao budući razvoj.
Ipak, Paško dodaje kako su kroz godine razvoja u Mediatoolkitu usvojili veliku količinu tehničkog znanja u području automatiziranog prikupljanja sadržaja pa vjeruje da će i u tom slučaju rad i trud pokazati svoje.
Na proizvodu smo krenuli raditi u Q4 2020. Razvoj je doista kompleksan, no sretan sam što mogu reći da smo daleko dogurali i prototip planiramo imati do kraja ove godine.
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.