AIDWAS alat Mediatoolkita i FER-a online će pratiti incidente u svijetu

2 milijuna € vrijedan projekt Mediatoolkita i FER-a online će pratiti razne incidente i katastrofe u svijetu

Mediatoolkit, domaći scaleup poznat po platformi za praćenje online spominjanja, udružio se s FER-om u razvoju novog proizvoda. AIDWAS je osmišljen kao alat koji će olakšati ranu identifikaciju događaja koji su prijetnja za pojedinca, grupu ili društvo kako bi poboljšali globalnu sigurnost u online sferi, a time posljedično i u onoj opipljivoj.

Artificial Intelligence Disaster Warning System, skraćeno AIDWAS iliti “sustav za nadzor kibernetičkog prostora” pratit će na internetu sadržaje i objave koji se tiču različitih vrsta incidenata – od elementarnih nepogoda i prirodnih katastrofa do ljudskih katastrofa poput terorizma, ubojstava, eksplozija, nesreća, ali i neke manje događaje poput štrajkova, presuda, prosvjeda, ozljeda i sličnog.

Za razvoj takvog alata Mediatoolkitu će iznimno koristiti iskustva iz razvoja njihove poznate platforme dok će FER kroz svoj TakeLab, laboratorij za strojno učenje i obradu prirodnog jezika, sudjelovati u razvoju umjetne inteligencije kao dijela proizvoda. U razgovoru s Paškom Pajdekom, Mediatoolkitovim Head of Engineeringom, otkrili smo više o projektu koji je sufinanciran sredstvima iz Europske unije, a vrijednost mu iznosi nešto manje od 2 milijuna eura.

Jednostavan pregled prijetnji na razini cijelog svijeta

Za početak, zanimalo nas je saznati više o samom proizvodu i kako bi funkcionirao. Paško pojašnjava kako je alat zapravo spoj nekoliko različitih akcija u pozadini. Prva je prikupljanje velike količine javno dostupnih podataka s primarnim fokusom na informacije dostupne na internetu: u to spadaju vijesti s raznih portala i objave s društvenih platformi. Nakon što su ih prikupili slijedi faza čišćenja podataka od nerelevantnih informacija, a onda glavni dio – obrada.

Ostatak pročišćenih podataka usmjeravamo na algoritme za identifikaciju i ekstrakciju događaja koji filtrira samo one informacije koje sadrže neki od definiranih događaja. Tako od velikog šuma informacija na internetu dolazimo do preciznog pregleda potencijalnih ili realnih prijetnji. Konačne informacije koje AIDWAS pruža su: koji je događaj u pitanju, gdje se odvija, tko su zahvaćene strane, postoje li eventualne žrtve i slično.

Nadzirati čitav vidljivi Internet (sa željom da se to proširi i na Deep Web) nije mala stvar pogotovo ne u vrijeme kada imamo skoro dvije aktivne prijetnje: pandemiju u silaznoj putanji i rat u Ukrajini u uzlaznoj. Foto: Mediatoolkit

Zbog svega navedenog, dodaje, alat će moći dati jednostavan pregled prijetnji na razini cijelog svijeta, s prilagodbom prema krajnjem korisniku koja uključuje razne filtracije – po lokaciji, tipu događaja, po snazi prijetnje.

Kako bi povećali vrijednost koju će AIDWAS pružati u planu je i sustav za pravovremeno obavještavanje koji bi korisnicima poslao obavijest u stvarnom vremenu, točnije u trenu kada se dogodi neki događaj koji zadovoljava postavljene filtere korisnika.

“Gmizanjem” po internetu do 4000 objava u sekundi

Okosnica AIDWAS proizvoda je brzo prikupljanje i obrada podataka s interneta – zato je bitno pojasniti kako se uopće prati internet? Ako već niste naletjeli na termin crawling u tehnološkom žargonu nema boljeg primjera da naučite što je to od Mediatoolkita. Paško crawlere ukratko definira kao automatizirane prikupljače informacija s interneta. Slikovito rečeno, njihov zadatak je da doslovno gmižu po internetu i konstantno provjeravaju promjene na stranici koju su zapamtili.

Oni čitaju HTML kôd neke javne internet stranice i iz njega izvuku sve relevantne informacije poput tekstova, linkova, slika i sl. te posjete eventualne konkretne linkove s novim informacijama i iz njih izvlače nove vijesti.

Mediatoolkit tim je načinom izgradio bazu od preko 100 milijuna web stranica koje crawleri posjećuju u intervalima od svake dvije minute pa do svako par sati – ovisno o količini novih stvari koju neka stranica producira. Uz to, prikupljaju i objave s većine glavnih društvenih mreža poput Facebooka, Twitter, Instagrama, YouTubea i drugih.

Tim procesima prikupimo preko 4000 novih objava u sekundi iz kojih izvlačimo potrebne informacije koje dostavljamo korisnicima.

Kroz godine razvoja Mediatoolkitovci su prikupili veliku količinu tehničkog znanja u području automatiziranog prikupljanja sadržaja, a kojeg će iskoristiti za izradu specijaliziranih crawlera za ciljani sadržaj AIDWAS-a.

Kralježnica sustava bit će umjetna inteligencija

Uz širenje pokrivenosti relevantnih izvora koje prate, Mediatoolkit i TakeLab mnogo će pozornosti posvetiti i optimiziranju algoritama strojnog učenja kojima će nastojati uhvatiti sve relevantne informacije uz visoku razinu točnosti.

Ako bismo i okvirno procijenili enorman broj podataka koje Mediatoolkit dnevno “probavi” jasno nam je koliko je za AIDWAS, koji će pratiti čitav internet, tim više važno da se relevantne i točne informacije dobro filtriraju. Zato je jedan od ključnih dijelova razvoja ovog proizvoda komponenta zadužena za izvlačenje evenata od interesa.

Za razvoj te komponente je zadužen FER-ov laboratorij TakeLab na čelu s dr. Janom Šnajderom, jednim od glavnih autoriteta na području umjetne inteligencije i obrade prirodnog jezika u Hrvatskoj, ali i šire, ističe Paško.

Algoritmima umjetne inteligencije kreirat će se komponenta koja će moći prepoznati objave koje spominju evente od definiranog interesa u šumi informacija koju crawleri prikupljaju, kao i izvući najbitnije informacije o eventu bez manualnog rada i puno ljudske intervencije.

A kome bi AIDWAS bio najviše od koristi?

Spominjanje Ukrajine naglo se odrazilo i u sentimentu otkako je počeo rat. Foto: Mediatoolkit

Paško navodi kako je potencijalna primjena AIDWAS-a vrlo široka, ali su se ipak fokusirali na organizacije kojima su obavijesti o prijetnjama na internacionalnoj razini nužne u stvarnom vremenu.

Konkretnije, to su primjerice organizacije usmjerene na nadzor rizičnih događaja na vlastitom teritoriju ali i u susjednim državama, poput vojske. Uz njih, velik broj nevladinih udruga bi mogle koristiti alat za lakše obavještavanje i analizu pojedinih rizičnih događaja. Njihova potreba za detekcijom i obavještavanjem svakako nije novost. Međutim, zaposlenici u tim organizacijama nerijetko “ručno” istražuju i čitaju razne domaće i strane portale i društvene mreže u potrazi za događajima od interesa. AIDWAS drastično smanjuje potrebno vrijeme za dobivanje relevantnih informacija i povećanje efikasnosti organizacija i omogućuje njihovim zaposlenicima da svoje vrijeme ulože u napredak usluga, a ne manualni rad.

Projekt bi mogao biti tema i nekoliko znanstvenih radova

Osim ciljanih korisnika ovog alata, velik izvor znanja i iskustava od projekta imat će i njegovi pokretači. Projektu je iz Mediatoolkita potpuno ili djelomično posvećeno 15-ak stručnjaka. Najviše njih dolazi iz Engineering i Product odjela, ali uključeni su i stručnjaci za istraživanje potreba tržišta i potencijalnih korisnika.

Uz vrhunske inženjere koji na tome rade svakodnevno nadograđujemo znanje, stječemo nova iskustva i podižemo kvalitetu svih naših rješenja, kako AIDWAS-a, tako i Mediatoolkita.

S FER-ove strane, AIDWAS bi mogao upogoniti i nekoliko znanstvenih radova, a Paško ne krije ponos jednog alumnija zbog suradnje.

Vrijedi napomenuti da će projekt vjerojatno producirati nekoliko znanstvenih radova, a možda čak i doktorata na temu ekstrakcije relevantnih događaja iz tekstova prikupljenih crawlanjem online izvora. Ponosni smo što surađujemo s FER-om jer nam dio kolega dolazi s tog fakulteta, a i kao bivši diplomant TakeLaba, osobno mi je drago što je došlo do partnerstva, koje je prava uspješna priča suradnje između znanstvene zajednice i alumnija koji su zakoračili u poslovne vode.

Prototip planiraju imati do kraja 2022.

Kad su u pitanju izazovi rada na ovakvom projektu, jedan od većih će svakako biti razvoj modela koji će moći identificirati događaje na više jezika. Za početak im je u planu osigurati mogućnost izvlačenja znanja iz vijesti na engleskom i hrvatskom, a kasnije i na najvećim europskim jezicima.

Stvar koja nije po sebi lakša, ali s kojom smo upoznatiji je cijela problematika prikupljanja vijesti u realnom vremenu, kao i dizajn arhitekture sustava da bi podržao budući razvoj.

Ipak, Paško dodaje kako su kroz godine razvoja u Mediatoolkitu usvojili veliku količinu tehničkog znanja u području automatiziranog prikupljanja sadržaja pa vjeruje da će i u tom slučaju rad i trud pokazati svoje.

Na proizvodu smo krenuli raditi u Q4 2020. Razvoj je doista kompleksan, no sretan sam što mogu reći da smo daleko dogurali i prototip planiramo imati do kraja ove godine.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Tehnologija

Modrić, papige i printeri znaju da nas roboti neće zamijeniti

Poplava GPT-4 gurua i Microsoft vs Google utrke stvara dojam friške revolucije, no umjetna inteligencija već desetljećima skriva iste kosture u ormaru. Dobrih ideja i rješenja ima mnogo. Lovaca u mutnom vjerojatno i više. Pitanje je samo - tko će biti glasniji?

Društvene mreže

Sve više mama-influencerica skriva lica svoje djece s interneta. I to je ispravna odluka.

Djeca influencera i djeca influenceri koja su odrasla na internetu danas na pragu zrelosti osvještavaju da im se zapravo nije sviđalo djetinjstvo pred kamerama i u suradnjama s brendovima. Ujedno je i sve više i daleko ozbiljnijih situacija gdje iskorištavanje djece na internetu graniči s kaznenim djelima.

Kolumna

Što zajedničko imaju cajke, McDonald’s i Jack Daniels? Izvrsno targetiranje potreba.

“Zašto su cajke toliko popularne?" pitanje je koje se svako malo vrati "na tapet". Na tom tapetu uz cajke i neke druge ukuse i interese sjede razni brendovi koje određene skupine štuju kao dio njihovog identiteta. Pitanje brendinga proizvoda tako više nije samo marketinško, kao što ni pitanje cajki - nije samo glazbeno.

Što ste propustili

Tvrtke i poslovanje

Google dobio zeleno svjetlo za akviziciju Photomatha

Službeno je - aplikacija Damira Sabola koja pomaže kod učenja matematike postat će dio Googlea.

Tvrtke i poslovanje

Factory se u potpunosti oprostio s Plavom tvornicom i doživio potpuni rebranding

Iako je Plava tvornica još ranije promijenila ime u Factory, sada ostaje i bez prepoznatljive plave boje doživjevši kompletan rebranding. Koliko je takav korak bio zahtjevan, ali i potreban, otkrila nam je direktorica marketinga Marijana Butorac.

Zabava i zanimljivosti

Kako su Konzumovi plišani Zvjerići uz AR tehnologiju postali virtualne igračke?

Kampanje maloprodajnih lanaca koje potiču pozitivne promjene, ali u isto vrijeme nude zabavne sadržaje za djecu u Hrvatskoj su sve popularnije. Konzum ponovno ide korak dalje i u najnovijoj takvoj kampanji donosi virtualne likove Zvjerića.

Panel

Što Infobip, ReversingLabs i Syntio uče studente na FER-u?

S poznatim hrvatskim tvrtkama razgovaramo o njihovim "vještinama" na FER-u: od osnova kako su koncipirali kurikulum kolegija i što bi savjetovali drugima koji planiraju isto, do toga što im je bio prioritet prenijeti studentima u vezi njihovog područja rada i kako su se polaznici snašli s pojedinom materijom.

Netokracija Podcast

Matija Nakić: Kako u krizi privući investitore i velike klijente, a kako veteranski kadar?

U novoj epizodi Netokracija podcasta, o građenju odnosa s investitorima, privlačenju veterana u tim i investicijskoj klimi iz perspektive jednog startupa pričamo sa su-osnivačicom Farseera, Matijom Nakić.

Intervju

Andrea Knez Karačić: Broj godina iskustva ne određuje nečiji senioritet

U seriji intervjua s iskusnim inženjerima domaće IT industrije otkrivamo kako su izgledali njihovi karijerni putovi, kako se postaje senior i ostaje u tijeku s novim tehnologijama, je li bolje specijalizirati se za određenu tehnologiju ili biti generalist i - što bi savjetovali juniorima.