AIDWAS alat Mediatoolkita i FER-a online će pratiti incidente u svijetu

2 milijuna € vrijedan projekt Mediatoolkita i FER-a online će pratiti razne incidente i katastrofe u svijetu

Mediatoolkit, domaći scaleup poznat po platformi za praćenje online spominjanja, udružio se s FER-om u razvoju novog proizvoda. AIDWAS je osmišljen kao alat koji će olakšati ranu identifikaciju događaja koji su prijetnja za pojedinca, grupu ili društvo kako bi poboljšali globalnu sigurnost u online sferi, a time posljedično i u onoj opipljivoj.

Artificial Intelligence Disaster Warning System, skraćeno AIDWAS iliti “sustav za nadzor kibernetičkog prostora” pratit će na internetu sadržaje i objave koji se tiču različitih vrsta incidenata – od elementarnih nepogoda i prirodnih katastrofa do ljudskih katastrofa poput terorizma, ubojstava, eksplozija, nesreća, ali i neke manje događaje poput štrajkova, presuda, prosvjeda, ozljeda i sličnog.

Za razvoj takvog alata Mediatoolkitu će iznimno koristiti iskustva iz razvoja njihove poznate platforme dok će FER kroz svoj TakeLab, laboratorij za strojno učenje i obradu prirodnog jezika, sudjelovati u razvoju umjetne inteligencije kao dijela proizvoda. U razgovoru s Paškom Pajdekom, Mediatoolkitovim Head of Engineeringom, otkrili smo više o projektu koji je sufinanciran sredstvima iz Europske unije, a vrijednost mu iznosi nešto manje od 2 milijuna eura.

Jednostavan pregled prijetnji na razini cijelog svijeta

Za početak, zanimalo nas je saznati više o samom proizvodu i kako bi funkcionirao. Paško pojašnjava kako je alat zapravo spoj nekoliko različitih akcija u pozadini. Prva je prikupljanje velike količine javno dostupnih podataka s primarnim fokusom na informacije dostupne na internetu: u to spadaju vijesti s raznih portala i objave s društvenih platformi. Nakon što su ih prikupili slijedi faza čišćenja podataka od nerelevantnih informacija, a onda glavni dio – obrada.

Ostatak pročišćenih podataka usmjeravamo na algoritme za identifikaciju i ekstrakciju događaja koji filtrira samo one informacije koje sadrže neki od definiranih događaja. Tako od velikog šuma informacija na internetu dolazimo do preciznog pregleda potencijalnih ili realnih prijetnji. Konačne informacije koje AIDWAS pruža su: koji je događaj u pitanju, gdje se odvija, tko su zahvaćene strane, postoje li eventualne žrtve i slično.

Nadzirati čitav vidljivi Internet (sa željom da se to proširi i na Deep Web) nije mala stvar pogotovo ne u vrijeme kada imamo skoro dvije aktivne prijetnje: pandemiju u silaznoj putanji i rat u Ukrajini u uzlaznoj. Foto: Mediatoolkit

Zbog svega navedenog, dodaje, alat će moći dati jednostavan pregled prijetnji na razini cijelog svijeta, s prilagodbom prema krajnjem korisniku koja uključuje razne filtracije – po lokaciji, tipu događaja, po snazi prijetnje.

Kako bi povećali vrijednost koju će AIDWAS pružati u planu je i sustav za pravovremeno obavještavanje koji bi korisnicima poslao obavijest u stvarnom vremenu, točnije u trenu kada se dogodi neki događaj koji zadovoljava postavljene filtere korisnika.

“Gmizanjem” po internetu do 4000 objava u sekundi

Okosnica AIDWAS proizvoda je brzo prikupljanje i obrada podataka s interneta – zato je bitno pojasniti kako se uopće prati internet? Ako već niste naletjeli na termin crawling u tehnološkom žargonu nema boljeg primjera da naučite što je to od Mediatoolkita. Paško crawlere ukratko definira kao automatizirane prikupljače informacija s interneta. Slikovito rečeno, njihov zadatak je da doslovno gmižu po internetu i konstantno provjeravaju promjene na stranici koju su zapamtili.

Oni čitaju HTML kôd neke javne internet stranice i iz njega izvuku sve relevantne informacije poput tekstova, linkova, slika i sl. te posjete eventualne konkretne linkove s novim informacijama i iz njih izvlače nove vijesti.

Mediatoolkit tim je načinom izgradio bazu od preko 100 milijuna web stranica koje crawleri posjećuju u intervalima od svake dvije minute pa do svako par sati – ovisno o količini novih stvari koju neka stranica producira. Uz to, prikupljaju i objave s većine glavnih društvenih mreža poput Facebooka, Twitter, Instagrama, YouTubea i drugih.

Tim procesima prikupimo preko 4000 novih objava u sekundi iz kojih izvlačimo potrebne informacije koje dostavljamo korisnicima.

Kroz godine razvoja Mediatoolkitovci su prikupili veliku količinu tehničkog znanja u području automatiziranog prikupljanja sadržaja, a kojeg će iskoristiti za izradu specijaliziranih crawlera za ciljani sadržaj AIDWAS-a.

Kralježnica sustava bit će umjetna inteligencija

Uz širenje pokrivenosti relevantnih izvora koje prate, Mediatoolkit i TakeLab mnogo će pozornosti posvetiti i optimiziranju algoritama strojnog učenja kojima će nastojati uhvatiti sve relevantne informacije uz visoku razinu točnosti.

Ako bismo i okvirno procijenili enorman broj podataka koje Mediatoolkit dnevno “probavi” jasno nam je koliko je za AIDWAS, koji će pratiti čitav internet, tim više važno da se relevantne i točne informacije dobro filtriraju. Zato je jedan od ključnih dijelova razvoja ovog proizvoda komponenta zadužena za izvlačenje evenata od interesa.

Za razvoj te komponente je zadužen FER-ov laboratorij TakeLab na čelu s dr. Janom Šnajderom, jednim od glavnih autoriteta na području umjetne inteligencije i obrade prirodnog jezika u Hrvatskoj, ali i šire, ističe Paško.

Algoritmima umjetne inteligencije kreirat će se komponenta koja će moći prepoznati objave koje spominju evente od definiranog interesa u šumi informacija koju crawleri prikupljaju, kao i izvući najbitnije informacije o eventu bez manualnog rada i puno ljudske intervencije.

A kome bi AIDWAS bio najviše od koristi?

Spominjanje Ukrajine naglo se odrazilo i u sentimentu otkako je počeo rat. Foto: Mediatoolkit

Paško navodi kako je potencijalna primjena AIDWAS-a vrlo široka, ali su se ipak fokusirali na organizacije kojima su obavijesti o prijetnjama na internacionalnoj razini nužne u stvarnom vremenu.

Konkretnije, to su primjerice organizacije usmjerene na nadzor rizičnih događaja na vlastitom teritoriju ali i u susjednim državama, poput vojske. Uz njih, velik broj nevladinih udruga bi mogle koristiti alat za lakše obavještavanje i analizu pojedinih rizičnih događaja. Njihova potreba za detekcijom i obavještavanjem svakako nije novost. Međutim, zaposlenici u tim organizacijama nerijetko “ručno” istražuju i čitaju razne domaće i strane portale i društvene mreže u potrazi za događajima od interesa. AIDWAS drastično smanjuje potrebno vrijeme za dobivanje relevantnih informacija i povećanje efikasnosti organizacija i omogućuje njihovim zaposlenicima da svoje vrijeme ulože u napredak usluga, a ne manualni rad.

Projekt bi mogao biti tema i nekoliko znanstvenih radova

Osim ciljanih korisnika ovog alata, velik izvor znanja i iskustava od projekta imat će i njegovi pokretači. Projektu je iz Mediatoolkita potpuno ili djelomično posvećeno 15-ak stručnjaka. Najviše njih dolazi iz Engineering i Product odjela, ali uključeni su i stručnjaci za istraživanje potreba tržišta i potencijalnih korisnika.

Uz vrhunske inženjere koji na tome rade svakodnevno nadograđujemo znanje, stječemo nova iskustva i podižemo kvalitetu svih naših rješenja, kako AIDWAS-a, tako i Mediatoolkita.

S FER-ove strane, AIDWAS bi mogao upogoniti i nekoliko znanstvenih radova, a Paško ne krije ponos jednog alumnija zbog suradnje.

Vrijedi napomenuti da će projekt vjerojatno producirati nekoliko znanstvenih radova, a možda čak i doktorata na temu ekstrakcije relevantnih događaja iz tekstova prikupljenih crawlanjem online izvora. Ponosni smo što surađujemo s FER-om jer nam dio kolega dolazi s tog fakulteta, a i kao bivši diplomant TakeLaba, osobno mi je drago što je došlo do partnerstva, koje je prava uspješna priča suradnje između znanstvene zajednice i alumnija koji su zakoračili u poslovne vode.

Molimo da prihvatite sve kolačiće kako biste mogli vidjeti ovaj sadržaj

Prototip planiraju imati do kraja 2022.

Kad su u pitanju izazovi rada na ovakvom projektu, jedan od većih će svakako biti razvoj modela koji će moći identificirati događaje na više jezika. Za početak im je u planu osigurati mogućnost izvlačenja znanja iz vijesti na engleskom i hrvatskom, a kasnije i na najvećim europskim jezicima.

Stvar koja nije po sebi lakša, ali s kojom smo upoznatiji je cijela problematika prikupljanja vijesti u realnom vremenu, kao i dizajn arhitekture sustava da bi podržao budući razvoj.

Ipak, Paško dodaje kako su kroz godine razvoja u Mediatoolkitu usvojili veliku količinu tehničkog znanja u području automatiziranog prikupljanja sadržaja pa vjeruje da će i u tom slučaju rad i trud pokazati svoje.

Na proizvodu smo krenuli raditi u Q4 2020. Razvoj je doista kompleksan, no sretan sam što mogu reći da smo daleko dogurali i prototip planiramo imati do kraja ove godine.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Ekskluzivno

57hours Viktora Marohnića narastao 4 puta i osigurao još 2,75 milijuna dolara

U ekskluzivnom intervjuu za Netokraciju, suosnivač brzorastuće avanturističke platforme Viktor Marohnić, sa svojim investitorima, otkriva planove.

Tvrtke i poslovanje

7 savjeta za učinkovitu izradu poslovnog plana (posebno za one koji nemaju vremena)

Nisu bez razloga velikani povijesti od Sun Tzua do Dwight D. Eisenhowera pričali o planiranju kao o svetom gralu uspjeha - i ne stoji bez razloga ona narodna: dobra organizacija je pola posla.

Novost

Peta kriptomarka Hrvatske pošte su neponovljivi profesor Baltazar i njegovi izumi

Peto izdanje kriptomarke, koja dolazi u analognom i digitalnom obliku, Hrvatska pošta pustila je u optjecaj!

Što ste propustili

Tvrtke i poslovanje

Sretan mu 25. rođendan: Kako smo počeli koristiti Googleove proizvode – i zašto (ne)ćemo nastaviti?

Povodom Googleovog rođendana prisjećamo se njegove prošlosti, nepobitnog utjecaja na sve digitalno što danas radimo, ali gledamo i u blisku budućnost koju će obilježiti dvije ključne riječi - umjetna inteligencija i monopol. Nismo propustili priliku ni nostalgično se prisjetiti pozivnica za Gmail, Googleovih pokušaja da napravi društvenu mrežu ili prvih susreta s Googleom, što je za neke zapravo bio YouTube.

Novost

U ZICER-u startupe čeka 150.000 eura, a prijave za akceleracijske programe traju još samo ovaj tjedan

Vodeći hrvatski startup hub ZICER otvorio i program za uspješno lansiranje na globalno tržište.

Umjetna inteligencija

500 tisuća korisnika koristi tehnologiju ovog hrvatskog AI startupa

S vremena na vrijeme, pojavi se neki startup koji marljivo radi "ispod radara", a onda odluči podijeliti svoju priču. Prvi donosimo intervju s TensorPixom koji od nedavno broji preko pola milijuna korisnika.

Izvještaj

Lekcije inženjerke iz Shopifya: kako koristiti AI za brži, bolji i lakši razvoj softvera?

Umjetna inteligencija i inženjeri. Nekada se vole, nekada mrze, ali činjenica je da AI inženjerima može olakšati pisanje koda... (ako i sami znaju što rade).

Tvrtke i poslovanje

Sofascore i Span: Zašto se nismo prodali? Jer nam to ne treba – ako imaš tri auta, možeš voziti samo jedan.

Investicije i preuzimanja domaćih tvrtki glavne su teme naše male poduzetničke scene, ali koliko god se pričalo, često tema o neovisnosti ostane postrani. Srećom, ove godine se otvorila na 16. Weekendu.

Programiranje

“Design Handoff” je proces zbog kojeg developer i dizajner ne moraju imati “standoff”

Predaja bilokakvog projekta ne završava s vašom točkom na kraju - nego svih kojih se taj projekt usko tiče. Uz Neuralab prolazimo kako od “ja sam svoje riješio” doći do kvalitetnog, strukturiranog “design handoffa” koji će značajno olakšati život svima uključenima: dizajnerima, developerima, PM-ovima, klijentima…