Upoznajte Retriever, platformu FER-ovog TakeLaba koja rudari po 30 domaćih web portala

Upoznajte Retriever, platformu FER-ovog TakeLaba koja rudari po 30 domaćih web portala

Retriever zagrebačkog TakeLaba može analizirati milijune članaka objavljenih na hrvatskome u posljednjih 20 godina, a sprema se i na iskorak u regiju. 

TakeLab (Text Analysis and Knowledge Engineering Lab) osnovali su 2012. godine profesori zagrebačkog Fakulteta elektrotehnike i računarstva (FER) Bojana Dalbelo Bašić i Jan Šnajder, na temeljima laboratorija koji je prije toga aktivno djelovao od 2006. godine. Od osnivanja, TakeLab se bavi istraživanjem u području umjetne inteligencije, specifično području obrade prirodnog jezika.

Kako je Netokraciji rekao David Dukić, asistent i doktorand na zagrebačkom Fakultetu elektrotehnike i računarstva (FER) koji vodi njihov trenutno najzanimljiviji projekt Retriever:

Razvijamo modele i algoritme za semantičku analizu teksta. Pogotovo nas zanimaju obrade velike količine teksta.

Između ostalog, intenzivno se bavimo matematičkom analizom neuronskih jezičnih modela, s ciljem razvoja metoda koje će poboljšati rad tih algoritama.

Želimo razviti metode koje će omogućiti trening jezičnih modela s manjom količinom podataka i manje parametara, a da rade jednako dobro kao da su trenirani na većoj količini podataka, što je vrlo važno s obzirom na cijenu i dostupnost računalnih resursa.

Na tim temama radi u TakeLabu nekoliko doktoranda, dodaje.

Kako do smislene analize teksta

Njihov drugi istraživački pravac, u koji je uključeno više istraživača, tiče se primjene algoritama obrade prirodnog jezika, prvenstveno neuronskih modela, u domeni društvene znanosti.

Na primjer, u okviru projekta psy.txt, koji financira Hrvatska zaklada za znanost, u TakeLabu razvijaju modele za analizu crta ličnosti autora tekstova na društvenim mrežama. Na tom projektu surađuju s psiholozima sa Filozofskog fakulteta u Zagrebu.

Na projektu ADMO (Adria Digital Media Observatory), na kojemu, pored ostaloga, surađuju sa znanstvenicima s zagrebačkog Fakulteta političkih znanosti te sa Sveučilišta u Dubrovniku, razvijaju računalne modele za otkrivanje potencijalnih dezinformacija na društvenim mrežama i portalima.

Zanima ih i analiza subjektivnog teksta pa su tako nedavno razvili model za analizu sentimenta (pozitivnog, negativnog ili neutralnog stava) prema osobama u hrvatskim novinskim naslovima.

Taj algoritam samo što nije ugrađen u Retriever, tako da će uskoro biti dostupan svima.

Općenito, sve što razvijamo u TakeLabu ima za cilj ili produbiti naše shvaćanje algoritama za obradu jezika ili razviti vrlo praktične sustave koji ljudima omogućavaju izvođenje smislene analize nad tekstnim podacima, bilo da je riječ o stručnjacima ili običnim korisnicima.

20 godina u povijest

Iako TakeLab ima mnoštvo projekata o kojima bismo mogli otkriti zanimljive detalje, nas je ovaj put posebno zainteresirao Retriever, platforma koja koristi algoritme za rudarenje teksta i LLM-ove za automatsku analizu semantike te koncizno predstavljanje članaka s hrvatskih web portala.

Namijenjena je političkim znanstvenicima, medijskim analitičarima, psiholozima i sociolozima te drugim zainteresiranim stručnjacima (uz podnošenje zahtjeva), a može analizirati i predstaviti oko osam milijuna hrvatskih članaka objavljenih u posljednjih 20 godina.

Ranije spomenuta suradnja sa znanstvenicima s drugih fakulteta (prvenstveno sociolozima i politolozima) posebno je definirala smjer razvoja sustava i funkcionalnosti TakeLab platforme. Uostalom, sama potreba za takvom platformom proizašla je iz suradnje sa znanstvenicima drugih područja, prvenstveno iz područja društvenih znanosti kojima je fokus na istraživanju online medija.

U te svrhe se inače koriste opće tražilice poput Googlea i Binga, odnosno specijalizirana rješenja koja nude agencije za press clipping. Ali, opće tražilice nisu prilagođene za dubinski semantičku analizu članaka s web portala. Ne samo zbog ograničene mogućnosti pretrage i pronalaska sadržaja, već i zbog jezičnog ograničenja – o čemu više kasnije.

Pokriva više od 30 hrvatskih web portala

Ne čudi stoga što je ideja za razvoj sustava koji bi pratio i analizirao informacije s hrvatskih portala nastala u TakeLabu još 2008. godine. Prvo ostvarenje te ideje bio je studentski preddiplomski projekt “News Explorer“, u kojemu je ranu verziju Retrievera napravila grupa entuzijastičnih FER-ovih studenata pod mentorstvom prof. Dalbelo Bašić i prof. Šnajdera. Voditelj tog projekta bio je tadašnji student Ivan Krišto koji i danas, 15 godina kasnije, sudjeluje u njegovom razvoju.

“News Explorer” je omogućavao korisniku praćenje tema i osoba o kojima se piše, dajući tako uvid u sadašnjost i povijest hrvatskih web portala. Iz te je ideje izrastao TakeLab Retriever, koji danas pokriva više od 30 hrvatskih web portala i omogućuje semantičku pretragu prošlih i sadašnjih članaka putem web aplikacije. Članke je moguće pretraživati pomoću fraza, osoba, lokacija, organizacija i tema koje se pojavljuju u njima.

Kako radi Retriever?

U Retrieveru je trenutačno moguće pretraživati članke prema frazama i entitetima (osobe, lokacije, organizacije) koje se u njima pojavljuju, a također i prema temama članaka.

Fraze, entitete i teme nazivamo ograničenjima pretrage. Ta ograničenja mogu biti proizvoljno kompleksna i kombiniraju se Booleovim izrazima (i, ili, ne). Rezultat analize je graf koji prikazuje broj članaka kroz vrijeme koji se podudaraju s upitom. 

Na grafu je moguće prikazati više upita istovremeno. Korisnik može na taj način otkriti uzorke, trendove i korelacije koje je gotovo nemoguće uočiti ručnom pretragom članaka.

Dodatna prednost je što za svaki odabrani period pretrage i za svaku liniju na grafu korisnik može dobiti izvore korištene za kreiranje grafova – članke i njihove metapodatke. Tako, recimo, možete pronaći sve članke s temom “sport” u kojima se spominje izbornik nogometne reprezentacije Zlatko Dalić i to usporediti sa svim člancima gdje se Dalić spominje, ali ne sadrže temu “sport”.

U web-aplikaciji TakeLab Retriever moguće je u nekoliko klikova izgenerirati grafove koji se podudaraju s upitima, usporediti ih te preuzeti poveznice na konkretne članke koji su korišteni za kreiranje grafova.

Na slici ispod možete vidjeti rezultat opisane pretrage:

Naravno, kako područje umjetne inteligencije i obrade prirodnoga jezika napreduje, tako se i očekivanja što sustav može povećavaju.

Planiramo u Retriever ugraditi sve najnovije metode za koje smatramo da bi mogle povećati kvalitetu semantičke analize teksta.

Najveći izazov: promjene na portalima

Razvoj Retrievera trajao je četiri godine, a u današnjem obliku postoji nešto više od godinu dana. Na projektu je svoje vještine u programskom inženjerstvu i obradi prirodnoga jezika brusilo više od deset studenata FER-a – što volonterski, što uz honorar – među kojima je bio i Dukić.

Platforma je većinski napisana u programskom jeziku Python. Ima mikroservisnu arhitekturu i jedino gotovo rješenje koje koristi je komponenta za ekstrakciju teksta i metapodataka (naslov, datum objave i slično) iz sirovog HTML-a članaka.

Ostale komponente su napisane više-manje od nule, komentira Dukić:

Za frontend koristimo Vue.js i Tailwind CSS. Svaki model obrade prirodnog jezika koji omogućuje pretragu članaka prilagođen je za potrebe sustava i hrvatskog jezika.

Korištene arhitekture modela umjetne inteligencije standardne su za područje obrade prirodnog jezika. Na primjer, korišteni su transformer modeli prilagođeni za obradu novinskih tekstova na hrvatskome jeziku.

Jedan od najvećih izazova tijekom razvoja bila je – a i dalje je – neusuglašenost oblika u kojima se članci na hrvatskim web portalima pojavljuju.

U početku smo sami pisali ekstraktore teksta iz HTML-a za svaki portal zasebno. Brzo nam se to obilo o glavu kad smo shvatili koliko često portali mijenjaju izgled HTML-a i dizajn. 

Prije nešto više od godinu dana smo čitav sustav napisali iz nule, poučeni greškama u početnom razvoju. Prešli smo na mikroservisnu arhitekturu, napisali kod koji koristi generični ekstraktor podataka iz HTML-a i nove frontend tehnologije.

Prožeto umjetnom inteligencijom

Puno izazova postavio je i razvoj umjetne inteligencije, ali su ih lakše svladali jer su u timu prvenstveno znanstvenici koji se bave upravo tim područjem, pa tek potom programeri.

Svaki oblik pretrage koji sustav podržava temeljen je na modelima umjetne inteligencije.

Na primjer, sustav podržava pretragu po temama članaka, a u pozadini je model za hrvatski jezik koji dodjeljuje jednu ili više tema člancima na temelju semantičkog sadržaja. 

Slično tome, imamo model za pronalazak entiteta u tekstu (osobe, lokacije, organizacije) i model za analizu sentimenta u naslovima članaka.

Neki od tih modela još nisu pušteni u web-aplikaciju.

U pripremi je API za vanjske korisnike

Dukić ističe kako su najviše ponosni na odjek koji je sustav ostvario u znanstvenoj zajednici. Znanstvenici iz područja društvenih znanosti koriste TakeLab Retriever u svojim istraživanjima i dojmovi su, prema njegovim riječima, vrlo pozitivni.

Sustav ubrzava provođenje istraživanja i omogućuje donošenje zaključaka na većem uzorku članaka te otkrivanje fenomena koji su nevidljivi ili teško dokučivi ručnom analizom uz pomoć općih tražilica.

Njihovi korisnici trenutno i jesu uglavnom znanstvenici iz područja društvenih znanosti, no Dukić navodi kako bi potencijalni budući korisnici mogle biti fizičke i pravne osobe koje su dio javne sfere i spominju se na hrvatskim web-portalima. 

Njima bi Retriever mogao biti zanimljiv jer bi mogli vidjeti i pratiti kako se spominju na hrvatskim portalima, u kojim kontekstima, periodima i kako se supojavljuju sa spominjanjima drugih fizičkih i pravnih osoba.

Iako Retriever nije trenutno otvoren za širu javnost, zahtjev za pristup i korištenje moguće je zatražiti ispunjavanjem obrasca na poveznici.

Međutim, u planu je i razvoj API-ja koji će u potpunosti biti namijenjen vanjskim korisnicima. Dukić kaže kako još razmatraju koji će dio Retrievera pustiti u javnost za napredne korisnike i kako to najbolje napraviti.

Prvo moramo bolje razumjeti što napredni korisnici sustava žele i kako im to najbolje ponuditi.

Što dalje: Spin-off startup, širenje na regiju?

U TakeLabu trenutno vrijedno rade na prikupljanju korisnika i ispitivanju Retrievera, podizanju kvalitete ekstrakcije teksta i primjeni modela umjetne inteligencije…

Također razmatraju i opcije kako financirati daljnji razvoj sustava. Jedna od njih je i pokretanje FER-ovog spin-off projekta, ako uspiju pronaći zainteresirane investitore. U međuvremenu dinamika razvoja sustava ovisi o slobodnom vremenu nekolicine doktoranada i vanjskih suradnika TakeLaba.

Zasad je u planu sustav proširiti na portale država južnoslavenskoga govornog područja. Za početak, to će biti Bosna i Hercegovina te Srbija.

No, prije toga će pokriti još nekoliko hrvatskih portala, kako bi omogućili analizu još većeg broja članaka.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

eUsluge

Grad Zagreb omogućio potpun uvid u proračun kroz aplikaciju iTransparentnost

Nova aplikacija omogućuje svakom građaninu da detaljno prouči gradski porarčun po različitim parametrima.

Startupi

Što je to R&D potencijal – i kakve veze ima s razvojem startupa?

Je li startup nacija u kojoj su nastali tech giganti kao Skype, Wise, Bolt i Pipedrive to postala slučajno, otkrijte sa mnom na putu u Estoniju.

Nesortirano

Što je Akt o čipovima – i kako će doprinjeti tehnološkom razvitku Hrvatske

Jačanje konkurentnosti Europske unije u industriji poluvodiča prilika je i za Hrvatsku koja u sklopu 43 milijarde eura vrijedne incijative priprema otvaranje edukacijskih centara.

Što ste propustili

Panel

Hrvatski game developeri o stvaranju “ozbiljnih” videoigara

S predstavnicima game dev studija, ali i drugih privatnih tvrtki i dobrotvornih organizacija, raspravljamo o razvoju videoigara kojima svrha nije samo zabava, već i edukacija.

Intervju

Ivan Mrvoš: “Include više nije samo ‘onaj mali s pametnim klupama'”

Include, solinski startup poznat po pametnim klupama Steora, okrenuo se razvoju i proizvodnji novih proizvoda. Mrvoš, koji još nema ni 30 godina, a već je iskusni poduzetnik s respektabilnom karijerom, za Netokraciju je ispričao kako se i koliko ta tvrtka promijenila. Nedavno smo mogli pročitati da bi mogli promijeniti i vlasnika...

Esport

Peta sezona SET-a zaključena u Infobipu: Od 22 fakulteta pobjednički je varaždinski FOI

Student Esports Tournament, jedan od najpoznatijih studentskih esport događaja u Hrvatskoj, petu sezonu završio je u spektakularnoj LAN završnici koja se održala u prostorima Infobipa u Zagrebu.

Novost

Goran Bosankić u Field39 stiže na poziciju Chief Revenue Officera

Nakon više od 6 godina u Assecu SEE, a potom isto toliko u ABC Tech grupi, Goran Bosankić dolazi u Field39 kao Chief Revenue Officer i član Upravnog odbora.

Digitalni marketing

Super Bowl fenomen iliti “Vrijeme je da se vratite pred TV. Počinju reklame.”

Dok sam bio u Americi netom prije Super Bowla jedno mi je postalo jasno. Američki nogomet tamo je religija, a SuperBowl kao Božić. Samo što se za ovaj Božić svi okupe oko TV-a gledati reklame!

Novost

Teo Širola iz Muzeja iluzija proglašen najboljim mladim menadžerom 2023. godine

Hrvatsko udruženje menadžera i poduzetnika (HUM) CROMA dodijelilo je predsjedniku tvrtke Metamorfoza, koja upravlja globalnom mrežom Muzeja iluzija, nagradu za mladog menadžera 2023. godine.