Uz "Hrvojku" AI ulazi i u našu državnu upravu, zašto je to danas moguće saznajemo od računalnog lingvista

Uz “Hrvojku” AI ulazi i u našu državnu upravu, zašto je to danas moguće saznajemo od računalnog lingvista

Prije samo nekoliko godina ismijavali smo rezultate alata za strojno prevođenje, a onda smo odjednom ostali zatečeni njihovom visokom kvalitetom. Što se dogodilo, kako su na brzinu postali tako pametni? O napretku koji je u obradu jezika donijela umjetna inteligencija popričali smo s računalnim lingvistom dr. Markom Tadićem, a dotaknuli smo se i državnog hrvatskog jezičnog portala Hrvojka.

Za početak, budući da to baš i nije često zanimanje, otkrijmo kako se postaje računalni lingvist i čime se on zapravo bavi.

Nakon diplome iz opće lingvistike, fonetike i društveno-humanističke informatike Marko Tadić posvetio se korpusnoj i računalnoj lingvistici. Vodio je razvoj Hrvatskoga nacionalnog korpusa (HNK), početkom stoljeća tada najvećega korpusa za hrvatski jezik, godine 2007. pokrenuo je izradu tzv. Hrvatske ovisnosne banke stabala, prvoga korpusa koji je uključivao i sintaktičke, a kasnije i semantičke oznake i na temelju kojega je dr. Željko Agić izradio prvi opći parser za hrvatski jezik, tj. program koji analizira sintaktičku strukturu hrvatskih rečenica.

Marko Tadić radio je na mnogim općim i specijaliziranim korpusima hrvatskoga jezika i raznim alatima za računalnu obradu prirodnoga jezika, a osobito su eksponirani projekti strojnoga prevođenja kao što su Prevoditelj za predsjedanje Vijećem EU-a i upravo završen projekt Nacionalna platforma za jezične tehnologije, čiji je rezultat portal Hrvojka, koja je i povod ovog teksta i o kojoj će više riječi biti u nastavku.

A zašto je računalna lingvistika uopće važna?

Računalna obrada jezika, tj. računalna lingvistika, pridonosi cjelini UI-ja jer se osim računalnoga gledanja, robotike, pamćenja, zaključivanja i strateškoga i taktičkoga rezoniranja, upravo uporaba prirodnoga jezika smatra jednom od ključnih sastavnica svakoga sustava od kojega očekujemo da se ponaša na način na koji se inteligentni ljudi ponašaju. Uostalom, od samih početaka UI-ja sama temeljna provjera ima li neki sustav inteligentne osobine jest zapravo jezični i/li govorni test, tzv. Turingov test.

Naravno, razgovor o strojnom prevođenju ne može proći bez pitanja o produktivnosti koju ono donosi, što mu je uostalom i glavna svrha, pa smo i to htjeli to raščistiti već na početku.

U prosjeku korištenje strojnoga prevođenja i strojno potpomognutoga prevođenja ubrzava postupak prevođenja do 35%. To ne znači da će 35 % prevoditelja ostati bez posla, nego će profesionalni prevoditelji korištenjem te tehnologije prevoditi za oko trećinu vremena brže,

kaže Marko i odmah dodaje za koje je tipove tekstova ono namijenjeno:

Strojno (potpomognuto) prevođenje ubrzat će prevođenje visokorepetitivnih tekstova (zakoni, tehnička dokumentacija, znanstveni radovi, deklaracije i specifikacije proizvoda itd.), a vrlo će malo pomoći pri prevođenju književnosti.

Promjena paradigme

Govoreći o velikom napretku strojnog prevođenja, objašnjava da se vrijeme kad je Google Translate naglo počeo proizvoditi kvalitetnije prijevode, tj. prijevode sličnije ljudskima nego prije, podudarilo s promjenom paradigmi strojnoga prevođenja:

Google Translate nastao je na temelju tzv. statističkoga strojnoga prevođenja (SMT) gdje se koristila velika količina jezičnih podataka, tj. tekstova, na dva ili više jezika i na temelju statistički značajnih supojavljivanja riječi na dva jezika izračunavala se vjerojatnost da je npr. hrv. „krava“ prijevodni ekvivalent od engl. „cow“. Kad se te dvije riječi pojave u nekoliko tisuća uparenih hrvatskih i engleskih rečenica od ukupno nekoliko desetaka milijuna takvih uparenih rečenica, onda nam statistika kaže da su te dvije riječi dobri kandidati za međusobni prijevod.

Međutim, ovaj tip prevođenja nije uzimao u obzir kontekst, tj. širu okolinu teksta. Do pomaka je došlo uporabom naprednijih metoda strojnoga učenja, tj. dubokim učenjem (deep learning), a najpoznatija takva metoda danas je uporaba neuronskih mreža.

Duboko učenje koristi neuronske mreže s više slojeva kako bi se izgradili modeli koji mogu naučiti hijerarhijske i složene obrasce u podacima, dakle te mreže funkcioniraju kao ljudski mozak. Tadić objašnjava:

Neuronske se mreže u strojnome prevođenju treniraju istim vrstama podataka kao i kod SMT-a: daju im se tekstovi na izvornome jeziku i ljudski prijevodi na ciljni jezik. Takva se mreža neurona iterativno optimizira kako bi se na izlazu dobio tekst što sličniji ili jednak ljudskome prijevodu izvorne rečenice. Takvo se strojno prevođenje zove neuronsko strojno prevođenje (NMT) i ono je danas prevladavajuća paradigma u MT-u.

Veliki jezični modeli (LLMs) velika su pomoć

U vezi s prevođenjem, ali i općenito s računalnom obradom jezika, mora se spomenuti značaj velikih jezičnih modela (Large Language Models).Riječ je modelima koji koriste tehnike dubokog učenja i velike skupove podataka kako bi generirali novi sadržaj. Veliki jezični modeli popularizirani su i u široj javnosti u zadnje vrijeme pojavom besplatnih alata kao što je ChatGPT.

Što se, pak, tiče strojnog prevođenja, Marko napominje da se koriste obje postojeće vrste jezičnih modela: dvojezični za prevođenje i jednojezični model ciljnoga jezika za dobivanje prevedenoga teksta što vjernijega onome što bi čovjek prevoditelj proizveo.

U ostalim područjima računalne obrade jezika (Natural Language Processing − NLP) uloga velikih jezičnih modela još je dalekosežnija jer ne samo da omogućuju kreiranje teksta koji kao da je ljudski, nego i pomažu u mnogim izazovima računalne lingvistike:

Svi sustavi za rješavanje tradicionalnih zadataka u obradi prirodnoga jezika (lematizacija, označavanje vrsta riječi, parsanje, prepoznavanje imena, određivanje semantičkih uloga, analiza sentimenta, razrješenje višeznačnosti riječi itd.) danas daju u načelu bolje rezultate ako su utemeljeni na LLM-ovima.

Povezivanje s bazama znanja

Na razini NMT-a Marko predviđa daljnju specijalizaciju prijevodnih modela prema područjima, čime se osigurava dosljedna i točna uporaba nazivlja pojedine struke u ciljnom jeziku, a kad je riječ o LLM-ovima, očekuje njihovo povezivanje s bazama znanja kako bi se izbjeglo takozvano haluciniranje, već dobro opisan fenomen kad nam ovi modeli daju potpunu laž. No treniranje ovih modela neće biti nimalo jednostavno:

Nedavno je ChatGPT npr. povezan s Wolfram Alfom i to mi se čini važnim korakom za vjerodostojne podatke iz područja prirodnih znanosti, ali će puno veći problem biti složiti takve baze znanja u drugim područjima znanja, a osobito u onome što se zove zdrav razum.

Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

S tim je povezana već jako uznapredovala integracija jezičnih modela s uređajima jer će nam govor uvijek biti najprirodniji način komunikacije s njima, posebice govor na vlastitom jeziku, naglašava Marko.

Kako to ne bi bio govor na engleskome, iznimno je važno dalje ulagati u razvoj jezičnih tehnologija za hrvatski jezik jer ga ne možemo očuvati konzerviranjem i zaustavljanjem u vremenu, već samo stalnim prilagođavanjem i uključivanjem u jezičnotehnološke trendove ovoga stoljeća.

Hrvojka − jezični alat za državnu upravu

Upravo je očuvanje upotrebe jezika s malim brojem govornika (kao što je hrvatski) u vrijeme digitalne tranzicije jedan od ciljeva međunarodnog projekta Nacionalna platforma za jezične tehnologije (National Languages Technology Platform) u sklopu kojeg je nastala hrvatska inačica jezične platforme – Hrvojka.

Kako kažu iz hrvatskog Središnjeg državnog ureda za razvoj digitalnog društva (SDURDD), riječ je o CEF AT projektu u kojem su kao partneri sudjelovali Estonija, Hrvatska, Island, Latvija i Malta. Primarna ciljna skupina je državna uprava, a cilj projekta je unapređenje njezina rada odnosno unapređenje komunikacije državnih institucija i građana:

Nastao je prvenstveno iz spoznaje da je upotreba jezičnih tehnologija u (europskim) državnim upravama iznimno koristan način da se javnosti osigura pristup interaktivnim i personaliziranim javnim e-uslugama i sadržajima uz smanjenje troškova i standardizaciju jezika javne uprave.

Izvor: portal Hrvojka

Nositelji projekta u ime Hrvatske bili su SDURDD i Filozofski fakultet Sveučilišta u Zagrebu, a započeo je u travnju 2021. i završio u lipnju 2023. godine. Ukupna vrijednost projekta, u kojem je sudjelovalo pet navedenih zemalja, iznosi 648.749,00 eura, od čega je za Središnji državni ured za razvoj digitalnog društva, kao hrvatskog partnera koji je bio zadužen za tehničku izvedbu projekta osigurano 62.000,00 eura.

Chatbotovi kao državni službenici?

Portal Hrvojka temelji se na već postojećoj latvijskoj platformi hugo.lv i rezultatima Prevoditelja za predsjedanje Vijećem Europske unije iz 2020. godine, što je baza koju je razvio zagrebački Filozofski fakultet na čelu s Markom Tadićem. Iz ureda navode:

Sve nacionalne inačice platformi nastale tijekom provedbe projekta počivaju na prilagodbi neuronskog strojnog prevođenja (Neural Machine Translation NMT) specifičnim nacionalnim potrebama svake pojedine države partnera, odnosno prikupljenim i obrađenim nacionalnim jezičnim izvorima za pojedine domene.

Izvršena je i integracija sa servisom Europske komisije eTranslation, a u završnoj je fazi i integracija s Nacionalnim identifikacijskim i autentifikacijskim sustavom NIAS.

Inače, ako ste se pitali, Hrvojka je zapravo akronim: Hrvatski Računalni Višejezični Operativni Javni Komunikacijski Alat.

No, po čemu je ona posebna, čime se izdvaja od besplatnih rješenja iste namjene?

Daleko je naprednija u smislu hrvatskih jezičnih specifičnosti, kao i sigurnosti: trenirana je na posebno prikupljenim domenskim jezičnim izvorima standardnog hrvatskog jezika i postavljena na tzv. Državni oblak, a sadržaji koje prevodi ne pohranjuju se na poslužiteljima platforme.

Ona između ostaloga nudi i siguran i besplatan pristup profesionalnom prevoditeljskom okružju s integriranim terminološkim bazama podataka i alatom za strojno potpomognuto prevođenje, kao i alat za prijevod mrežnih stranica na sve službene jezike EU-a.

Dakle, uvođenje alata umjetne inteligencije u državnu upravu trebalo bi značiti veliku promjenu za državne zaposlenike te posljedično i za korisnike državnih usluga, zaključuju iz Ureda:

Planira se uvođenje sinteze govora u javnu upravu kako bi se automatizirale tzv. službe za korisnike (govorni asistenti), čiji su razvoj i održavanje relativno jednostavni jednom kada se uvede u uporabu, a čije su prednosti također velike za dostupnost javnih e-usluga i sadržaja osobama s invaliditetom.

Kao „obični“ građani, tj. korisnici državnih usluga, svakako se možemo veseliti uvođenju umjetne inteligencije u državnu upravu i nadati se da će biti optimalno iskorištena.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Komentari

  1. Petar Ivanišević

    Petar Ivanišević

    09. 08. 2023. u 8:39 pm Odgovori

    Svaki pokušaj poboljšanja strojnog prevođenja je hvale vrijedan, ali…
    Prevođenje pomoću neuronskih mreža postoji preko 20 godina, sjećam se još Neurotran alata, tako da ovo nije ništa novo. Ovdje je latvijska firma Tilde, koja izgleda živi od EU fondova (https://www.tilde.com/research/projects) dobila EU poticaje za izradu alata za strojno prevođenje, navodno je open source AI based (ali ne vidim gdje piše koji AI engine se koristi – sumnjam da je vlastiti), oko toga složila dobru priču i onda su dali API državnim institucijama 5 zemalja da customiziraju taj alat. Ne znam da li je customizacija odrađena traljavo ili je osnovni Tildin (hugo.lv) alat loš, ali rezultat Hrvojke je donekle tragikomičan:

    Hrvojka – hamster (hrčak, da, dobro ste vidjeli, probajte i vi utipkati ako ne vjerujete)
    djedovina – grandfather (umjesto inheritance ili family heritage/inheritance)
    hrvatska (s malim “h”) – Croatia (umjesto Croatian)
    Pravilnik o radu – ordinance on work (umjesto Code of Conduct ili work regulations)
    državna matura – state graduation (umjesto national graduation exam)
    maturalni ispit – prom exam
    Zakon o zaštiti na radu – Occupational Safety Act (evo i jedan dobar prijevod)

    S druge strane, ChatGPT daje sljedeće odgovore: Hrvojka, ancestral property, Croatian, Labor Regulations, national high school graduation exam, final exam, Occupational Health and Safety Act – dakle, bolji prijevod.
    Nema se tu što puno reći, osim da EU opet svojim birokratiziranim i sporim pristupom kasni sve više za Kinom i SAD-om i samo štanca poluproizvode. Da se razumijemo, ovo nije kritika hrvatskog tima koji je imenovan da radi na projektu, ovo je kritika europskog otkrivanja tople vode i ulupavanja love ni u što.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

eUsluge

Grad Zagreb omogućio potpun uvid u proračun kroz aplikaciju iTransparentnost

Nova aplikacija omogućuje svakom građaninu da detaljno prouči gradski porarčun po različitim parametrima.

Startupi

Što je to R&D potencijal – i kakve veze ima s razvojem startupa?

Je li startup nacija u kojoj su nastali tech giganti kao Skype, Wise, Bolt i Pipedrive to postala slučajno, otkrijte sa mnom na putu u Estoniju.

Novost

Dobili ste SMS o nemogućnosti dostave paketa – koji niste naručili?

Najbolja prevencija svakako je obraćanje pozornosti na detalje u poruci.

Što ste propustili

Intervju

Ivan Mrvoš: “Include više nije samo ‘onaj mali s pametnim klupama'”

Include, solinski startup poznat po pametnim klupama Steora, okrenuo se razvoju i proizvodnji novih proizvoda. Mrvoš, koji još nema ni 30 godina, a već je iskusni poduzetnik s respektabilnom karijerom, za Netokraciju je ispričao kako se i koliko ta tvrtka promijenila. Nedavno smo mogli pročitati da bi mogli promijeniti i vlasnika...

Esport

Peta sezona SET-a zaključena u Infobipu: Od 22 fakulteta pobjednički je varaždinski FOI

Student Esports Tournament, jedan od najpoznatijih studentskih esport događaja u Hrvatskoj, petu sezonu završio je u spektakularnoj LAN završnici koja se održala u prostorima Infobipa u Zagrebu.

Novost

Goran Bosankić u Field39 stiže na poziciju Chief Revenue Officera

Nakon više od 6 godina u Assecu SEE, a potom isto toliko u ABC Tech grupi, Goran Bosankić dolazi u Field39 kao Chief Revenue Officer i član Upravnog odbora.

Digitalni marketing

Super Bowl fenomen iliti “Vrijeme je da se vratite pred TV. Počinju reklame.”

Dok sam bio u Americi netom prije Super Bowla jedno mi je postalo jasno. Američki nogomet tamo je religija, a SuperBowl kao Božić. Samo što se za ovaj Božić svi okupe oko TV-a gledati reklame!

Novost

Teo Širola iz Muzeja iluzija proglašen najboljim mladim menadžerom 2023. godine

Hrvatsko udruženje menadžera i poduzetnika (HUM) CROMA dodijelilo je predsjedniku tvrtke Metamorfoza, koja upravlja globalnom mrežom Muzeja iluzija, nagradu za mladog menadžera 2023. godine.

Netokracija Podcast

Kome je u interesu “deepfake” skandal Vladimira Kočiša Zeca?!

Joe Biden nagovara američke glasače da ne glasaju, a Zoran Milanović hrvatske glasače na kupnju dionica MOL-a, dok Vladimir Kočiš Zec razotkriva tajne Hrvatske narodne banke?