
Uz “Hrvojku” AI ulazi i u našu državnu upravu, zašto je to danas moguće saznajemo od računalnog lingvista
Prije samo nekoliko godina ismijavali smo rezultate alata za strojno prevođenje, a onda smo odjednom ostali zatečeni njihovom visokom kvalitetom. Što se dogodilo, kako su na brzinu postali tako pametni? O napretku koji je u obradu jezika donijela umjetna inteligencija popričali smo s računalnim lingvistom dr. Markom Tadićem, a dotaknuli smo se i državnog hrvatskog jezičnog portala Hrvojka.
Za početak, budući da to baš i nije često zanimanje, otkrijmo kako se postaje računalni lingvist i čime se on zapravo bavi.
Nakon diplome iz opće lingvistike, fonetike i društveno-humanističke informatike Marko Tadić posvetio se korpusnoj i računalnoj lingvistici. Vodio je razvoj Hrvatskoga nacionalnog korpusa (HNK), početkom stoljeća tada najvećega korpusa za hrvatski jezik, godine 2007. pokrenuo je izradu tzv. Hrvatske ovisnosne banke stabala, prvoga korpusa koji je uključivao i sintaktičke, a kasnije i semantičke oznake i na temelju kojega je dr. Željko Agić izradio prvi opći parser za hrvatski jezik, tj. program koji analizira sintaktičku strukturu hrvatskih rečenica.
Marko Tadić radio je na mnogim općim i specijaliziranim korpusima hrvatskoga jezika i raznim alatima za računalnu obradu prirodnoga jezika, a osobito su eksponirani projekti strojnoga prevođenja kao što su Prevoditelj za predsjedanje Vijećem EU-a i upravo završen projekt Nacionalna platforma za jezične tehnologije, čiji je rezultat portal Hrvojka, koja je i povod ovog teksta i o kojoj će više riječi biti u nastavku.
A zašto je računalna lingvistika uopće važna?
Računalna obrada jezika, tj. računalna lingvistika, pridonosi cjelini UI-ja jer se osim računalnoga gledanja, robotike, pamćenja, zaključivanja i strateškoga i taktičkoga rezoniranja, upravo uporaba prirodnoga jezika smatra jednom od ključnih sastavnica svakoga sustava od kojega očekujemo da se ponaša na način na koji se inteligentni ljudi ponašaju. Uostalom, od samih početaka UI-ja sama temeljna provjera ima li neki sustav inteligentne osobine jest zapravo jezični i/li govorni test, tzv. Turingov test.
Naravno, razgovor o strojnom prevođenju ne može proći bez pitanja o produktivnosti koju ono donosi, što mu je uostalom i glavna svrha, pa smo i to htjeli to raščistiti već na početku.
U prosjeku korištenje strojnoga prevođenja i strojno potpomognutoga prevođenja ubrzava postupak prevođenja do 35%. To ne znači da će 35 % prevoditelja ostati bez posla, nego će profesionalni prevoditelji korištenjem te tehnologije prevoditi za oko trećinu vremena brže,
kaže Marko i odmah dodaje za koje je tipove tekstova ono namijenjeno:
Strojno (potpomognuto) prevođenje ubrzat će prevođenje visokorepetitivnih tekstova (zakoni, tehnička dokumentacija, znanstveni radovi, deklaracije i specifikacije proizvoda itd.), a vrlo će malo pomoći pri prevođenju književnosti.
Promjena paradigme
Govoreći o velikom napretku strojnog prevođenja, objašnjava da se vrijeme kad je Google Translate naglo počeo proizvoditi kvalitetnije prijevode, tj. prijevode sličnije ljudskima nego prije, podudarilo s promjenom paradigmi strojnoga prevođenja:
Google Translate nastao je na temelju tzv. statističkoga strojnoga prevođenja (SMT) gdje se koristila velika količina jezičnih podataka, tj. tekstova, na dva ili više jezika i na temelju statistički značajnih supojavljivanja riječi na dva jezika izračunavala se vjerojatnost da je npr. hrv. „krava“ prijevodni ekvivalent od engl. „cow“. Kad se te dvije riječi pojave u nekoliko tisuća uparenih hrvatskih i engleskih rečenica od ukupno nekoliko desetaka milijuna takvih uparenih rečenica, onda nam statistika kaže da su te dvije riječi dobri kandidati za međusobni prijevod.
Međutim, ovaj tip prevođenja nije uzimao u obzir kontekst, tj. širu okolinu teksta. Do pomaka je došlo uporabom naprednijih metoda strojnoga učenja, tj. dubokim učenjem (deep learning), a najpoznatija takva metoda danas je uporaba neuronskih mreža.
Duboko učenje koristi neuronske mreže s više slojeva kako bi se izgradili modeli koji mogu naučiti hijerarhijske i složene obrasce u podacima, dakle te mreže funkcioniraju kao ljudski mozak. Tadić objašnjava:
Neuronske se mreže u strojnome prevođenju treniraju istim vrstama podataka kao i kod SMT-a: daju im se tekstovi na izvornome jeziku i ljudski prijevodi na ciljni jezik. Takva se mreža neurona iterativno optimizira kako bi se na izlazu dobio tekst što sličniji ili jednak ljudskome prijevodu izvorne rečenice. Takvo se strojno prevođenje zove neuronsko strojno prevođenje (NMT) i ono je danas prevladavajuća paradigma u MT-u.
Veliki jezični modeli (LLMs) velika su pomoć
U vezi s prevođenjem, ali i općenito s računalnom obradom jezika, mora se spomenuti značaj velikih jezičnih modela (Large Language Models).Riječ je modelima koji koriste tehnike dubokog učenja i velike skupove podataka kako bi generirali novi sadržaj. Veliki jezični modeli popularizirani su i u široj javnosti u zadnje vrijeme pojavom besplatnih alata kao što je ChatGPT.
Što se, pak, tiče strojnog prevođenja, Marko napominje da se koriste obje postojeće vrste jezičnih modela: dvojezični za prevođenje i jednojezični model ciljnoga jezika za dobivanje prevedenoga teksta što vjernijega onome što bi čovjek prevoditelj proizveo.
U ostalim područjima računalne obrade jezika (Natural Language Processing − NLP) uloga velikih jezičnih modela još je dalekosežnija jer ne samo da omogućuju kreiranje teksta koji kao da je ljudski, nego i pomažu u mnogim izazovima računalne lingvistike:
Svi sustavi za rješavanje tradicionalnih zadataka u obradi prirodnoga jezika (lematizacija, označavanje vrsta riječi, parsanje, prepoznavanje imena, određivanje semantičkih uloga, analiza sentimenta, razrješenje višeznačnosti riječi itd.) danas daju u načelu bolje rezultate ako su utemeljeni na LLM-ovima.
Povezivanje s bazama znanja
Na razini NMT-a Marko predviđa daljnju specijalizaciju prijevodnih modela prema područjima, čime se osigurava dosljedna i točna uporaba nazivlja pojedine struke u ciljnom jeziku, a kad je riječ o LLM-ovima, očekuje njihovo povezivanje s bazama znanja kako bi se izbjeglo takozvano haluciniranje, već dobro opisan fenomen kad nam ovi modeli daju potpunu laž. No treniranje ovih modela neće biti nimalo jednostavno:
Nedavno je ChatGPT npr. povezan s Wolfram Alfom i to mi se čini važnim korakom za vjerodostojne podatke iz područja prirodnih znanosti, ali će puno veći problem biti složiti takve baze znanja u drugim područjima znanja, a osobito u onome što se zove zdrav razum.
Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove
S tim je povezana već jako uznapredovala integracija jezičnih modela s uređajima jer će nam govor uvijek biti najprirodniji način komunikacije s njima, posebice govor na vlastitom jeziku, naglašava Marko.
Kako to ne bi bio govor na engleskome, iznimno je važno dalje ulagati u razvoj jezičnih tehnologija za hrvatski jezik jer ga ne možemo očuvati konzerviranjem i zaustavljanjem u vremenu, već samo stalnim prilagođavanjem i uključivanjem u jezičnotehnološke trendove ovoga stoljeća.
Hrvojka − jezični alat za državnu upravu
Upravo je očuvanje upotrebe jezika s malim brojem govornika (kao što je hrvatski) u vrijeme digitalne tranzicije jedan od ciljeva međunarodnog projekta Nacionalna platforma za jezične tehnologije (National Languages Technology Platform) u sklopu kojeg je nastala hrvatska inačica jezične platforme – Hrvojka.
Kako kažu iz hrvatskog Središnjeg državnog ureda za razvoj digitalnog društva (SDURDD), riječ je o CEF AT projektu u kojem su kao partneri sudjelovali Estonija, Hrvatska, Island, Latvija i Malta. Primarna ciljna skupina je državna uprava, a cilj projekta je unapređenje njezina rada odnosno unapređenje komunikacije državnih institucija i građana:
Nastao je prvenstveno iz spoznaje da je upotreba jezičnih tehnologija u (europskim) državnim upravama iznimno koristan način da se javnosti osigura pristup interaktivnim i personaliziranim javnim e-uslugama i sadržajima uz smanjenje troškova i standardizaciju jezika javne uprave.

Nositelji projekta u ime Hrvatske bili su SDURDD i Filozofski fakultet Sveučilišta u Zagrebu, a započeo je u travnju 2021. i završio u lipnju 2023. godine. Ukupna vrijednost projekta, u kojem je sudjelovalo pet navedenih zemalja, iznosi 648.749,00 eura, od čega je za Središnji državni ured za razvoj digitalnog društva, kao hrvatskog partnera koji je bio zadužen za tehničku izvedbu projekta osigurano 62.000,00 eura.
Chatbotovi kao državni službenici?
Portal Hrvojka temelji se na već postojećoj latvijskoj platformi hugo.lv i rezultatima Prevoditelja za predsjedanje Vijećem Europske unije iz 2020. godine, što je baza koju je razvio zagrebački Filozofski fakultet na čelu s Markom Tadićem. Iz ureda navode:
Sve nacionalne inačice platformi nastale tijekom provedbe projekta počivaju na prilagodbi neuronskog strojnog prevođenja (Neural Machine Translation NMT) specifičnim nacionalnim potrebama svake pojedine države partnera, odnosno prikupljenim i obrađenim nacionalnim jezičnim izvorima za pojedine domene.
Izvršena je i integracija sa servisom Europske komisije eTranslation, a u završnoj je fazi i integracija s Nacionalnim identifikacijskim i autentifikacijskim sustavom NIAS.
Inače, ako ste se pitali, Hrvojka je zapravo akronim: Hrvatski Računalni Višejezični Operativni Javni Komunikacijski Alat.
No, po čemu je ona posebna, čime se izdvaja od besplatnih rješenja iste namjene?
Daleko je naprednija u smislu hrvatskih jezičnih specifičnosti, kao i sigurnosti: trenirana je na posebno prikupljenim domenskim jezičnim izvorima standardnog hrvatskog jezika i postavljena na tzv. Državni oblak, a sadržaji koje prevodi ne pohranjuju se na poslužiteljima platforme.
Ona između ostaloga nudi i siguran i besplatan pristup profesionalnom prevoditeljskom okružju s integriranim terminološkim bazama podataka i alatom za strojno potpomognuto prevođenje, kao i alat za prijevod mrežnih stranica na sve službene jezike EU-a.
Dakle, uvođenje alata umjetne inteligencije u državnu upravu trebalo bi značiti veliku promjenu za državne zaposlenike te posljedično i za korisnike državnih usluga, zaključuju iz Ureda:
Planira se uvođenje sinteze govora u javnu upravu kako bi se automatizirale tzv. službe za korisnike (govorni asistenti), čiji su razvoj i održavanje relativno jednostavni jednom kada se uvede u uporabu, a čije su prednosti također velike za dostupnost javnih e-usluga i sadržaja osobama s invaliditetom.
Kao „obični“ građani, tj. korisnici državnih usluga, svakako se možemo veseliti uvođenju umjetne inteligencije u državnu upravu i nadati se da će biti optimalno iskorištena.
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.
Komentari
Petar Ivanišević
09. 08. 2023. u 8:39 pm
Svaki pokušaj poboljšanja strojnog prevođenja je hvale vrijedan, ali…
Prevođenje pomoću neuronskih mreža postoji preko 20 godina, sjećam se još Neurotran alata, tako da ovo nije ništa novo. Ovdje je latvijska firma Tilde, koja izgleda živi od EU fondova (https://www.tilde.com/research/projects) dobila EU poticaje za izradu alata za strojno prevođenje, navodno je open source AI based (ali ne vidim gdje piše koji AI engine se koristi – sumnjam da je vlastiti), oko toga složila dobru priču i onda su dali API državnim institucijama 5 zemalja da customiziraju taj alat. Ne znam da li je customizacija odrađena traljavo ili je osnovni Tildin (hugo.lv) alat loš, ali rezultat Hrvojke je donekle tragikomičan:
Hrvojka – hamster (hrčak, da, dobro ste vidjeli, probajte i vi utipkati ako ne vjerujete)
djedovina – grandfather (umjesto inheritance ili family heritage/inheritance)
hrvatska (s malim “h”) – Croatia (umjesto Croatian)
Pravilnik o radu – ordinance on work (umjesto Code of Conduct ili work regulations)
državna matura – state graduation (umjesto national graduation exam)
maturalni ispit – prom exam
Zakon o zaštiti na radu – Occupational Safety Act (evo i jedan dobar prijevod)
S druge strane, ChatGPT daje sljedeće odgovore: Hrvojka, ancestral property, Croatian, Labor Regulations, national high school graduation exam, final exam, Occupational Health and Safety Act – dakle, bolji prijevod.
Nema se tu što puno reći, osim da EU opet svojim birokratiziranim i sporim pristupom kasni sve više za Kinom i SAD-om i samo štanca poluproizvode. Da se razumijemo, ovo nije kritika hrvatskog tima koji je imenovan da radi na projektu, ovo je kritika europskog otkrivanja tople vode i ulupavanja love ni u što.