Uz "Hrvojku" AI ulazi i u našu državnu upravu, zašto je to danas moguće saznajemo od računalnog lingvista

Uz “Hrvojku” AI ulazi i u našu državnu upravu, zašto je to danas moguće saznajemo od računalnog lingvista

Prije samo nekoliko godina ismijavali smo rezultate alata za strojno prevođenje, a onda smo odjednom ostali zatečeni njihovom visokom kvalitetom. Što se dogodilo, kako su na brzinu postali tako pametni? O napretku koji je u obradu jezika donijela umjetna inteligencija popričali smo s računalnim lingvistom dr. Markom Tadićem, a dotaknuli smo se i državnog hrvatskog jezičnog portala Hrvojka.

Za početak, budući da to baš i nije često zanimanje, otkrijmo kako se postaje računalni lingvist i čime se on zapravo bavi.

Nakon diplome iz opće lingvistike, fonetike i društveno-humanističke informatike Marko Tadić posvetio se korpusnoj i računalnoj lingvistici. Vodio je razvoj Hrvatskoga nacionalnog korpusa (HNK), početkom stoljeća tada najvećega korpusa za hrvatski jezik, godine 2007. pokrenuo je izradu tzv. Hrvatske ovisnosne banke stabala, prvoga korpusa koji je uključivao i sintaktičke, a kasnije i semantičke oznake i na temelju kojega je dr. Željko Agić izradio prvi opći parser za hrvatski jezik, tj. program koji analizira sintaktičku strukturu hrvatskih rečenica.

Marko Tadić radio je na mnogim općim i specijaliziranim korpusima hrvatskoga jezika i raznim alatima za računalnu obradu prirodnoga jezika, a osobito su eksponirani projekti strojnoga prevođenja kao što su Prevoditelj za predsjedanje Vijećem EU-a i upravo završen projekt Nacionalna platforma za jezične tehnologije, čiji je rezultat portal Hrvojka, koja je i povod ovog teksta i o kojoj će više riječi biti u nastavku.

A zašto je računalna lingvistika uopće važna?

Računalna obrada jezika, tj. računalna lingvistika, pridonosi cjelini UI-ja jer se osim računalnoga gledanja, robotike, pamćenja, zaključivanja i strateškoga i taktičkoga rezoniranja, upravo uporaba prirodnoga jezika smatra jednom od ključnih sastavnica svakoga sustava od kojega očekujemo da se ponaša na način na koji se inteligentni ljudi ponašaju. Uostalom, od samih početaka UI-ja sama temeljna provjera ima li neki sustav inteligentne osobine jest zapravo jezični i/li govorni test, tzv. Turingov test.

Naravno, razgovor o strojnom prevođenju ne može proći bez pitanja o produktivnosti koju ono donosi, što mu je uostalom i glavna svrha, pa smo i to htjeli to raščistiti već na početku.

U prosjeku korištenje strojnoga prevođenja i strojno potpomognutoga prevođenja ubrzava postupak prevođenja do 35%. To ne znači da će 35 % prevoditelja ostati bez posla, nego će profesionalni prevoditelji korištenjem te tehnologije prevoditi za oko trećinu vremena brže,

kaže Marko i odmah dodaje za koje je tipove tekstova ono namijenjeno:

Strojno (potpomognuto) prevođenje ubrzat će prevođenje visokorepetitivnih tekstova (zakoni, tehnička dokumentacija, znanstveni radovi, deklaracije i specifikacije proizvoda itd.), a vrlo će malo pomoći pri prevođenju književnosti.

Promjena paradigme

Govoreći o velikom napretku strojnog prevođenja, objašnjava da se vrijeme kad je Google Translate naglo počeo proizvoditi kvalitetnije prijevode, tj. prijevode sličnije ljudskima nego prije, podudarilo s promjenom paradigmi strojnoga prevođenja:

Google Translate nastao je na temelju tzv. statističkoga strojnoga prevođenja (SMT) gdje se koristila velika količina jezičnih podataka, tj. tekstova, na dva ili više jezika i na temelju statistički značajnih supojavljivanja riječi na dva jezika izračunavala se vjerojatnost da je npr. hrv. „krava“ prijevodni ekvivalent od engl. „cow“. Kad se te dvije riječi pojave u nekoliko tisuća uparenih hrvatskih i engleskih rečenica od ukupno nekoliko desetaka milijuna takvih uparenih rečenica, onda nam statistika kaže da su te dvije riječi dobri kandidati za međusobni prijevod.

Međutim, ovaj tip prevođenja nije uzimao u obzir kontekst, tj. širu okolinu teksta. Do pomaka je došlo uporabom naprednijih metoda strojnoga učenja, tj. dubokim učenjem (deep learning), a najpoznatija takva metoda danas je uporaba neuronskih mreža.

Duboko učenje koristi neuronske mreže s više slojeva kako bi se izgradili modeli koji mogu naučiti hijerarhijske i složene obrasce u podacima, dakle te mreže funkcioniraju kao ljudski mozak. Tadić objašnjava:

Neuronske se mreže u strojnome prevođenju treniraju istim vrstama podataka kao i kod SMT-a: daju im se tekstovi na izvornome jeziku i ljudski prijevodi na ciljni jezik. Takva se mreža neurona iterativno optimizira kako bi se na izlazu dobio tekst što sličniji ili jednak ljudskome prijevodu izvorne rečenice. Takvo se strojno prevođenje zove neuronsko strojno prevođenje (NMT) i ono je danas prevladavajuća paradigma u MT-u.

Veliki jezični modeli (LLMs) velika su pomoć

U vezi s prevođenjem, ali i općenito s računalnom obradom jezika, mora se spomenuti značaj velikih jezičnih modela (Large Language Models).Riječ je modelima koji koriste tehnike dubokog učenja i velike skupove podataka kako bi generirali novi sadržaj. Veliki jezični modeli popularizirani su i u široj javnosti u zadnje vrijeme pojavom besplatnih alata kao što je ChatGPT.

Što se, pak, tiče strojnog prevođenja, Marko napominje da se koriste obje postojeće vrste jezičnih modela: dvojezični za prevođenje i jednojezični model ciljnoga jezika za dobivanje prevedenoga teksta što vjernijega onome što bi čovjek prevoditelj proizveo.

U ostalim područjima računalne obrade jezika (Natural Language Processing − NLP) uloga velikih jezičnih modela još je dalekosežnija jer ne samo da omogućuju kreiranje teksta koji kao da je ljudski, nego i pomažu u mnogim izazovima računalne lingvistike:

Svi sustavi za rješavanje tradicionalnih zadataka u obradi prirodnoga jezika (lematizacija, označavanje vrsta riječi, parsanje, prepoznavanje imena, određivanje semantičkih uloga, analiza sentimenta, razrješenje višeznačnosti riječi itd.) danas daju u načelu bolje rezultate ako su utemeljeni na LLM-ovima.

Povezivanje s bazama znanja

Na razini NMT-a Marko predviđa daljnju specijalizaciju prijevodnih modela prema područjima, čime se osigurava dosljedna i točna uporaba nazivlja pojedine struke u ciljnom jeziku, a kad je riječ o LLM-ovima, očekuje njihovo povezivanje s bazama znanja kako bi se izbjeglo takozvano haluciniranje, već dobro opisan fenomen kad nam ovi modeli daju potpunu laž. No treniranje ovih modela neće biti nimalo jednostavno:

Nedavno je ChatGPT npr. povezan s Wolfram Alfom i to mi se čini važnim korakom za vjerodostojne podatke iz područja prirodnih znanosti, ali će puno veći problem biti složiti takve baze znanja u drugim područjima znanja, a osobito u onome što se zove zdrav razum.

Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

S tim je povezana već jako uznapredovala integracija jezičnih modela s uređajima jer će nam govor uvijek biti najprirodniji način komunikacije s njima, posebice govor na vlastitom jeziku, naglašava Marko.

Kako to ne bi bio govor na engleskome, iznimno je važno dalje ulagati u razvoj jezičnih tehnologija za hrvatski jezik jer ga ne možemo očuvati konzerviranjem i zaustavljanjem u vremenu, već samo stalnim prilagođavanjem i uključivanjem u jezičnotehnološke trendove ovoga stoljeća.

Hrvojka − jezični alat za državnu upravu

Upravo je očuvanje upotrebe jezika s malim brojem govornika (kao što je hrvatski) u vrijeme digitalne tranzicije jedan od ciljeva međunarodnog projekta Nacionalna platforma za jezične tehnologije (National Languages Technology Platform) u sklopu kojeg je nastala hrvatska inačica jezične platforme – Hrvojka.

Kako kažu iz hrvatskog Središnjeg državnog ureda za razvoj digitalnog društva (SDURDD), riječ je o CEF AT projektu u kojem su kao partneri sudjelovali Estonija, Hrvatska, Island, Latvija i Malta. Primarna ciljna skupina je državna uprava, a cilj projekta je unapređenje njezina rada odnosno unapređenje komunikacije državnih institucija i građana:

Nastao je prvenstveno iz spoznaje da je upotreba jezičnih tehnologija u (europskim) državnim upravama iznimno koristan način da se javnosti osigura pristup interaktivnim i personaliziranim javnim e-uslugama i sadržajima uz smanjenje troškova i standardizaciju jezika javne uprave.

Izvor: portal Hrvojka

Nositelji projekta u ime Hrvatske bili su SDURDD i Filozofski fakultet Sveučilišta u Zagrebu, a započeo je u travnju 2021. i završio u lipnju 2023. godine. Ukupna vrijednost projekta, u kojem je sudjelovalo pet navedenih zemalja, iznosi 648.749,00 eura, od čega je za Središnji državni ured za razvoj digitalnog društva, kao hrvatskog partnera koji je bio zadužen za tehničku izvedbu projekta osigurano 62.000,00 eura.

Chatbotovi kao državni službenici?

Portal Hrvojka temelji se na već postojećoj latvijskoj platformi hugo.lv i rezultatima Prevoditelja za predsjedanje Vijećem Europske unije iz 2020. godine, što je baza koju je razvio zagrebački Filozofski fakultet na čelu s Markom Tadićem. Iz ureda navode:

Sve nacionalne inačice platformi nastale tijekom provedbe projekta počivaju na prilagodbi neuronskog strojnog prevođenja (Neural Machine Translation NMT) specifičnim nacionalnim potrebama svake pojedine države partnera, odnosno prikupljenim i obrađenim nacionalnim jezičnim izvorima za pojedine domene.

Izvršena je i integracija sa servisom Europske komisije eTranslation, a u završnoj je fazi i integracija s Nacionalnim identifikacijskim i autentifikacijskim sustavom NIAS.

Inače, ako ste se pitali, Hrvojka je zapravo akronim: Hrvatski Računalni Višejezični Operativni Javni Komunikacijski Alat.

No, po čemu je ona posebna, čime se izdvaja od besplatnih rješenja iste namjene?

Daleko je naprednija u smislu hrvatskih jezičnih specifičnosti, kao i sigurnosti: trenirana je na posebno prikupljenim domenskim jezičnim izvorima standardnog hrvatskog jezika i postavljena na tzv. Državni oblak, a sadržaji koje prevodi ne pohranjuju se na poslužiteljima platforme.

Ona između ostaloga nudi i siguran i besplatan pristup profesionalnom prevoditeljskom okružju s integriranim terminološkim bazama podataka i alatom za strojno potpomognuto prevođenje, kao i alat za prijevod mrežnih stranica na sve službene jezike EU-a.

Dakle, uvođenje alata umjetne inteligencije u državnu upravu trebalo bi značiti veliku promjenu za državne zaposlenike te posljedično i za korisnike državnih usluga, zaključuju iz Ureda:

Planira se uvođenje sinteze govora u javnu upravu kako bi se automatizirale tzv. službe za korisnike (govorni asistenti), čiji su razvoj i održavanje relativno jednostavni jednom kada se uvede u uporabu, a čije su prednosti također velike za dostupnost javnih e-usluga i sadržaja osobama s invaliditetom.

Kao „obični“ građani, tj. korisnici državnih usluga, svakako se možemo veseliti uvođenju umjetne inteligencije u državnu upravu i nadati se da će biti optimalno iskorištena.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Komentari

  1. Petar Ivanišević

    Petar Ivanišević

    09. 08. 2023. u 8:39 pm Odgovori

    Svaki pokušaj poboljšanja strojnog prevođenja je hvale vrijedan, ali…
    Prevođenje pomoću neuronskih mreža postoji preko 20 godina, sjećam se još Neurotran alata, tako da ovo nije ništa novo. Ovdje je latvijska firma Tilde, koja izgleda živi od EU fondova (https://www.tilde.com/research/projects) dobila EU poticaje za izradu alata za strojno prevođenje, navodno je open source AI based (ali ne vidim gdje piše koji AI engine se koristi – sumnjam da je vlastiti), oko toga složila dobru priču i onda su dali API državnim institucijama 5 zemalja da customiziraju taj alat. Ne znam da li je customizacija odrađena traljavo ili je osnovni Tildin (hugo.lv) alat loš, ali rezultat Hrvojke je donekle tragikomičan:

    Hrvojka – hamster (hrčak, da, dobro ste vidjeli, probajte i vi utipkati ako ne vjerujete)
    djedovina – grandfather (umjesto inheritance ili family heritage/inheritance)
    hrvatska (s malim “h”) – Croatia (umjesto Croatian)
    Pravilnik o radu – ordinance on work (umjesto Code of Conduct ili work regulations)
    državna matura – state graduation (umjesto national graduation exam)
    maturalni ispit – prom exam
    Zakon o zaštiti na radu – Occupational Safety Act (evo i jedan dobar prijevod)

    S druge strane, ChatGPT daje sljedeće odgovore: Hrvojka, ancestral property, Croatian, Labor Regulations, national high school graduation exam, final exam, Occupational Health and Safety Act – dakle, bolji prijevod.
    Nema se tu što puno reći, osim da EU opet svojim birokratiziranim i sporim pristupom kasni sve više za Kinom i SAD-om i samo štanca poluproizvode. Da se razumijemo, ovo nije kritika hrvatskog tima koji je imenovan da radi na projektu, ovo je kritika europskog otkrivanja tople vode i ulupavanja love ni u što.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Veliki intervjui

Big Tech zarađuje skoro 200 milijuna eura od oglašavanja u Hrvatskoj, a ne plaća porez

Uvođenje oporezivanja internetskog oglašavanja moglo bi značajno pomoći domaćim medijima, ali kada će ući u Zakon o medijima?

Umjetna inteligencija

Najvažniji dio Rimčevog Vernea nije robotaksi, već iskustvo?

Ovaj tjedan rebrendirana u Verne, Project 3 Mobility, tvrtka koju su 2019. godine osnovali Mate Rimac, Adriano Mudri te Marko Pejković, danas napokon ima prvo “opipljivo” predstavljanje onog što su razvijali. No, je li robotaksi usluga zbilja najvažnije što mogu ponuditi?

Veliki intervjui

Postaj, Trebam.hr i Meštar.hr – što očekivati od platformi za pronalazak majstora

Usprkos tome što nam nedostaje majstora na raznim područjima, barem imamo dovoljno platformi koje će nas povezati s onima najboljima, ili se barem tome nadamo.

Što ste propustili

Startupi

Inkubator BIRD: otvorene su prijave za novi program

Riječ je o novom programu koji je restrukturiran na nekoliko razina i posebno namijenjen startupima s AI komponentom.

Tvrtke i poslovanje

iOLAP postaje Elixirr Digital

Elixirr Digital bio je "digitalni" odjel poslovanja, a sada uz iOLAP-ove ekspertize postaje "digitalni, podatkovni i tehnološki" odjel poslovanja.

Umjetna inteligencija

FER-ovim brucošima u pomoć pristiže Branka, AI pomoćnica nastala u suradnji s Infobipom

Fakultet elektrotehnike i računarstva Sveučilišta u Zagrebu je u suradnji s prvim hrvatskim jednorogom Infobipom razvio chatbot imena Branka koji će budućim studenticama i studentima omogućiti brži i jednostavniji proces upisa na FER.

Društvene mreže

X nakon pucnjave na Trumpa: “Mi smo javni trg”… Prije odskočna daska za teorije zavjera!

Opet se dogodilo. Opet sam nakon svjetski bitnog događaja otvorila Twitter (nikad X!).

Veliki intervjui

Rakar o slučaju KBC Rebro: “Obavijesti su bile nepotpune, zavaravajuće i u konačnici – netočne”

Krizno komuniciranje hakiranja KBC-a prouzrokovalo je više panike i straha, nego što je uspjelo smiriti hrvatski narod - je li moguće vratiti autoritet i povjerenje?

Veliki intervjui

Izdavači preuzimaju kontrolu: HUDI odabrao Dotmetrics za mjerenje posjećenosti hrvatskih portala

Od 1. siječnja 2025. godine Hrvatska udruga digitalnih izdavača postaje pružatelj mjerenja posjećenosti portala hrvatskih medija u suradnji s Ipsosom, odnosno Dotmetricsom. Tim smo povodom razgovarali s Matejem Lončarićem, predsjednikom HUDI-ja.