Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

Dominantan jezik tehnologije bio je i ostao engleski. Srećom, postoje tvrtke poput Newton Technologiesa koje svojim rješenjima približavaju mogućnosti inovacija i manjim narodima. Evo kako su domaći liječnici i odvjetnici uz njihovu pomoć počeli diktirati svoje nalaze i rješenja na hrvatskom...

Eksplozivni tehnološki napredak zadnjih desetljeća uvelike je bio povezan s dijelovima svijeta u kojima se najviše govori engleski jezik. Zahvaljujući tome, taj je jezik – kojim se inače služi 1,5 milijarda ljudi diljem svijeta – danas dominantan u brojnim proizvodima i uslugama te je ključan za njihovo razumijevanje i korištenje.

Manji jezici poput hrvatskog osuđeni su stoga na stalno hvatanje priključka, putem lokalizacije i na druge načine, a zbog razmjerno malog broja govornika često je i manje isplativo razvijati aplikacije, servise i proizvode koji se temelje na njima.

Ipak, ima i primjera kako tomu ne mora biti tako. Jedan od njih je ekipa iz Newton Technologiesa koja se odlučila pozabaviti softverom za oko 315 milijuna ljudi sa slavenskog govornog područja. Njihova rješenja danas koriste radiolozi, epidemiolozi, kardiolozi, javni službenici i odvjetnici…

Diktiranje na dvadesetak jezika

Tvrtka Newton Technologies pokrenuta je 2008. godine s idejom da klijentima ponudi implementaciju glasovnih tehnologija na ukupno 20-ak jezika, uglavnom onih u srednjoj i zapadnoj Europi. Osam godina kasnije u Zagrebu je osnovana Newton Technologies Adria (NTA), kako bi se bavila razvojem i prilagodbom tehnologija za jezike s područja jugoistočne Europe. Kako je Netokraciji rekao Marko Poljak, glavni izvršni direktor NTA:

Misao vodilja je bila koristiti ekspertizu iz područja tehnologija prijenosa govora u tekst za prilagodbu rješenja krajnjih korisnicima, kako bi uklonili potrebu za tipkanjem dokumentacije.

Krume Ivanovski

U njihovom timu zaduženom za naš dio svijeta nalazi se tridesetak ljudi, što IT stručnjaka, što lingvista i ljudi koji rade na edukaciji korisnika. Posao im je, prema Poljakovoj ocjeni, daleko jednostavniji nego prije, dobrim dijelom i zbog eksplozivnog uspona generativne umjetne inteligencije zadnjih mjeseci.

Samo reci, i zapisat će se… bio to email ili formular

Našu su pozornost privukli njihovi proizvodi namijenjeni zdravstvu i pravosuđu, koji olakšavaju dokumentiranje rada izravnim diktiranjem. Kako nam je to Poljak opisao:

Zamislite da jednostavno pokrenete program, odredite polje za unos teksta, uzmete mikrofon i počnete diktirati. Voilà!

Program ispisuje tekst u realnom vremenu, bilo da se radi o polju unutar bolničkog informacijskog sustava, stvaranju dokumenta na računalu ili slanju e-maila. Program piše tamo gdje kliknete mišem, što znači da vam više ne treba čarobni štapić za brzo obavljanje posla.

Engleski jezik su svladali u samo dva tjedna, ali s hrvatskim i ostalim slavenskim jezicima nije išlo tako jednostavno. Borba je počela 2006. godine i još traje jer i danas stalno usavršavaju proizvode koji ih koriste.

Engleski jezik su svladali u samo dva tjedna, ali s hrvatskim i ostalim slavenskim jezicima nije išlo tako jednostavno.

Ubrzavaju rad liječnika za 55 do 85 %

Još 2016. ponudili su softver Newton Dictate za transkripciju u realnom vremenu, a prvi rječnik – zbirku stručnih izraza koje se koristi u određenom području i konteksta u kojima se mogu naći – bio je namijenjen radiolozima.

Danas uz to nude i opći medicinski rječnik, kojeg mogu koristiti i ostale struke.

Newton Dictate, navodi Poljak, koristi na stotine liječnika u javnim i privatnim ustanovama. Među ustanovama u kojima je prisutan su, između ostalih, Klinika za dječje bolesti Zagreb, Opća bolnica u Puli, Klinička bolnica Merkur, Poliklinika Sveti Rok…

Prema podacima koje je predočio Poljak, njihov softver, ovisno specijalizaciji, ubrzava rad liječnika za 55 do 85 posto.

Čak smo radili testove na slijepo s liječnicima koji nikada nisu vidjeli sustav. S prvim nalazom kreiranim glasom došli su do 51 posto ubrzanja u odnosu na tipkanje.

Prostora za poboljšanje vide u daljnjoj specifičnoj prilagodbi rječnika unutar sustava, ali i u prilagodbi glasovnih naredbi unutar programa, s ciljem dobivanja teksta koji je točno prepisan, ali ujedno i formatiran na očekivani način.

Zasad u korištenju Newtone Dictatea prednjače radiolozi, patolozi, citolozi, endokrinolozi, ortopedi, kardiolozi, liječnici nuklearne medicine, pedijatri…

Za pravosuđe su pripremili sličan proizvod, uz pripadajući pravni rječnik, koji je u uporabi od 2018. godine. Za njegovu je izradu bilo potrebno oko šest mjeseci rada.

Sve se ažurira redovito podacima relevantnim za usavršavanje rječnika. Već smo prešli i 40 razvojnih instanci pojedinih specijaliziranih verzija.

Za svaku novu inačicu rječnika – dodavanje novih riječi i konteksta – treba računati na dodatnih 2-3 mjeseca rada. Pravni rječnik je sad na 39. verziji.

Modeli neuronskih mreža

Pri razvoju najveći je izazov bio uskladiti kompleksnosti jezika, očekivanja korisnika i ograničenja tehnologije.

Slavenske jezike karakterizira bogata morfologija (općenito imaju sedam padeža i tri gramatička roda) s prefiksima i sufiksima, uključujući flektivne nastavke. Glavni izazov u izradi rješenja je ispuniti očekivanja korisnika: ponuditi točnost prijepisa i pravilno formatiranje teksta. Primjerice, učiniti da program ispisuje različite formate ovisno o kontekstu izgovorenog.

U cijeli proces razvoja jezične komponente sustava za transkripciju jezika uključena je umjetna inteligencija.

Tijekom razvoja koristili smo modele duboke neuronske mreže i e2e model, nova generacija modela u kojoj neuronska mreža izravno povezuje govor s tekstom.

Naše sestrinske tvrtke – Presscut i Kliping – djeluju u domeni “media intelligence” i imaju riznicu tekstualnih, audio i video materijala koji nam pomažu u osvajanju novih jezika.

Što im je dostupna veća količina podataka to je bolji razvoj tehnologija za taj jezik, ističe Poljak. Kako bi razvili specijalizirane rječnike, zato koriste tekstove slične onima koje će korisnici diktirati, nastojeći osigurati prepoznavanje konteksta i što preciznije pretvaranje govora u tekst.

Za transkripciju intervjua i rasprava tu je Beey

 

Odnedavno je na tržištu i njihova platforma za transkripciju Beey, koja služi za olakšavanje procesa transkripcije te prijepis audio i video snimki. Uz pomoć Beeyja audio snimka se automatski transkribira. Nakon toga je dostupna za prepravke, s time da više ljudi može raditi na istoj snimci. Uz to, Beey sam detektira govornike i razdvaja tekst, a ugrađena je i funkcija provjere pravopisa, kako bi lakše uočili potencijalnu pogrešku.

Cijeli transkribirani tekst je pretraživ, a – kako je audio povezan s prijepisom – u dugoj audio snimci ste preko tekstualne pretrage odmah pozicionirani na mjestu koje vas zanima i moguće je vrlo brzo naći dio snimke na koji želite obratiti posebnu pozornosti.

To je rješenje koje se sve više koristi i u medijskoj industriji, za titlovanje i prijevode titlova, ali i za pravosudna tijela i transkripciju rasprava.

Razvoj Beeyja se nastavlja, a u to je odnedavno uključen i sveprisutni ChatGPT.

Povezali smo ChatGPT s transkriptima za sumarizaciju teksta, što nam je otvorilo sasvim nove mogućnosti za razumijevanje sadržaja.

Pet puta veći broj korisnika do 2025.

Newton Dictate u ponudi je uglavnom na bazi mjesečne pretplate po glasovnom profilu (korisniku), dok Beey pretežito nude na bazi naplate jednokratnog korištenja.

Različite funkcionalnosti i usluge također utječu na cijenu.

Tržišta na koja smo fokusirani se nalaze u regiji Adria regiji, gdje trenutno imamo nešto više od 1.300 korisnika sustava Newton Dictate i nekoliko desetaka Beey sustava.

Plan je da do 2025. godine imamo više od 6.000 korisnika sustava Newton Dictate, a da Beey bude integriran sa svim medijima i neizostavan alat za sve zapisnike i sastanke. 

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Zabava i zanimljivosti

Hrvati napokon mogu glasati elektronski, i to zahvaljujući Samu Altmanu (i botovima)

Već niz godina naklapa se i navija za uvođenje elektronskog glasanja u Hrvatskoj. Ako nismo tijekom pandemije koronavirusa, kad ćemo, pitaju se mnogi. Ova superizborna godina, u kojoj nas čekaju parlamentarni, europski i predsjednički izbori jedina je još sila (ne)prilika koja bi mogla nagnati Državno izborno povjerenstvo da poduzmu mjere po tom pitanju.

Tvrtke i poslovanje

Znate li koristiti svoj “mozak izvan mozga”?

Proces u kojem naš mozak prati samog sebe i procjenjuje koliko mu dobro ide radimo svakodnevno, s više ili manje uspjeha. Riječ je o metakogniciji koja utječe na svaki aspekt našeg ponašanja - od definiranja životnih ciljeva i kako do njih doći do procjenjivanja vlastitih osjetila.

Digitalni marketing

“Želim samo logo za svoj brend” je kao naručivanje hrane bez soli i začina

U dinamičnom svijetu poslovanja, gdje nam se svakodnevno servira tona sadržaja i reklama i gdje se prvi dojam često stvara jednim pogledom – dobro osmišljen logotip izuzetno je važan. Međutim, put kroz brendiranje ide daleko izvan stvaranja logotipa.

Što ste propustili

Startupi

ZICER otvorio prijave za nove akceleracijske programe – startupe čeka preko 200.000 eura

Hrvatski startup hub ZICER otvorio je natječaje za akceleracijske programe kroz koje je na raspolaganju 200.000 eura bespovratnih novčanih sredstava i in-kind potpora od 18.000 eura.

Intervju

Umjetna inteligencija ima razorni potencijal, treba je zauzdati etikom, kaže poznati futurolog

Digitalna transformacija je i kulturološka promjena, koja traži stalno izazivanje statusa quo, eksperimentiranje i prihvaćanje neuspjeha.

Društvene mreže

Saga ReeseTeese pokazala je da TikTok postaje novi reality TV

Od 15-sekundnih plesnih videa do osobne drame ispričane kroz 500 minuta nastavaka snimljenih usput: analiziramo zašto sadržaj na TikToku postaje sve sličniji televizijskim emisijama i zašto je sve češće početna točka na putu do slave i ugovora s Netflixom.

Intervju

10 godina Marketing Meet Upa: Ilija Brajković prisjeća se kako je sve počelo

Tko bi rekao da je Marketing Meetup počeo s desetak sudionika u pivnici, a sada broji skoro 6000 članova.

Karijere

Učenice su dobre u STEM-u, ali ih ne zanima karijera u programiranju

Iako tijekom školovanja raste interes za STEM zanimanjima među oba spola, postoje značajne rodne razlike u odabirima. Područja informatike i računarstva snažno su obilježena stereotipima i poslovi u ovom području i dalje djevojkama nisu dovoljno interesantni

Intervju

Što donosi studij primijenjene kognitivne znanosti koji je spojio snage FER-a i Filozofskog?

Do prije samo nekoliko godina suradnja FER-a i zagrebačkog Filozofskog fakulteta smatrala bi se  protuprirodnim činom, a danas zajednički izvode studij za kojim vlada ogroman interes.