Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

Mali hrvatski jezik više nije problem. Doktori u Hrvatskoj već diktiraju svoje nalaze i emailove

Dominantan jezik tehnologije bio je i ostao engleski. Srećom, postoje tvrtke poput Newton Technologiesa koje svojim rješenjima približavaju mogućnosti inovacija i manjim narodima. Evo kako su domaći liječnici i odvjetnici uz njihovu pomoć počeli diktirati svoje nalaze i rješenja na hrvatskom...

Eksplozivni tehnološki napredak zadnjih desetljeća uvelike je bio povezan s dijelovima svijeta u kojima se najviše govori engleski jezik. Zahvaljujući tome, taj je jezik – kojim se inače služi 1,5 milijarda ljudi diljem svijeta – danas dominantan u brojnim proizvodima i uslugama te je ključan za njihovo razumijevanje i korištenje.

Manji jezici poput hrvatskog osuđeni su stoga na stalno hvatanje priključka, putem lokalizacije i na druge načine, a zbog razmjerno malog broja govornika često je i manje isplativo razvijati aplikacije, servise i proizvode koji se temelje na njima.

Ipak, ima i primjera kako tomu ne mora biti tako. Jedan od njih je ekipa iz Newton Technologiesa koja se odlučila pozabaviti softverom za oko 315 milijuna ljudi sa slavenskog govornog područja. Njihova rješenja danas koriste radiolozi, epidemiolozi, kardiolozi, javni službenici i odvjetnici…

Diktiranje na dvadesetak jezika

Tvrtka Newton Technologies pokrenuta je 2008. godine s idejom da klijentima ponudi implementaciju glasovnih tehnologija na ukupno 20-ak jezika, uglavnom onih u srednjoj i zapadnoj Europi. Osam godina kasnije u Zagrebu je osnovana Newton Technologies Adria (NTA), kako bi se bavila razvojem i prilagodbom tehnologija za jezike s područja jugoistočne Europe. Kako je Netokraciji rekao Marko Poljak, glavni izvršni direktor NTA:

Misao vodilja je bila koristiti ekspertizu iz područja tehnologija prijenosa govora u tekst za prilagodbu rješenja krajnjih korisnicima, kako bi uklonili potrebu za tipkanjem dokumentacije.

Krume Ivanovski

U njihovom timu zaduženom za naš dio svijeta nalazi se tridesetak ljudi, što IT stručnjaka, što lingvista i ljudi koji rade na edukaciji korisnika. Posao im je, prema Poljakovoj ocjeni, daleko jednostavniji nego prije, dobrim dijelom i zbog eksplozivnog uspona generativne umjetne inteligencije zadnjih mjeseci.

Samo reci, i zapisat će se… bio to email ili formular

Našu su pozornost privukli njihovi proizvodi namijenjeni zdravstvu i pravosuđu, koji olakšavaju dokumentiranje rada izravnim diktiranjem. Kako nam je to Poljak opisao:

Zamislite da jednostavno pokrenete program, odredite polje za unos teksta, uzmete mikrofon i počnete diktirati. Voilà!

Program ispisuje tekst u realnom vremenu, bilo da se radi o polju unutar bolničkog informacijskog sustava, stvaranju dokumenta na računalu ili slanju e-maila. Program piše tamo gdje kliknete mišem, što znači da vam više ne treba čarobni štapić za brzo obavljanje posla.

Engleski jezik su svladali u samo dva tjedna, ali s hrvatskim i ostalim slavenskim jezicima nije išlo tako jednostavno. Borba je počela 2006. godine i još traje jer i danas stalno usavršavaju proizvode koji ih koriste.

Engleski jezik su svladali u samo dva tjedna, ali s hrvatskim i ostalim slavenskim jezicima nije išlo tako jednostavno.

Ubrzavaju rad liječnika za 55 do 85 %

Još 2016. ponudili su softver Newton Dictate za transkripciju u realnom vremenu, a prvi rječnik – zbirku stručnih izraza koje se koristi u određenom području i konteksta u kojima se mogu naći – bio je namijenjen radiolozima.

Danas uz to nude i opći medicinski rječnik, kojeg mogu koristiti i ostale struke.

Newton Dictate, navodi Poljak, koristi na stotine liječnika u javnim i privatnim ustanovama. Među ustanovama u kojima je prisutan su, između ostalih, Klinika za dječje bolesti Zagreb, Opća bolnica u Puli, Klinička bolnica Merkur, Poliklinika Sveti Rok…

Prema podacima koje je predočio Poljak, njihov softver, ovisno specijalizaciji, ubrzava rad liječnika za 55 do 85 posto.

Čak smo radili testove na slijepo s liječnicima koji nikada nisu vidjeli sustav. S prvim nalazom kreiranim glasom došli su do 51 posto ubrzanja u odnosu na tipkanje.

Prostora za poboljšanje vide u daljnjoj specifičnoj prilagodbi rječnika unutar sustava, ali i u prilagodbi glasovnih naredbi unutar programa, s ciljem dobivanja teksta koji je točno prepisan, ali ujedno i formatiran na očekivani način.

Zasad u korištenju Newtone Dictatea prednjače radiolozi, patolozi, citolozi, endokrinolozi, ortopedi, kardiolozi, liječnici nuklearne medicine, pedijatri…

Za pravosuđe su pripremili sličan proizvod, uz pripadajući pravni rječnik, koji je u uporabi od 2018. godine. Za njegovu je izradu bilo potrebno oko šest mjeseci rada.

Sve se ažurira redovito podacima relevantnim za usavršavanje rječnika. Već smo prešli i 40 razvojnih instanci pojedinih specijaliziranih verzija.

Za svaku novu inačicu rječnika – dodavanje novih riječi i konteksta – treba računati na dodatnih 2-3 mjeseca rada. Pravni rječnik je sad na 39. verziji.

Modeli neuronskih mreža

Pri razvoju najveći je izazov bio uskladiti kompleksnosti jezika, očekivanja korisnika i ograničenja tehnologije.

Slavenske jezike karakterizira bogata morfologija (općenito imaju sedam padeža i tri gramatička roda) s prefiksima i sufiksima, uključujući flektivne nastavke. Glavni izazov u izradi rješenja je ispuniti očekivanja korisnika: ponuditi točnost prijepisa i pravilno formatiranje teksta. Primjerice, učiniti da program ispisuje različite formate ovisno o kontekstu izgovorenog.

U cijeli proces razvoja jezične komponente sustava za transkripciju jezika uključena je umjetna inteligencija.

Tijekom razvoja koristili smo modele duboke neuronske mreže i e2e model, nova generacija modela u kojoj neuronska mreža izravno povezuje govor s tekstom.

Naše sestrinske tvrtke – Presscut i Kliping – djeluju u domeni “media intelligence” i imaju riznicu tekstualnih, audio i video materijala koji nam pomažu u osvajanju novih jezika.

Što im je dostupna veća količina podataka to je bolji razvoj tehnologija za taj jezik, ističe Poljak. Kako bi razvili specijalizirane rječnike, zato koriste tekstove slične onima koje će korisnici diktirati, nastojeći osigurati prepoznavanje konteksta i što preciznije pretvaranje govora u tekst.

Za transkripciju intervjua i rasprava tu je Beey

 

Odnedavno je na tržištu i njihova platforma za transkripciju Beey, koja služi za olakšavanje procesa transkripcije te prijepis audio i video snimki. Uz pomoć Beeyja audio snimka se automatski transkribira. Nakon toga je dostupna za prepravke, s time da više ljudi može raditi na istoj snimci. Uz to, Beey sam detektira govornike i razdvaja tekst, a ugrađena je i funkcija provjere pravopisa, kako bi lakše uočili potencijalnu pogrešku.

Cijeli transkribirani tekst je pretraživ, a – kako je audio povezan s prijepisom – u dugoj audio snimci ste preko tekstualne pretrage odmah pozicionirani na mjestu koje vas zanima i moguće je vrlo brzo naći dio snimke na koji želite obratiti posebnu pozornosti.

To je rješenje koje se sve više koristi i u medijskoj industriji, za titlovanje i prijevode titlova, ali i za pravosudna tijela i transkripciju rasprava.

Razvoj Beeyja se nastavlja, a u to je odnedavno uključen i sveprisutni ChatGPT.

Povezali smo ChatGPT s transkriptima za sumarizaciju teksta, što nam je otvorilo sasvim nove mogućnosti za razumijevanje sadržaja.

Pet puta veći broj korisnika do 2025.

Newton Dictate u ponudi je uglavnom na bazi mjesečne pretplate po glasovnom profilu (korisniku), dok Beey pretežito nude na bazi naplate jednokratnog korištenja.

Različite funkcionalnosti i usluge također utječu na cijenu.

Tržišta na koja smo fokusirani se nalaze u regiji Adria regiji, gdje trenutno imamo nešto više od 1.300 korisnika sustava Newton Dictate i nekoliko desetaka Beey sustava.

Plan je da do 2025. godine imamo više od 6.000 korisnika sustava Newton Dictate, a da Beey bude integriran sa svim medijima i neizostavan alat za sve zapisnike i sastanke. 

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Ekskluzivno

57hours Viktora Marohnića narastao 4 puta i osigurao još 2,75 milijuna dolara

U ekskluzivnom intervjuu za Netokraciju, suosnivač brzorastuće avanturističke platforme Viktor Marohnić, sa svojim investitorima, otkriva planove.

Tvrtke i poslovanje

7 savjeta za učinkovitu izradu poslovnog plana (posebno za one koji nemaju vremena)

Nisu bez razloga velikani povijesti od Sun Tzua do Dwight D. Eisenhowera pričali o planiranju kao o svetom gralu uspjeha - i ne stoji bez razloga ona narodna: dobra organizacija je pola posla.

Novost

Peta kriptomarka Hrvatske pošte su neponovljivi profesor Baltazar i njegovi izumi

Peto izdanje kriptomarke, koja dolazi u analognom i digitalnom obliku, Hrvatska pošta pustila je u optjecaj!

Što ste propustili

Tvrtke i poslovanje

Sretan mu 25. rođendan: Kako smo počeli koristiti Googleove proizvode – i zašto (ne)ćemo nastaviti?

Povodom Googleovog rođendana prisjećamo se njegove prošlosti, nepobitnog utjecaja na sve digitalno što danas radimo, ali gledamo i u blisku budućnost koju će obilježiti dvije ključne riječi - umjetna inteligencija i monopol. Nismo propustili priliku ni nostalgično se prisjetiti pozivnica za Gmail, Googleovih pokušaja da napravi društvenu mrežu ili prvih susreta s Googleom, što je za neke zapravo bio YouTube.

Novost

U ZICER-u startupe čeka 150.000 eura, a prijave za akceleracijske programe traju još samo ovaj tjedan

Vodeći hrvatski startup hub ZICER otvorio i program za uspješno lansiranje na globalno tržište.

Tehnologija

500 tisuća korisnika koristi tehnologiju ovog hrvatskog AI startupa

S vremena na vrijeme, pojavi se neki startup koji marljivo radi "ispod radara", a onda odluči podijeliti svoju priču. Prvi donosimo intervju s TensorPixom koji od nedavno broji preko pola milijuna korisnika.

Izvještaj

Lekcije inženjerke iz Shopifya: kako koristiti AI za brži, bolji i lakši razvoj softvera?

Umjetna inteligencija i inženjeri. Nekada se vole, nekada mrze, ali činjenica je da AI inženjerima može olakšati pisanje koda... (ako i sami znaju što rade).

Tvrtke i poslovanje

Sofascore i Span: Zašto se nismo prodali? Jer nam to ne treba – ako imaš tri auta, možeš voziti samo jedan.

Investicije i preuzimanja domaćih tvrtki glavne su teme naše male poduzetničke scene, ali koliko god se pričalo, često tema o neovisnosti ostane postrani. Srećom, ove godine se otvorila na 16. Weekendu.

Panel

“Design Handoff” je proces zbog kojeg developer i dizajner ne moraju imati “standoff”

Predaja bilokakvog projekta ne završava s vašom točkom na kraju - nego svih kojih se taj projekt usko tiče. Uz Neuralab prolazimo kako od “ja sam svoje riješio” doći do kvalitetnog, strukturiranog “design handoffa” koji će značajno olakšati život svima uključenima: dizajnerima, developerima, PM-ovima, klijentima…