30 godina 'dobrog alata Hašeka' koji dnevno obradi više od 30 tisuća vaših tekstova

30 godina ‘dobrog alata Hašeka’ koji dnevno obradi više od 30 tisuća vaših tekstova

Prije točno 30 godina, puno prije nego što su rođeni eGrađani, nastala je besplatna javna usluga koja je jednako popularna i danas. Riječ je o Hascheck (Hašeku), alatu za jezičnu provjeru tekstova na hrvatskom jeziku, koji je mnoge generacije učinio pismenijima.

Kako to obično biva u Hrvatskoj, taj iskorak nije rezultat rada sustava ili institucija, nego entuzijastičnog pojedinca, kojeg se šira javnost sjetila nedavno, povodom vijesti o njegovoj smrti. Riječ je o Šandoru Dembitzu, profesoru na zagrebačkom FER-u, gdje je radio od 1974. u Zavodu za osnove elektrotehnike i električka mjerenja.

Srećom po korisnike, Dembitzov rad na Hašeku nastavio je prof. Gordan Gledec, nekadašnji dekan FER-a i njegov dugogodišnji bliski suradnik na ovom projektu. S njim smo popričali o izazovima u razvoju Hašeka u vremenu prije zamaha umjetne inteligencije, o njegovoj motivaciji za angažman, trendovima koje je u korištenju Hašeka uočio, smislu bavljenja hrvatskim jezikom itd.

Šandor Dembitz bio mi je asistent na tadašnjem ETF-u, ali u to doba nisam znao kojim se istraživanjima bavi. Tek kad sam se potkraj devedesetih zaposlio na FER-ovu Zavodu za telekomunikacije, saznao sam za njegov spelling checker Hascheck.

Hascheck je javno dostupan od 21. ožujka 1994. kao online usluga putem elektroničke pošte, tj. korisnicima je omogućavao da mailom pošalju svoj tekst, a Hascheck bi vratio popis nepoznatih riječi, bez ponuđenih ispravaka.

Budući da me smeta šlampavost u pisanju, otprilike 2003. godine zainteresirao sam se više za njegov rad i napravio web-sučelje za Hašek, koje je omogućavalo prikazivanje pogrešaka u poslanom tekstu, zadanoj web-stranici ili u PDF-datoteci poslanoj na obradu. To je izgledalo otprilike ovako.

Link na uslugu brzo se proširio mrežom tako da je broj korisnika rastao, a Šandor je uveo i funkcionalnost nuđenja ispravaka. Kasnije smo u projekt spellcheckera uključivali i svoje studente.

Hascheck iz 2008. godine.

Informatički izazovi u počecima

Izrada web-sučelja bila je prekretnica koja je omogućila da uslugu postupno počne koristiti sve veći broj korisnika. Kad se proširila među novinarima i drugim stvarateljima sadržaja, osigurali su jaču hardversku podršku koju su u više navrata i proširivali. Naime, u vrijeme nastanka Haschecka IT tehnologije bile su bitno manje razvijene pa izazova u razvoju nije nedostajalo:

U početku usluge problem je bilo ograničenje memorije i diska, ali i izostanak rječničke baze – inicijalna baza općejezičnih pojmova nastala je na temelju desne strane Bujasova englesko-hrvatskog rječnika koji je sredinom sedamdesetih Šandor dobio na računalno uređivanje.

Kasnije su problem bili različiti znakovni skupovi koje su korisnici upotrebljavali (prastari CROSCII, zatim ISO-8859-2, Microsoftov CP1250 i kasnije UTF). Izvorna baza i dalje koristi format zapisa iz vremena početka usluge, a zbog Unix-skripti koje je obrađuju, a koje su nastale prije više od 30 godina, danas je teško išta mijenjati ili popravljati u njima.

Objašnjava dalje da je uspjeh uopće i razumjeti što je Šandor programirao. Zato se nova funkcionalnost razvija u web-aplikaciji, koja isprva poziva originalnu Hascheckovu skriptu i parsira njegov rezultat, ali onda kontekstnu provjeru i provjeru najčešćih gramatičkih i sintaktičkih pogrešaka obavlja bez oslanjanja na Hascheck.

Lako pamtljiva adresa i greške koje se ponavljaju

Nakon web-sučelja, sljedeća velika prekretnica bila je promjena domene, otkad Hašeka možete naći na https://ispravi.me/. Osim same funkcionalnosti jezične provjere, tu je ažurna statistika korištenja, ali i široj javnosti uvijek zanimljiv godišnji pregled najčešćih jezičnih pogrešaka korisnika Haschecka.

Na toj adresi saznali smo da se u 2023. godini od pravopisnih pogrešaka najviše griješilo u upotrebi „ć“ i „č“, „ije“ i „je“, što se već godinama ponavlja.

Zamjetno je i često pisanje riječi “svo” umjesto “sve”, “niko” umjesto “nitko”, “šta” umjesto “što”, “vjerovatno” umjesto “vjerojatno” ili “projekat” umjesto “projekt”. Pri vrhu je i pogrešno pisanje negacije pa tako “ne bi” postaje “nebi”, a “ne znam” postaje “neznam”. “Sa mnom” često postaje “samnom”,

navodi se na Hašekovu blogu, uz još niz primjera i preglednih statistika.

Primjerice, od gramatičkih i stilskih pogrešaka, kojih je lani pronađeno 300 tisuća, jako su zastupljene sintagme “s obzirom da” (treba “s obzirom na to da”), “na taj način” (bolje je “tako”) ili “na način da” (bolje je “tako da”), “zajedno s” (najčešće je dovoljno “s”),“iz razloga što” (ispravno je “zato što”) itd.

Dnevno se provjeri 30 tisuća tekstova

Zanimalo nas je i koje je dugogodišnje trendove Gledec uočio u svom 20-godišnjem bavljenju Hascheckom. Osim stalnog povećanja broja korisnika i količine materijala, izdvaja dvije zanimljivosti:

Iznenadili smo se kad smo ustanovili da sve više korisnika dolazi iz Srbije i Crne Gore, s tekstovima na njihovim jezicima, što je vjerojatno odraz činjenice da tamo nema ovakve usluge, a jezici su slični. Njima ne smeta što im Hašek ekavicu uredno ijekavizira. Uočili smo i da su tekstovi koji dolaze iz SAD-a i Njemačke pismeniji od onih koji dolaze s domaćih adresa.

Izvorno je ova usluga bila namijenjena akademskoj zajednici, a danas ima stotine tisuća malih korisnika. Među njima su i oni profesionalni, koji su izvor prihoda za održavanje usluge:

Od profesionalnih korisnika, koji našu uslugu u iznadprosječnom obujmu koriste za svoje profesionalne potrebe, tu su najveće medijske i televizijske kuće, PR i internetske oglašivačke agencije, ali i neke kompanije i poduzeća čije vodstvo razumije nužnost ispravnog pisanja i urednost u komunikaciji s korisnicima. Prije desetak godina uslugu je aktivno podržavao i Agrokor, koji ga je koristio kao korporacijski pravopisni provjernik.

S novim imenom i ruhom, Hascheck ima i informacije za one koji žele znati više: bila to najčešća pitanja ili najvažnije novosti na njihovom blogu.

Inače, osim preko web-sučelja, uslugu je moguće koristiti i putem API-ja, koji tvrtka, primjerice, može ugraditi u svoj CMS.

Očekivano, Gledec raspolaže i svježim statistikama:

Dnevno imamo oko 10 tisuća korisnika koji na provjeru pošalju 30 tisuća tekstova. Dosad smo ovog mjeseca imali više od 55 tisuća korisnika koji su na obradu poslali gotovo 420 tisuća tekstova s gotovo 90 milijuna riječi.

Hoćemo li ikad dobiti jezični alat moćan kao Grammarly?

Dobra je vijest što projekt neće stati nakon Dembitzove smrti jer su, uz Gledeca, u njegovu razvoju već dugo uključeni studenti FER-a:

Nakon mog uključivanja, na razvoju su sudjelovali i naši studenti prijediplomskih i diplomskih studija te naši asistenti (koji su istovremeno radili na magisterijima ili doktoratima). Nakon Šandorove smrti preuzeo sam svakodnevne poslove uređivanja i održavanja sustava i učenja novih riječi, kao i održavanje n-gramskog sustava jezika.

Sa studentima radim na novim funkcionalnostima vezanim uz ispravljanje gramatičkih i kontekstualnih pogrešaka, u nadi da ćemo korisnicima dati bar dio funkcionalnosti kakvu za engleski jezik daju poznati svjetski servisi.

Na naše pitanje odgovara da nije realno očekivati da ćemo ikad za hrvatski jezik dobiti jezični alat moćan kao Grammarly:

Engleski jezik govori daleko veći broj ljudi, ima ogroman korpus dostupnog teksta važnog za učenje. Njegove morfološke karakteristike, posebno sustav deklinacija i konjugacija, daleko su jednostavnije nego u hrvatskom. Dominantan je u međunarodnoj komunikaciji i u njega se puno ulaže puno više resursa i istraživanja.

Zašto je onda važno bavljenje hrvatskim jezikom?

Smatram da brigom o jeziku doista i stvarno čuvamo i razvijamo svoju kulturu i nacionalnu pripadnost. Oni koji se busaju o nacionalna velikohrvatska prsa po društvenim mrežama najčešće su potpuno nepismeni, do razine osnovne škole, čime i njihovo hrvatstvo (p)ostaje samo deklarativno. Ako si veliki Hrvat, daj barem nauči jezik.

Što se sprema novoga?

U tome itekako mogu pomoći najnovije i najavljene mogućnosti Hašeka:

Prije nekoliko mjeseci u uslugu smo ugradili mogućnost prepoznavanja pogrešno napisanog datuma, zatim suvišnih razmaka ispred ili iza znakova interpunkcija i zagrada, ispravnog pisanja postotaka; ubrzano je ispravljanje gramatičkih i pleonastičkih pogrešaka i slično.

U planu je implementacija ispravljanja zatipaka (tipfelera) koji su zapravo ispravne riječi, ali u krivom kontekstu (npr. svjetlo i svijetlo). Vjerujem da ćemo ići i prema dodavanju usluge parafraziranja i stilskog dotjerivanja teksta.

I konačno, neizbježno je pitanje odakle mu motivacija za dugogodišnji rad na ovoj javnoj usluzi.

Na ovom projektu dotakli su se moj interes za jezik i za web, vjerojatno i činjenica da sam u nekoj mjeri i grammar-nazi, a motivacija mi je to što smatram da svojim radom pomažem tisućama ljudi koji svaki dan koriste uslugu. Hrvatski jezik je u europskim (ali i svjetskim) razmjerima računalno prilično zapušten, a utvaram si da su Šandorov i moj rad dali bar mali doprinos dostupnosti jezičnih tehnologija za njega.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Prikaz

Native Teams u Hrvatskoj: Kako olakšavaju brigu o porezima, doprinosima i zapošljavanju u inozemstvu?

Native Teams, platforma za freelancere i digitalno plaćanje koju globalno koristi gotovo sto tisuća ljudi, u Hrvatsku je stigla prije dvije godine. Otkrivamo kako im je izgledalo širenje na regiju te što su u međuvremenu nova uveli.

Zabava i zanimljivosti

Hrvati napokon mogu glasati elektronski, i to zahvaljujući Samu Altmanu (i botovima)

Već niz godina naklapa se i navija za uvođenje elektronskog glasanja u Hrvatskoj. Ako nismo tijekom pandemije koronavirusa, kad ćemo, pitaju se mnogi. Ova superizborna godina, u kojoj nas čekaju parlamentarni, europski i predsjednički izbori jedina je još sila (ne)prilika koja bi mogla nagnati Državno izborno povjerenstvo da poduzmu mjere po tom pitanju.

Digitalni marketing

“Želim samo logo za svoj brend” je kao naručivanje hrane bez soli i začina

U dinamičnom svijetu poslovanja, gdje nam se svakodnevno servira tona sadržaja i reklama i gdje se prvi dojam često stvara jednim pogledom – dobro osmišljen logotip izuzetno je važan. Međutim, put kroz brendiranje ide daleko izvan stvaranja logotipa.

Što ste propustili

Startupi

Tim MediBoost pobjednik je inovacijskog natjecanja AI4Health.Cro

U natjecanju je sudjelovalo 28 timova, od kojih je 10 ušlo u veliku završnicu te dobilo priliku natjecati se za prve tri nagrade, a pobjedu je odnio tim MediBoost.

Intervju

Moran Cerf: Vrijeme je da marketinška industrija uporabi alate koje su neuroznanstvenici stvorili!

Moran Cerf znanstvenik je koji je revidirao protokol lansiranja nuklearnog oružja, a na Danima komunikacija najavio je marketing budućnosti – marketing u našim snovima. I nije riječ o sanjarenju!

FinTech

Regulativa vs. korisničko iskustvo: Kako banke identificiraju korisnike na daljinu?

Pravilnikom Ministarstva financija o uvođenju novih klijenata u bankarski sustav industrija je zadovoljna, ali kako provjeriti identitet klijenta na daljinu - i dalje ostaje veliki problem za banke.

Novost

Cancel kultura: Tko (ni)je dosad otkazan?

U novoj epizodi podcasta komentiramo dvije prilično kontroverzne teme - otkazivanje i politiku.

Analiza

SDP najviše potrošio na digitalno oglašavanje od stranaka, a od pojedinaca – Andrej Plenković

Dan prije izborne šutnje predstavljamo vam tko je bio najglasniji, barem što se tiče trošenja novca, na internetu.

Analiza

E-glasovanje: Dobro za malu Estoniju i veliki Brazil, ali ne i za Hrvatsku. Zašto?

Iako ima više razloga zašto bi ga trebalo modernizirati, izborni je proces u Lijepoj našoj i dalje jedno od čvrstih uporišta otporu digitalizaciji.