Želite 'iskopati' neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski 'web'. Što sve možemo doznati kada pretražujemo?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Ako plivamo hrvatskim web prostorom, za lakše snalaženje u njemu nećemo se morati osloniti jedino na Google ili neku drugu svjetski poznatu tražilicu. Zanima li nas povratak u određenu točku u vremenu ili prisjećanje na temu koju tražimo, pomoć stiže s Hrvatskim arhivom weba, koji od 2004. godine pokušava sačuvati što potpuniju sliku hrvatskog weba s posebnim naglaskom na domaće .hr domene. Cilj je da ništa bitno ne padne u zaborav, bilo da je riječ o društvenom trendu ili popularnom događaju koji je izazvao pozornost, bilo da nas zanimaju web stranice kojih više nema.

'Harvestiranje' weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?
‘Harvestiranje’ weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?

Nacionalna i sveučilišna knjižnica predstavlja hrvatski web oslanjajući se na dva osnovna principa prikupljanja sadržaja. Selektivno arhiviranje provodi se otkako Hrvatski arhiv weba postoji, od 2004. godine, a taj dio posla mogao bi se opisati kao tekući, s reakcijom čim se pojavi potreba da se osvježi prikupljena građa. Drugi dio posla obuhvaćen je harvestiranjem, s kojim se započelo 2011. i obavlja se jedanput godišnje, nudeći rješenje za pogled u prošlost, s pretragom po točnom URL-u i po određenom datumu koji nas zanima, a ponuđen je u pretrazi.

Što je donijelo novo harvestiranje?

S poslom koji za NSK obavlja Srce, peto harvestiranje provedeno je u posljednjem tjednu prošle godine, a nedavno predstavljeni rezultati otkrili su da je prikupljeno više od 74 milijuna datoteka s ukupnom veličinom od 6.1 terabajta. U odnosu na prethodna četiri harvestiranja, prikupljeni sadržaj bio je veći od dosadašnjih, a kao i do sada, cilj obavljenog posla bilo je predstavljanje novog prikupljenog sadržaja na stranicama s vršnom .hr domenom, s mogućnošću njihova pregleda u određenoj točki vremena.

Kako se harvestiranje odvija? Korake na tom putu približila je Karolina Holub, viša knjižničarka u Centru za razvoj digitalne knjižnice i Hrvatskom zavodu za knjižničarstvo NSK-a, opisujući posao čiji su novi rezultati predstavljeni početkom 2016:

Radni proces bitno se razlikuje od selektivnog arhiviranja jer se na osnovu inicijalnog popisa dobivenog iz CARNeta započinje s godišnjim pobiranjem. Harvestiranje .hr domene za NSK provodi Srce jednom godišnje pomoću softvera otvorenog koda Heritrix koji arhiviranu građu sprema u datoteke u WARC formatu. Za pregledavanje pobranog sadržaja koristi se alat Wayback Machine pomoću kojeg se sadržajima pristupa jedino unosom njihovog izvornog URL-a.

Dok pretražujemo sadržaj prikupljen harvestiranjem, u prvom planu je bliska ili nešto dalja povijest hrvatskog weba koju želimo “iskopati” u arhivi:

Korisnik takvim pristupom ulazi u prostor harvestiranog weba, čime dobiva ‘širu sliku vremena’. Taj dio Hrvatskog arhiva weba manje je tradicionalnog oblika (ako se na webu uopće može govoriti o tradicionalnim formama) i izvor je korisnih informacija objavljenih na webu u određenom vremenu koje je važno sačuvati. Ako takvi sadržaji nisu dokumentirani i adekvatno sačuvani u arhivu weba, neće biti ni dostupni za buduća istraživanja. To je ujedno jedna od novih uloga Nacionalne i sveučilišne knjižnice u očuvanju digitalne baštine.

Harvestiranja usmjerena na temu

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Osim redovnih godišnjih, od 2011. se obavljaju i tematska harvestiranja, kojima se u prvi plan stavlja sadržaj po određenoj temi koji nije ograničen isključivo na .hr domenu, već su obuhvaćene i ostale. Za sada je u prvom planu politika, s tematskim harvestiranjem različitih izdanja izbora ili stranica povezanih s hrvatskim pristupom Europskoj uniji. No, političke teme nisu sve. Primjerice, dostupna je i pretraga hrvatskog weba povezana s poplavama koje su pretprošle godine izazvale veliku štetu:

Proces započinje pretraživanjem weba kojim se odabiru javno dostupni sadržaji, a koji se odnose na određenu temu. I ova pobiranja provode se softverom Heritix i prikazuju putem alata Wayback Machine.

Za razliku od pretrage stranica prikupljenih harvestiranjem, selektivno arhiviranje nudi nekoliko različitih mogućnosti za pretraživanje sadržaja, koje se ne zadržava isključivo na potrazi po URL-u stranice koja nas zanima. Prikupljanje novoga sadržaja obavlja se kontinuirano, a epilog je gotovo 6000 naslova koji se mogu dobiti pretragom.

Toliko često koliko je potrebno

Selektivno arhiviranje ne ograničava se na osvježavanje sadržaja jednom godišnje, poput harvestiranja. Kako je istaknula Holub, njegov je cilj ponuditi što širu sliku hrvatskog weba, a ne samo povijesnu komponentu:

Zbog velike količine građe na webu bilo je nužno postaviti kriterije odabira kako bi za dugoročnu pohranu bila odabrana kvalitetna i reprezentativna građa. Radni proces selektivnog arhiviranja temelji se na svakodnevnoj interakciji knjižničnog sustava i sustava za arhiviranje. Svako web sjedište opisano je u knjižničnom katalogu Nacionalne i sveučilišne knjižnice u Zagrebu i svakog dana u određeno vrijeme odvija se razmjena podataka sa sustavom za arhiviranje.

Frekventnost osvježavanja ovisi o potrebama:

U sustav za arhiviranje unose se potrebni parametri za pobiranje novih webova, uređuju parametri za one webove kod kojih je došlo do promjene i aktivira novo pobiranje, provjerava tijek arhiviranja za sve webove. Učestalost pobiranja (svakodnevno, jednom ili više puta tjedno, mjesečno, godišnje) određuje se prema procijenjenom značaju određenog web sjedišta za širu društvenu zajednicu, učestalosti promjena sadržaja te strukturi.

Obuhvaćene i druge domene

Osim u slučajevima kada nakladnik koji stoji iza sadržaja na webu zatraži da se rezultati pretrage mogu dobiti isključivo dok pretražujemo u NSK-u, svi sadržaji koje dobijemo pretragom javno su dostupni na bilo kojem mjestu, a pritom nam je pri ruci nekoliko opcija. Ono što nas zanima imamo priliku pronaći ubacivanjem ključnih riječi, bilo koje riječi iz URL-a ili iz naslova i po predmetnim područjima i abecedi. Rezultati koje dobivamo plod su rada iza kojega stoji NSK-ov partner u ovom poslu:

Srce je za NSK razvilo sustav DAMP koji služi za provedbu i pohranu rezultata selektivnoga arhiviranja i u cijelosti je razvijen u Srcu. Temelji se na razvojnoj i produkcijskoj okolini otvorenoga programskog koda: MySQL, Oracle Java, Apache Tomcat, Apache HTTP Server i PHP, a operacijski sustav koji se koristi na poslužiteljima Hrvatskog arhiva weba je Debian Linux.

Selektivnim arhiviranjem nije obuhvaćena samo vršna .hr domena. Dok pretražujemo, .hr će imati prednost u našim rezultatima, ali pobire se i arhivu vrijedni sadržaj s drugih domena, .com, .info, .net, .org i ostalih.

Postoji li najbolja pretraga?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Svaka sa svojim usmjerenjem, pretraga po harvestiranom sadržaju ili po stranicama dobivenima selektivnim arhiviranjem ima i prednosti i nedostatke. Put kojim ćemo krenuti dok tražimo ovisi o onome što nam treba, ali po iskustvu koje korisnici imaju, Karolina Holub će u prvi plan staviti jedan od dva glavna principa:

Svakako preporučujemo pretraživanje selektivnog dijela arhiva jer se s posebnom pažnjom podešavaju parametri za arhiviranje svakog pojedinačnog weba kako bi arhivirani primjerak bio u što većoj mjeri sličniji izvorniku. Građa koja se može pretraživati u tom dijelu mora zadovoljavati kvalitetom sadržaja, strukturom i formatom, ugledom i pouzdanošću nakladnika/vlasnika te jedinstvenošću koja se odnosi prvenstveno na sadržaje koji postoje isključivo na webu. Primjeri takve građe su news portali (npr. Index.hr), blogovi (npr. Poslovno.biz), web sjedišta ustanova, udruga, događaja, znanstvenih projekata i drugih.

Želimo li i sami zaplivati ovim vodama i upoznati se s pregledom prikupljenog sadržaja, početak puta je samo jedan klik daleko – s prilikom da potom krenemo dalje, prilagođavajući pretragu našim potrebama i željama.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Startupi i poslovanje

Saša Fišter platformom Sliceer planira dobiti gem, set i meč digitalizacije teniskih klubova

Aplikacija za digitaliziranje teniskih klubova i gemifikaciju igranja tenisa Sliceer danas ima više od 1400 aktivnih korisnika koji putem nje organiziranju mečeve i turnire.

Tehnologija

Kako otvoriti webshop? Važan korak je odabir platforme – što nudi WooCommerce?

Došla je pandemija i odjednom vam je pokretanje web trgovine postalo glavni prioritet? Važna odluka koja vas čeka je odabir platforme na temelju koje ćete napraviti svoje eCommerce carstvo. U moru alata čudnih imena, jedan iskače više od drugih - WooCommerce.

Intervju

Tko posreduje između vašeg mobitela i banke kada plaćate Apple Payem?

Dok prislanjate mobitel na POS terminal vjerojatno ne razmišljate o tome koliko se procesa odvija u pozadini kako bi vaš novac kroz mobitel otišao s računa, zar ne?

Što ste propustili

Intervju

Zašto smo angažirali virtualnog asistenta, iako to nismo planirali?

Krajem 2019. tražili smo novu osobu koja će se pridružiti našem timu, a koja će biti zadužena za administraciju. Kako smo manja tvrtka, nismo imali potrebu za zapošljavanjem takve osobe na puno radno vrijeme, stoga smo se nadali da ćemo naći nekoga tko bi bio voljan raditi pola radnog vremena.

Društvene mreže

Treći svjetski rat borit će se… influencer marketingom (pa i u Hrvatskoj)

Dok se pitamo koliko će eskalirati #blacklivesmatter prosvjedi u SAD-u, jedno je sigurno: Influenceri koje prate Millenials i Gen Z bit će oružje propagande svih uključenih strana!

Startupi i poslovanje

Što vas “venture building” model može naučiti o razvoju digitalnih proizvoda i startupa?

Poslovni modeli stalno se razvijaju i nadograđuju, a sada još više kada postoji snažna motivacija kao što je rješavanje krize. Venture building u ovim vremenima donosi nove prilike za inoviranje i razvoj poslovnih ideja da li od strane individualnih poduzetnika ili korporacija.

Karijere

Good Game Adria kreće u rujnu: Prva regionalna B2B esport liga prilagođena radu od doma (s humanitarnim karakterom)

Good Game nakon investicije kreće u širenje i pokretanje prve regionalne B2B esport lige, a koja će biti prilagođena radu od doma. Više o jedinom sportu koji je preživio vrijeme izolacije i kako gamingom oživjeti team buildinge razgovarali smo s osnivačem - Nikolom Stolnikom.

Startupi i poslovanje

Jesu li “koronabotovi” probudili uspavano tržište digitalnih asistenata?

U pratnji digitalizacije preko noći i neke tehnologije su doživjele svoj zlatni trenutak - poput chatbotova. Očito smo morali proći izolaciju da bismo cijenili automatizaciju. Kako se u kratko vrijeme realizirao prvi koronabot, otkrili su mi oni koji su ga i napravili, Combis i Erato.

Startupi i poslovanje

Wolt, Infobip i KEKSPay otkrili što ih je kaos oko COVID-19 naučio o CX-u

S obzirom na nove okolnosti rada i života koje je donijela pandemija, osluškivanje tržišta brendovima je postalo bitnije nego ikad. Oni koji su pomno pratili promjene snašli su se nešto bolje, ali nitko nije bio imun na izazove. Uz domaće i strane stručnjake na Digitalnom doručku prošli smo najvažnije aspekte korisničkog iskustva u neizvjesnim vremenima ne bi li spremnije dočekali mjesece pred nama.