OBJAVLJENI PODACI PETOG 'HARVESTIRANJA' DOMAĆEG WEBA

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Sviđa vam se članak?

Preporučite ga prijateljima i kolegama putem društvenih mreža!

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski ‘web’. Što sve možemo doznati kada pretražujemo?

Izvor: NSK, autor: AeroPixel

Izvor: NSK, autor: AeroPixel

Ako plivamo hrvatskim web prostorom, za lakše snalaženje u njemu nećemo se morati osloniti jedino na Google ili neku drugu svjetski poznatu tražilicu. Zanima li nas povratak u određenu točku u vremenu ili prisjećanje na temu koju tražimo, pomoć stiže s Hrvatskim arhivom weba, koji od 2004. godine pokušava sačuvati što potpuniju sliku hrvatskog weba s posebnim naglaskom na domaće .hr domene. Cilj je da ništa bitno ne padne u zaborav, bilo da je riječ o društvenom trendu ili popularnom događaju koji je izazvao pozornost, bilo da nas zanimaju web stranice kojih više nema.

'Harvestiranje' weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?

‘Harvestiranje’ weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?

Nacionalna i sveučilišna knjižnica predstavlja hrvatski web oslanjajući se na dva osnovna principa prikupljanja sadržaja. Selektivno arhiviranje provodi se otkako Hrvatski arhiv weba postoji, od 2004. godine, a taj dio posla mogao bi se opisati kao tekući, s reakcijom čim se pojavi potreba da se osvježi prikupljena građa. Drugi dio posla obuhvaćen je harvestiranjem, s kojim se započelo 2011. i obavlja se jedanput godišnje, nudeći rješenje za pogled u prošlost, s pretragom po točnom URL-u i po određenom datumu koji nas zanima, a ponuđen je u pretrazi.

Što je donijelo novo harvestiranje?

S poslom koji za NSK obavlja Srce, peto harvestiranje provedeno je u posljednjem tjednu prošle godine, a nedavno predstavljeni rezultati otkrili su da je prikupljeno više od 74 milijuna datoteka s ukupnom veličinom od 6.1 terabajta. U odnosu na prethodna četiri harvestiranja, prikupljeni sadržaj bio je veći od dosadašnjih, a kao i do sada, cilj obavljenog posla bilo je predstavljanje novog prikupljenog sadržaja na stranicama s vršnom .hr domenom, s mogućnošću njihova pregleda u određenoj točki vremena.

Kako se harvestiranje odvija? Korake na tom putu približila je Karolina Holub, viša knjižničarka u Centru za razvoj digitalne knjižnice i Hrvatskom zavodu za knjižničarstvo NSK-a, opisujući posao čiji su novi rezultati predstavljeni početkom 2016:

Radni proces bitno se razlikuje od selektivnog arhiviranja jer se na osnovu inicijalnog popisa dobivenog iz CARNeta započinje s godišnjim pobiranjem. Harvestiranje .hr domene za NSK provodi Srce jednom godišnje pomoću softvera otvorenog koda Heritrix koji arhiviranu građu sprema u datoteke u WARC formatu. Za pregledavanje pobranog sadržaja koristi se alat Wayback Machine pomoću kojeg se sadržajima pristupa jedino unosom njihovog izvornog URL-a.

Dok pretražujemo sadržaj prikupljen harvestiranjem, u prvom planu je bliska ili nešto dalja povijest hrvatskog weba koju želimo “iskopati” u arhivi:

Korisnik takvim pristupom ulazi u prostor harvestiranog weba, čime dobiva ‘širu sliku vremena’. Taj dio Hrvatskog arhiva weba manje je tradicionalnog oblika (ako se na webu uopće može govoriti o tradicionalnim formama) i izvor je korisnih informacija objavljenih na webu u određenom vremenu koje je važno sačuvati. Ako takvi sadržaji nisu dokumentirani i adekvatno sačuvani u arhivu weba, neće biti ni dostupni za buduća istraživanja. To je ujedno jedna od novih uloga Nacionalne i sveučilišne knjižnice u očuvanju digitalne baštine.

Harvestiranja usmjerena na temu

Izvor: NSK, autor: AeroPixel

Izvor: NSK, autor: AeroPixel

Osim redovnih godišnjih, od 2011. se obavljaju i tematska harvestiranja, kojima se u prvi plan stavlja sadržaj po određenoj temi koji nije ograničen isključivo na .hr domenu, već su obuhvaćene i ostale. Za sada je u prvom planu politika, s tematskim harvestiranjem različitih izdanja izbora ili stranica povezanih s hrvatskim pristupom Europskoj uniji. No, političke teme nisu sve. Primjerice, dostupna je i pretraga hrvatskog weba povezana s poplavama koje su pretprošle godine izazvale veliku štetu:

Proces započinje pretraživanjem weba kojim se odabiru javno dostupni sadržaji, a koji se odnose na određenu temu. I ova pobiranja provode se softverom Heritix i prikazuju putem alata Wayback Machine.

Za razliku od pretrage stranica prikupljenih harvestiranjem, selektivno arhiviranje nudi nekoliko različitih mogućnosti za pretraživanje sadržaja, koje se ne zadržava isključivo na potrazi po URL-u stranice koja nas zanima. Prikupljanje novoga sadržaja obavlja se kontinuirano, a epilog je gotovo 6000 naslova koji se mogu dobiti pretragom.

Toliko često koliko je potrebno

Selektivno arhiviranje ne ograničava se na osvježavanje sadržaja jednom godišnje, poput harvestiranja. Kako je istaknula Holub, njegov je cilj ponuditi što širu sliku hrvatskog weba, a ne samo povijesnu komponentu:

Zbog velike količine građe na webu bilo je nužno postaviti kriterije odabira kako bi za dugoročnu pohranu bila odabrana kvalitetna i reprezentativna građa. Radni proces selektivnog arhiviranja temelji se na svakodnevnoj interakciji knjižničnog sustava i sustava za arhiviranje. Svako web sjedište opisano je u knjižničnom katalogu Nacionalne i sveučilišne knjižnice u Zagrebu i svakog dana u određeno vrijeme odvija se razmjena podataka sa sustavom za arhiviranje.

Frekventnost osvježavanja ovisi o potrebama:

U sustav za arhiviranje unose se potrebni parametri za pobiranje novih webova, uređuju parametri za one webove kod kojih je došlo do promjene i aktivira novo pobiranje, provjerava tijek arhiviranja za sve webove. Učestalost pobiranja (svakodnevno, jednom ili više puta tjedno, mjesečno, godišnje) određuje se prema procijenjenom značaju određenog web sjedišta za širu društvenu zajednicu, učestalosti promjena sadržaja te strukturi.

Obuhvaćene i druge domene

Osim u slučajevima kada nakladnik koji stoji iza sadržaja na webu zatraži da se rezultati pretrage mogu dobiti isključivo dok pretražujemo u NSK-u, svi sadržaji koje dobijemo pretragom javno su dostupni na bilo kojem mjestu, a pritom nam je pri ruci nekoliko opcija. Ono što nas zanima imamo priliku pronaći ubacivanjem ključnih riječi, bilo koje riječi iz URL-a ili iz naslova i po predmetnim područjima i abecedi. Rezultati koje dobivamo plod su rada iza kojega stoji NSK-ov partner u ovom poslu:

Srce je za NSK razvilo sustav DAMP koji služi za provedbu i pohranu rezultata selektivnoga arhiviranja i u cijelosti je razvijen u Srcu. Temelji se na razvojnoj i produkcijskoj okolini otvorenoga programskog koda: MySQL, Oracle Java, Apache Tomcat, Apache HTTP Server i PHP, a operacijski sustav koji se koristi na poslužiteljima Hrvatskog arhiva weba je Debian Linux.

Selektivnim arhiviranjem nije obuhvaćena samo vršna .hr domena. Dok pretražujemo, .hr će imati prednost u našim rezultatima, ali pobire se i arhivu vrijedni sadržaj s drugih domena, .com, .info, .net, .org i ostalih.

Postoji li najbolja pretraga?

Izvor: NSK, autor: AeroPixel

Izvor: NSK, autor: AeroPixel

Svaka sa svojim usmjerenjem, pretraga po harvestiranom sadržaju ili po stranicama dobivenima selektivnim arhiviranjem ima i prednosti i nedostatke. Put kojim ćemo krenuti dok tražimo ovisi o onome što nam treba, ali po iskustvu koje korisnici imaju, Karolina Holub će u prvi plan staviti jedan od dva glavna principa:

Svakako preporučujemo pretraživanje selektivnog dijela arhiva jer se s posebnom pažnjom podešavaju parametri za arhiviranje svakog pojedinačnog weba kako bi arhivirani primjerak bio u što većoj mjeri sličniji izvorniku. Građa koja se može pretraživati u tom dijelu mora zadovoljavati kvalitetom sadržaja, strukturom i formatom, ugledom i pouzdanošću nakladnika/vlasnika te jedinstvenošću koja se odnosi prvenstveno na sadržaje koji postoje isključivo na webu. Primjeri takve građe su news portali (npr. Index.hr), blogovi (npr. Poslovno.biz), web sjedišta ustanova, udruga, događaja, znanstvenih projekata i drugih.

Želimo li i sami zaplivati ovim vodama i upoznati se s pregledom prikupljenog sadržaja, početak puta je samo jedan klik daleko – s prilikom da potom krenemo dalje, prilagođavajući pretragu našim potrebama i željama.