Želite 'iskopati' neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski 'web'. Što sve možemo doznati kada pretražujemo?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Ako plivamo hrvatskim web prostorom, za lakše snalaženje u njemu nećemo se morati osloniti jedino na Google ili neku drugu svjetski poznatu tražilicu. Zanima li nas povratak u određenu točku u vremenu ili prisjećanje na temu koju tražimo, pomoć stiže s Hrvatskim arhivom weba, koji od 2004. godine pokušava sačuvati što potpuniju sliku hrvatskog weba s posebnim naglaskom na domaće .hr domene. Cilj je da ništa bitno ne padne u zaborav, bilo da je riječ o društvenom trendu ili popularnom događaju koji je izazvao pozornost, bilo da nas zanimaju web stranice kojih više nema.

'Harvestiranje' weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?
‘Harvestiranje’ weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?

Nacionalna i sveučilišna knjižnica predstavlja hrvatski web oslanjajući se na dva osnovna principa prikupljanja sadržaja. Selektivno arhiviranje provodi se otkako Hrvatski arhiv weba postoji, od 2004. godine, a taj dio posla mogao bi se opisati kao tekući, s reakcijom čim se pojavi potreba da se osvježi prikupljena građa. Drugi dio posla obuhvaćen je harvestiranjem, s kojim se započelo 2011. i obavlja se jedanput godišnje, nudeći rješenje za pogled u prošlost, s pretragom po točnom URL-u i po određenom datumu koji nas zanima, a ponuđen je u pretrazi.

Što je donijelo novo harvestiranje?

S poslom koji za NSK obavlja Srce, peto harvestiranje provedeno je u posljednjem tjednu prošle godine, a nedavno predstavljeni rezultati otkrili su da je prikupljeno više od 74 milijuna datoteka s ukupnom veličinom od 6.1 terabajta. U odnosu na prethodna četiri harvestiranja, prikupljeni sadržaj bio je veći od dosadašnjih, a kao i do sada, cilj obavljenog posla bilo je predstavljanje novog prikupljenog sadržaja na stranicama s vršnom .hr domenom, s mogućnošću njihova pregleda u određenoj točki vremena.

Kako se harvestiranje odvija? Korake na tom putu približila je Karolina Holub, viša knjižničarka u Centru za razvoj digitalne knjižnice i Hrvatskom zavodu za knjižničarstvo NSK-a, opisujući posao čiji su novi rezultati predstavljeni početkom 2016:

Radni proces bitno se razlikuje od selektivnog arhiviranja jer se na osnovu inicijalnog popisa dobivenog iz CARNeta započinje s godišnjim pobiranjem. Harvestiranje .hr domene za NSK provodi Srce jednom godišnje pomoću softvera otvorenog koda Heritrix koji arhiviranu građu sprema u datoteke u WARC formatu. Za pregledavanje pobranog sadržaja koristi se alat Wayback Machine pomoću kojeg se sadržajima pristupa jedino unosom njihovog izvornog URL-a.

Dok pretražujemo sadržaj prikupljen harvestiranjem, u prvom planu je bliska ili nešto dalja povijest hrvatskog weba koju želimo “iskopati” u arhivi:

Korisnik takvim pristupom ulazi u prostor harvestiranog weba, čime dobiva ‘širu sliku vremena’. Taj dio Hrvatskog arhiva weba manje je tradicionalnog oblika (ako se na webu uopće može govoriti o tradicionalnim formama) i izvor je korisnih informacija objavljenih na webu u određenom vremenu koje je važno sačuvati. Ako takvi sadržaji nisu dokumentirani i adekvatno sačuvani u arhivu weba, neće biti ni dostupni za buduća istraživanja. To je ujedno jedna od novih uloga Nacionalne i sveučilišne knjižnice u očuvanju digitalne baštine.

Harvestiranja usmjerena na temu

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Osim redovnih godišnjih, od 2011. se obavljaju i tematska harvestiranja, kojima se u prvi plan stavlja sadržaj po određenoj temi koji nije ograničen isključivo na .hr domenu, već su obuhvaćene i ostale. Za sada je u prvom planu politika, s tematskim harvestiranjem različitih izdanja izbora ili stranica povezanih s hrvatskim pristupom Europskoj uniji. No, političke teme nisu sve. Primjerice, dostupna je i pretraga hrvatskog weba povezana s poplavama koje su pretprošle godine izazvale veliku štetu:

Proces započinje pretraživanjem weba kojim se odabiru javno dostupni sadržaji, a koji se odnose na određenu temu. I ova pobiranja provode se softverom Heritix i prikazuju putem alata Wayback Machine.

Za razliku od pretrage stranica prikupljenih harvestiranjem, selektivno arhiviranje nudi nekoliko različitih mogućnosti za pretraživanje sadržaja, koje se ne zadržava isključivo na potrazi po URL-u stranice koja nas zanima. Prikupljanje novoga sadržaja obavlja se kontinuirano, a epilog je gotovo 6000 naslova koji se mogu dobiti pretragom.

Toliko često koliko je potrebno

Selektivno arhiviranje ne ograničava se na osvježavanje sadržaja jednom godišnje, poput harvestiranja. Kako je istaknula Holub, njegov je cilj ponuditi što širu sliku hrvatskog weba, a ne samo povijesnu komponentu:

Zbog velike količine građe na webu bilo je nužno postaviti kriterije odabira kako bi za dugoročnu pohranu bila odabrana kvalitetna i reprezentativna građa. Radni proces selektivnog arhiviranja temelji se na svakodnevnoj interakciji knjižničnog sustava i sustava za arhiviranje. Svako web sjedište opisano je u knjižničnom katalogu Nacionalne i sveučilišne knjižnice u Zagrebu i svakog dana u određeno vrijeme odvija se razmjena podataka sa sustavom za arhiviranje.

Frekventnost osvježavanja ovisi o potrebama:

U sustav za arhiviranje unose se potrebni parametri za pobiranje novih webova, uređuju parametri za one webove kod kojih je došlo do promjene i aktivira novo pobiranje, provjerava tijek arhiviranja za sve webove. Učestalost pobiranja (svakodnevno, jednom ili više puta tjedno, mjesečno, godišnje) određuje se prema procijenjenom značaju određenog web sjedišta za širu društvenu zajednicu, učestalosti promjena sadržaja te strukturi.

Obuhvaćene i druge domene

Osim u slučajevima kada nakladnik koji stoji iza sadržaja na webu zatraži da se rezultati pretrage mogu dobiti isključivo dok pretražujemo u NSK-u, svi sadržaji koje dobijemo pretragom javno su dostupni na bilo kojem mjestu, a pritom nam je pri ruci nekoliko opcija. Ono što nas zanima imamo priliku pronaći ubacivanjem ključnih riječi, bilo koje riječi iz URL-a ili iz naslova i po predmetnim područjima i abecedi. Rezultati koje dobivamo plod su rada iza kojega stoji NSK-ov partner u ovom poslu:

Srce je za NSK razvilo sustav DAMP koji služi za provedbu i pohranu rezultata selektivnoga arhiviranja i u cijelosti je razvijen u Srcu. Temelji se na razvojnoj i produkcijskoj okolini otvorenoga programskog koda: MySQL, Oracle Java, Apache Tomcat, Apache HTTP Server i PHP, a operacijski sustav koji se koristi na poslužiteljima Hrvatskog arhiva weba je Debian Linux.

Selektivnim arhiviranjem nije obuhvaćena samo vršna .hr domena. Dok pretražujemo, .hr će imati prednost u našim rezultatima, ali pobire se i arhivu vrijedni sadržaj s drugih domena, .com, .info, .net, .org i ostalih.

Postoji li najbolja pretraga?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Svaka sa svojim usmjerenjem, pretraga po harvestiranom sadržaju ili po stranicama dobivenima selektivnim arhiviranjem ima i prednosti i nedostatke. Put kojim ćemo krenuti dok tražimo ovisi o onome što nam treba, ali po iskustvu koje korisnici imaju, Karolina Holub će u prvi plan staviti jedan od dva glavna principa:

Svakako preporučujemo pretraživanje selektivnog dijela arhiva jer se s posebnom pažnjom podešavaju parametri za arhiviranje svakog pojedinačnog weba kako bi arhivirani primjerak bio u što većoj mjeri sličniji izvorniku. Građa koja se može pretraživati u tom dijelu mora zadovoljavati kvalitetom sadržaja, strukturom i formatom, ugledom i pouzdanošću nakladnika/vlasnika te jedinstvenošću koja se odnosi prvenstveno na sadržaje koji postoje isključivo na webu. Primjeri takve građe su news portali (npr. Index.hr), blogovi (npr. Poslovno.biz), web sjedišta ustanova, udruga, događaja, znanstvenih projekata i drugih.

Želimo li i sami zaplivati ovim vodama i upoznati se s pregledom prikupljenog sadržaja, početak puta je samo jedan klik daleko – s prilikom da potom krenemo dalje, prilagođavajući pretragu našim potrebama i željama.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome)
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime (Hrvoje Lončar) ili barem ime i inicijala (Hrvoje L.) te pravu email adresu. Kako koristimo podatke koje tamo ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Tehnologija

Brate, trebam li stvarno uzeti Šaomi?

Xiaomi je u relativno kratkom vremenu postao brend koji se daleko najviše preporučuje u Hrvatskoj i regiji. Zašto?

Kolumna

Što će nam uopće kriptovalute?

Iako o kriptovalutama slušamo već godinama, rijetko kad nam je netko dao suvisao odgovor na pitanje, a što će nama kriptovalute zapravo? U vremenima kada se centralizirani sustavi poput banaka igraju s našim povjerenjem, nikada nije bilo jasnije. Evo odgovora...

Izrada web stranica

Kad vam u 2021. padne server, što očekivati od svog hosting poslužitelja?

Po muci se poznaju junaci pa tako i hosting poslužitelji. Kako izgleda posao s druge strane vašeg weba, otkrili smo.

Što ste propustili

Digitalni marketing

Sean Ellis: “Prošlo je vrijeme kad jedan jedini growth hacker može dobiti vrtoglave rezultate”

Skovan kao termin prije više od 10 godina, growth hacking je osigurao strelovit rast mnogim poznatim firmama u tehnološkom svijetu, ali mu je ta popularnost osigurala i dozu notornosti. O kontroverzama i budućnosti ove metodologije imala sam priliku pričati s njenim utemeljiteljem, Seanom Ellisom, koji će uskoro nastupiti i uživo u Zagrebu na konferenciji SuperMinds: Don’t Code What You Don’t Understand.

Digitalni mediji

Što svaki developer treba znati o web analitici

Svaki put kad netko kaže da je web stranica gotova i “sad možemo instalirati analitiku”, analitičaru negdje na svijetu pametni telefon padne na pod, kaže stručnjak za web analitiku Robert Petković.

Startupi i poslovanje

Head of Growth: Ima li takvih superjunaka u Hrvatskoj?

Domaćim tehnološkim tvrtkama ojačanima investicijama na putu prema rastu trebaju iskusni multidiscplinarni stručnjaci koji će taj rast ubrzati. Analiziramo kako Head of Growth razmišlja, što treba znati te gdje ga i kako naći, a svoja razmišljanja dali su i Filip, vlasnik growth agencije te Tana, suosnivačica Bazzara, koji upravo zapošljava jednog.

Sponzorirano

eCommerce nakon pandemije? Najveće okupljanje industrije otkriva nam korijenske promjene

Svjedoci smo povijesnih preokreta u digitalnoj trgovini i promjena koje će imati dalekosežne posljedice. Kako se pripremiti za postpandemijski svijet eCommercea, Neuralab ekipa donosi saznanja sa središnjeg eCommerce događaja - RetailXa u Chicagu.

Startupi i poslovanje

Superology i Sportening: Želimo odgajati vrhunske product managere u Hrvatskoj

Jedan je prošao put od programera preko 'Katice za sve' do voditelja razvoja proizvoda, a drugi je nakon doktorata i akademske karijere u Kaliforniji radio u Googleu u Zürichu pa se vratio u Zagreb biti suosnivač startupa. Otkrili su nam što čini dobrog product managera, što dobri produktni tim i koji je najkraći put do inovacije.

Kultura 2.0

Velimir Grgić: “Ljudski mozak (i sve njegove mane) postao je transparentniji nego ikada, a sve zahvaljujući internetu.”

Velimir je kao novinar, pisac, scenarist i producent prošao zbilja sito i rešeto toga, ali teorije zavjera ostale su mu trajna inspiracija još od ranih dana. Zašto itko promišlja o zemlji koja je ravna ploča, hoće li teoretiziranje o zavjerama ikada prestati te koja teorija je njemu osobno najintrigantnija - saznali smo od autora netom rasprodane knjige "Teorije zavjera 21. stoljeća".