Želite 'iskopati' neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Infobip ❤️ Netokracijašto akvizicija znači za vas - i nas?

Želite ‘iskopati’ neku stranicu iz prošlosti? Posjetite Hrvatski arhiv weba

Obavljajući posao koji im je u rasporedu zadataka jednom godišnje, Nacionalna i sveučilišna knjižnica i Srce nedavno su predstavili rezultate svojeg petog harvestiranja. Riječ je o postupku kojim se probiru internetske adrese za pretragu unosom njihovog punog URL-a i za dobivanje prikaza u određenoj točki u vremenu, a spada u dio posla kojim NSK predstavlja hrvatski 'web'. Što sve možemo doznati kada pretražujemo?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Ako plivamo hrvatskim web prostorom, za lakše snalaženje u njemu nećemo se morati osloniti jedino na Google ili neku drugu svjetski poznatu tražilicu. Zanima li nas povratak u određenu točku u vremenu ili prisjećanje na temu koju tražimo, pomoć stiže s Hrvatskim arhivom weba, koji od 2004. godine pokušava sačuvati što potpuniju sliku hrvatskog weba s posebnim naglaskom na domaće .hr domene. Cilj je da ništa bitno ne padne u zaborav, bilo da je riječ o društvenom trendu ili popularnom događaju koji je izazvao pozornost, bilo da nas zanimaju web stranice kojih više nema.

'Harvestiranje' weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?
‘Harvestiranje’ weba: Kako je Netokracija izgleda 26. srpnja 2011. godine?

Nacionalna i sveučilišna knjižnica predstavlja hrvatski web oslanjajući se na dva osnovna principa prikupljanja sadržaja. Selektivno arhiviranje provodi se otkako Hrvatski arhiv weba postoji, od 2004. godine, a taj dio posla mogao bi se opisati kao tekući, s reakcijom čim se pojavi potreba da se osvježi prikupljena građa. Drugi dio posla obuhvaćen je harvestiranjem, s kojim se započelo 2011. i obavlja se jedanput godišnje, nudeći rješenje za pogled u prošlost, s pretragom po točnom URL-u i po određenom datumu koji nas zanima, a ponuđen je u pretrazi.

Što je donijelo novo harvestiranje?

S poslom koji za NSK obavlja Srce, peto harvestiranje provedeno je u posljednjem tjednu prošle godine, a nedavno predstavljeni rezultati otkrili su da je prikupljeno više od 74 milijuna datoteka s ukupnom veličinom od 6.1 terabajta. U odnosu na prethodna četiri harvestiranja, prikupljeni sadržaj bio je veći od dosadašnjih, a kao i do sada, cilj obavljenog posla bilo je predstavljanje novog prikupljenog sadržaja na stranicama s vršnom .hr domenom, s mogućnošću njihova pregleda u određenoj točki vremena.

Kako se harvestiranje odvija? Korake na tom putu približila je Karolina Holub, viša knjižničarka u Centru za razvoj digitalne knjižnice i Hrvatskom zavodu za knjižničarstvo NSK-a, opisujući posao čiji su novi rezultati predstavljeni početkom 2016:

Radni proces bitno se razlikuje od selektivnog arhiviranja jer se na osnovu inicijalnog popisa dobivenog iz CARNeta započinje s godišnjim pobiranjem. Harvestiranje .hr domene za NSK provodi Srce jednom godišnje pomoću softvera otvorenog koda Heritrix koji arhiviranu građu sprema u datoteke u WARC formatu. Za pregledavanje pobranog sadržaja koristi se alat Wayback Machine pomoću kojeg se sadržajima pristupa jedino unosom njihovog izvornog URL-a.

Dok pretražujemo sadržaj prikupljen harvestiranjem, u prvom planu je bliska ili nešto dalja povijest hrvatskog weba koju želimo “iskopati” u arhivi:

Korisnik takvim pristupom ulazi u prostor harvestiranog weba, čime dobiva ‘širu sliku vremena’. Taj dio Hrvatskog arhiva weba manje je tradicionalnog oblika (ako se na webu uopće može govoriti o tradicionalnim formama) i izvor je korisnih informacija objavljenih na webu u određenom vremenu koje je važno sačuvati. Ako takvi sadržaji nisu dokumentirani i adekvatno sačuvani u arhivu weba, neće biti ni dostupni za buduća istraživanja. To je ujedno jedna od novih uloga Nacionalne i sveučilišne knjižnice u očuvanju digitalne baštine.

Harvestiranja usmjerena na temu

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Osim redovnih godišnjih, od 2011. se obavljaju i tematska harvestiranja, kojima se u prvi plan stavlja sadržaj po određenoj temi koji nije ograničen isključivo na .hr domenu, već su obuhvaćene i ostale. Za sada je u prvom planu politika, s tematskim harvestiranjem različitih izdanja izbora ili stranica povezanih s hrvatskim pristupom Europskoj uniji. No, političke teme nisu sve. Primjerice, dostupna je i pretraga hrvatskog weba povezana s poplavama koje su pretprošle godine izazvale veliku štetu:

Proces započinje pretraživanjem weba kojim se odabiru javno dostupni sadržaji, a koji se odnose na određenu temu. I ova pobiranja provode se softverom Heritix i prikazuju putem alata Wayback Machine.

Za razliku od pretrage stranica prikupljenih harvestiranjem, selektivno arhiviranje nudi nekoliko različitih mogućnosti za pretraživanje sadržaja, koje se ne zadržava isključivo na potrazi po URL-u stranice koja nas zanima. Prikupljanje novoga sadržaja obavlja se kontinuirano, a epilog je gotovo 6000 naslova koji se mogu dobiti pretragom.

Toliko često koliko je potrebno

Selektivno arhiviranje ne ograničava se na osvježavanje sadržaja jednom godišnje, poput harvestiranja. Kako je istaknula Holub, njegov je cilj ponuditi što širu sliku hrvatskog weba, a ne samo povijesnu komponentu:

Zbog velike količine građe na webu bilo je nužno postaviti kriterije odabira kako bi za dugoročnu pohranu bila odabrana kvalitetna i reprezentativna građa. Radni proces selektivnog arhiviranja temelji se na svakodnevnoj interakciji knjižničnog sustava i sustava za arhiviranje. Svako web sjedište opisano je u knjižničnom katalogu Nacionalne i sveučilišne knjižnice u Zagrebu i svakog dana u određeno vrijeme odvija se razmjena podataka sa sustavom za arhiviranje.

Frekventnost osvježavanja ovisi o potrebama:

U sustav za arhiviranje unose se potrebni parametri za pobiranje novih webova, uređuju parametri za one webove kod kojih je došlo do promjene i aktivira novo pobiranje, provjerava tijek arhiviranja za sve webove. Učestalost pobiranja (svakodnevno, jednom ili više puta tjedno, mjesečno, godišnje) određuje se prema procijenjenom značaju određenog web sjedišta za širu društvenu zajednicu, učestalosti promjena sadržaja te strukturi.

Obuhvaćene i druge domene

Osim u slučajevima kada nakladnik koji stoji iza sadržaja na webu zatraži da se rezultati pretrage mogu dobiti isključivo dok pretražujemo u NSK-u, svi sadržaji koje dobijemo pretragom javno su dostupni na bilo kojem mjestu, a pritom nam je pri ruci nekoliko opcija. Ono što nas zanima imamo priliku pronaći ubacivanjem ključnih riječi, bilo koje riječi iz URL-a ili iz naslova i po predmetnim područjima i abecedi. Rezultati koje dobivamo plod su rada iza kojega stoji NSK-ov partner u ovom poslu:

Srce je za NSK razvilo sustav DAMP koji služi za provedbu i pohranu rezultata selektivnoga arhiviranja i u cijelosti je razvijen u Srcu. Temelji se na razvojnoj i produkcijskoj okolini otvorenoga programskog koda: MySQL, Oracle Java, Apache Tomcat, Apache HTTP Server i PHP, a operacijski sustav koji se koristi na poslužiteljima Hrvatskog arhiva weba je Debian Linux.

Selektivnim arhiviranjem nije obuhvaćena samo vršna .hr domena. Dok pretražujemo, .hr će imati prednost u našim rezultatima, ali pobire se i arhivu vrijedni sadržaj s drugih domena, .com, .info, .net, .org i ostalih.

Postoji li najbolja pretraga?

Izvor: NSK, autor: AeroPixel
Izvor: NSK, autor: AeroPixel

Svaka sa svojim usmjerenjem, pretraga po harvestiranom sadržaju ili po stranicama dobivenima selektivnim arhiviranjem ima i prednosti i nedostatke. Put kojim ćemo krenuti dok tražimo ovisi o onome što nam treba, ali po iskustvu koje korisnici imaju, Karolina Holub će u prvi plan staviti jedan od dva glavna principa:

Svakako preporučujemo pretraživanje selektivnog dijela arhiva jer se s posebnom pažnjom podešavaju parametri za arhiviranje svakog pojedinačnog weba kako bi arhivirani primjerak bio u što većoj mjeri sličniji izvorniku. Građa koja se može pretraživati u tom dijelu mora zadovoljavati kvalitetom sadržaja, strukturom i formatom, ugledom i pouzdanošću nakladnika/vlasnika te jedinstvenošću koja se odnosi prvenstveno na sadržaje koji postoje isključivo na webu. Primjeri takve građe su news portali (npr. Index.hr), blogovi (npr. Poslovno.biz), web sjedišta ustanova, udruga, događaja, znanstvenih projekata i drugih.

Želimo li i sami zaplivati ovim vodama i upoznati se s pregledom prikupljenog sadržaja, početak puta je samo jedan klik daleko – s prilikom da potom krenemo dalje, prilagođavajući pretragu našim potrebama i željama.

Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.

Pravila ponašanja

Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:

  • Ne budite 💩: Nema vrijeđanja, diskriminiranja, ni psovanja (osim ako nije osobni izričaj, ali onda neka psovka bude općenita, a ne usmjerena prema nekome). Također, upoznajte se sa stavkom 2. članka 94. Zakona o elektroničkim medijima prije no što ostavite komentar.
  • Samo kvalitetna rasprava, manje trolanja: Ne morate se ni sa kim slagati, ali budite konstruktivni i doprinesite raspravi! Svako trolanje, flameanje, koliko god "plesalo" na granici, leti van.
  • Imenom i prezimenom, nismo Anonymous 👤: Autor sadržaja stoji iza svog sadržaja, stoga stojite i vi iza svog komentara. Koristimo ime i prezime te pravu email adresu.

Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.

Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Intervju

Upoznajte Maria Ćendu, voditelja tima zaduženog za ICT sustav Disneyjevog kruzera kojim plovi 5500 ljudi

Pod utjecajem primorskog podneblja, u bespućima interneta, Mario Ćendo pronašao je zanimanje koje spaja za njega idealno: IT i pomorstvo. Od tada, više od 10 godina plovi i rješava tehnološke zavrzlame kruzera koji mogu smjestiti i po par tisuća ljudi. Prije nego je isplovio na još jednu 10 tjedana dugu rutu, s nama je podijelio detalje ovog nesvakidašnjeg posla.

Intervju

“Tata” Angulara o tome što bi danas napravio drugačije i kako instantno ubrzati web aplikacije

Nakon više od 15 godina u Googleu, gdje je inicijalizirao, osmislio i podigao temelje Angulara, jednog od najpoznatijih JavaScript frameworka, a potom usmjerio Googleovu kulturu prema test driven developmentu, Miško Hevery se otisnuo u samostalne vode...

Startupi i poslovanje

Počelo je dvojno iskazivanje cijena! Što to znači za internetske trgovine?

Od danas sve internetske trgovine moraju iskazivati dvojne cijene. Iako na prvu zvuči kao nešto lagano za provesti, taj proces može uključivati product managera, dizajnera, backend i front-end programera. Kako se u tome snalaze mikro i mali poduzetnici koji su često "one man band"?

Što ste propustili

Novost

Agency04 postaje Notch!

Jedna od najbrže rastućih IT tvrtki u centralnoj Europi posljednjih godina bilježi rast prihoda od 500 posto, a preko 75 posto projekata radi za strane klijente.

Kolumna

Sretan međunarodni dan podcasta, svima koji slušaju!

Nedavno je, nakon 20 godina zatvora, na slobodu izašao čovjek koji je bio krivo optužen za ubojstvo. Velik dio zasluga za to ide jednom podcastu.

Intervju

Upoznajte Maria Ćendu, voditelja tima zaduženog za ICT sustav Disneyjevog kruzera kojim plovi 5500 ljudi

Pod utjecajem primorskog podneblja, u bespućima interneta, Mario Ćendo pronašao je zanimanje koje spaja za njega idealno: IT i pomorstvo. Od tada, više od 10 godina plovi i rješava tehnološke zavrzlame kruzera koji mogu smjestiti i po par tisuća ljudi. Prije nego je isplovio na još jednu 10 tjedana dugu rutu, s nama je podijelio detalje ovog nesvakidašnjeg posla.

Novost

Počela je crowdfunding kampanja za uvođenje robotike i umjetne inteligencije u škole diljem Hrvatske

Podrškom kampanje “Izgradi Školu budućnosti” svaka peta škola u Hrvatskoj dobit će program robotike, umjetne inteligencije ili Internet of Things.

Tehnologija

U Hrvatsku je stigla američko-ukrajinska grupa koja iza sebe ima niz proizvoda u glazbenoj, travel i adtech industriji

16 godina, 10+ proizvoda, 5 exita, 145 zaposlenika na tri kontinenta u 12 država. To je u kratkim crtama Postindustria grupa čija se podružnica Sigmoid Lab nedavno otvorila u Hrvatskoj.

Novost

Digital Labin okupio više od 600 digitalnih dizajnera i developera iz cijele Hrvatske

Treće izdanje Digital Labin konferencije dovelo je imena koja govore mnogo više o snazi i važnosti ove samo naizgled male konferencije.