Big Data: Veliki izazovi, velike prilike, a možda i veliki ‘buzzword’

Ako ičega ne nedostaje u našoj, IT, industriji, onda su to buzzwordi (svjestan sam ironije da je i buzzword, u biti, buzzword). Bili su to i Web 2.0, Cloud, Social Media – danas je to Big Data. Zadnjih desetak mjeseci, a intenzivno u zadnja tri mjeseca, pozornost mi privlači taj pojam, koji, pojednostavljeno govoreći, opisuje ogromne količine strukturiranih ili nestrukturiranih podataka s kojima je vrlo teško ili praktično nemoguće raditi korištenjem standardnih alata ili relacijskih baza podataka.

Ilustracija preuzeta s covaligroup.com.
Ilustracija preuzeta s covaligroup.com.

Ako ičega ne nedostaje u našoj, IT, industriji, onda su to buzzwordi (svjestan sam ironije da je i buzzword, u biti, buzzword). Bili su to i Web 2.0, Cloud, Social Media – danas je to Big Data. Zadnjih desetak mjeseci, a intenzivno u zadnja tri mjeseca, pozornost mi privlači taj pojam, koji, pojednostavljeno govoreći, opisuje ogromne količine strukturiranih ili nestrukturiranih podataka s kojima je vrlo teško ili praktično nemoguće raditi korištenjem standardnih alata ili relacijskih baza podataka. Sada su igri neki novi “klinci”, poput Hadoopa.

Istovremeno, dojam autora ovog teksta je da je Big Data u biti, barem do značajne mjere, do-it-yourself superračunarstvo i računarstvo visokih performansi (HPC).

Big Data karakteristike

Koliko veliko je, zapravo, veliko? Veličina, odnosno, volumen podataka samo je jedna od tri mjere i karakteristike. Ostale su raznolikost i brzina. Često se to naziva V3 – volume, velocity i variety.

Volumen podataka je vjerojatno prva asocijacija uz pojmove big i data. Godine 2000. u svijetu je bilo pohranjeno 800.000 petabajta podataka. Danas samo Twitter dnevno generira oko 7 terabajta, a Facebook oko 10 terabajta podataka. Ukratko, Big Data karakterizira drastičan volumen/količinu podataka – pričamo o zettabajtima podataka, milijardama terabajta.

Druga karakteristika je raznolikost. Današnji podaci često dolaze i u oblicima koji nisu uvijek “uredni” i strukturirani na način na koji smo navikli u našim ranijim SQL-olikim svjetovima. Realnost je da su danas podaci neuredni i često vrlo nestrukturirani. Pogledajte JSON jednog tvita, a onda JSON tog istog tvita ako korisnik u njemu dijeli fotografiju ili geolokaciju… Facebook statusi pričaju sličnu priču, a načelno se društvene mreže oslanjaju na grafove kao tip podataka. Različiti internetski preglednici komuniciraju na različite načine s poslužiteljima i generiraju različite tipove podataka. Nikada nismo bili dalje od jednog jedinstvenog formata za pohranu podataka – i to je dobro. Izazovi su danas prebačeni u jednu drugu dimenziju.

Konačno, treća je karakteristika brzina. Dok smo ranije podatke učestalo obrađivali tako da smo uzeli batch podataka i na njima vršili niz operacija, danas imamo golemu količinu podataka koja stiže u realnom vremenu. Doslovno možemo govoriti o streamingu podataka. Prošle smo godine za potrebe Sveučilišta u Denveru postavili Wall of Tweets i našu pozadinsku analitiku – tijekom trajanja debate između Obame i Romneya poslano je više od 10,3 milijuna tvitova vezanih uz debatu (i famoznu Big Bird iz Ulice Sezam). To je ogromna količina podatka za prosječno razumijevanje. Međutim, u globalnim razmjerima, radi se o malom volumenu, ali je njegova složenost u tome što je stigao u izuzetno kratkom vremenu i predstavljao nemali napor za naš tadašnji improvizirani sustav.

Najveći izazov

Big Data ima nesumnjivo veliki potencijal i stvara velike prilike – kako za postojeće igrače na tržištu, tako i za neke nove izazivače. Međutim, ključni izazov je jasan: Trebamo rješenja koja će nam omogućiti da iz velike količine podataka dobijemo vrijedne informacije. Stotine tisuća agronomskih i meteoroloških senzora, RFID komunikacija, milijuni transakcija na internetskim trgovinama – svi generiraju golemu količinu podataka. No, bez dobivanja jasnih uvida, nećemo doći do korisnih informacija. Sljedeća velika stvar nakon Big Data je poznata – Big Insight. I to je novo područje u kojem će se voditi najveće podatkovne bitke u nadolazećem razdoblju. Cijena pohrane podataka, računalne memorije, CPU-a i samog hardvera drastično opada. Uz pomoć Hadoopa danas je moguće imati pravi DIY supercomputing setup na sasvim običnom hardveru, ali i dalje smo suočeni s istim izazovom: Kako od podataka doći do informacija, i to na brz i pouzdan način?

Tko na to pitanje uspješno odgovori, možda u rukama drži ključeve iduće računalne revolucije. A možda ćemo imati samo još jedan buzzword. Vrijeme će pokazati.

Napomena: Vibor uskoro drži predavanje na temu “UX and big data: love at first (in)sight”. Poslušati ga možete u sklopu konferencije The Geek Gathering, koja se od petka, 11. listopada, održava u Osijeku.

ponuda

Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Internet marketing

Kako je #PitaZaDvije Mlinaru i agenciji ReRoot donijela internetsku slavu (i kupce)

Osječka agencija ReRoot bavi se gotovo svim digitalnim vještinama; uključujući i memove, a njima možete zahvaliti za krumpirušu od dvije kune u Mlinaru.

Kolumna

Zašto bi svakom marketingašu trebalo biti važno što sam 7 sati proveo na računalu – simulirajući sastavljanje računala

Dobrodošli u prvi serijal o simulacijskim igrama u Hrvatskoj (zapravo, igdje) u kojem ja, Ivan, govorim ozbiljne stvari o igrama za koje vi mislite da su glupe i nezanimljive.

Društvene mreže

Facebook i njegova “obitelj aplikacija” bit će s nama i idućih 15 godina

Facebook danas slavi 15. rođendan, a iako su mu posljednji dani, tjedni, mjeseci popunjeni skandalima povezanima s upravljanjem privatnim podatcima svojih korisnika, njegov rekordan prihod pokazuje kako ništa od toga nije bitno.

Što ste propustili

Novost

Nastavlja se rast jednog od rijetkih domaćih esport turnira; CSadria Clan Championship igra se za 30.000 kuna

CSAdria Clan Championship ulazi u svoju treću sezonu i donosi veći nagradni fond i priliku za gledanje ponajboljeg regionalnog Counter Strikea.

Intervju

Brendovi izvan gaminga ulažu milijune u esport. Gdje su prilike za regiju saznajemo od vodeće analitičke tvrtke.

Kako se brendovi snalaze u esportu i zašto i najveće svjetske tvrtke odlučuju investirati u igre? Odgovore znaju u Newzoo, najpoznatijoj tvrtki za analizu gaming i esport tržišta.

Intervju

Nakon 20. izdanja WordPressa meetupa: Kako unaprijediti jedan od najstarijih meetupa u Hrvatskoj?

WordPress Meetup jedan je od najdugovječnijih meetupa u Hrvatskoj koji već broji svoje 21. izdanje, a s novim vodstvom stižu i novi planovi za buduća.

Startupi i poslovanje

Blockchain from the Bloc(k) podcast: Stiže 2. epizoda o osnovama blockchain tehnologije!

Što je to blockchain tehnologija i koje mogućnosti otvara? Više saznajte od Ivana i Luke u drugoj epizodi Blockchain from the Bloc(k) podcasta.

Internet marketing

Zabrinjavajuće je (a možda i protuzakonito) što nam domaći ‘influenceri’ promoviraju upitne kredite

“Influencanje” je postao pravi biznis, a pravi znak za to je to što dio njih već mjesecima na Instagramu reklamira - kredite. I to od internetske banke s Malte. Zabrinjavajuće je to, a možda i ne baš u skladu sa zakonima, iz više razloga. Na um mi, na prvu, padaju tri.

Intervju

DOTA PIT stiže u Split: Splićanima bi najveći regionalni esport turnir trebao biti važan kao ULTRA

U Splitu se ovog travnja održava 300.000 dolara vrijedan esport turnir koji može postati jedan od važnih brendova Dalmacije i Hrvatske općenito.