
ReversingLabs: Kad radite s petabajtima podataka, tehnički izazovi su jedinstveni i često pomiču sve granice
Vodeće društvene mreže, antivirusne kompanije, korporacije i vladine agencije širom svijeta od malicioznog softvera štite se koristeći tehnologije razvijene u Zagrebu. S kakvim se sve izazovima susreću jer su stvorili najveću svjetsku bazu malwarea ispričali su nam voditelji tehničkih timova ReversingLabsa.
Više od 15 petabajta podataka. 33 milijarde datoteka u bazi. Milijarde metapodataka, milijuni dokumenata u obradi svaki dan.
To je otprilike količina podataka kojom barata TikTok, ali i jedna domaća IT tvrtka – ReversingLabs. Ta zagrebačka tvrtka izgradila je najveću svjetsku bazu podataka o malwareu koju koristi više od 65 najnaprednijih svjetskih dobavljača sigurnosnih proizvoda i deseci tisuća njihovih stručnjaka za sigurnost. Tvrtka koju su 2009. osnovali Mario Vuksan i Tomislav Peričin ima razvojni ured i ekspertizu u Zagrebu, a kupci su im vodeće društvene mreže, antivirusne kompanije, korporacije i vladine agencije širom svijeta.
Big big data: tehnički izazovi izvan svih proporcija
Kad radite s petabajtima podataka, kažu u ReversingLabsu, svako malo ćete se morati uhvatiti u koštac s tehničkim izazovima izvan svakih proporcija. Jer, za količinu podataka kojom barataju oni kažu da to nije big data, nego big big data.
Igor Lasić, viši potpredsjednik za tehnologiju u ReversingLabsu, kaže da su njihovi tehnološki izazovi uvijek – zanimljivi:
Tu vam guglanje neće mnogo pomoći, nego ćete inženjerskom problemu pristupati na drugačiji način. Često se dogodi da dođemo do krajnjih granica alata koje koristimo, kako onih open source, tako i komercijalnih. Tada radimo zajedno s proizvođačima tih alata na njihovom daljnjem razvoju.
Nije rijetkost da rješenja do kojih dođemo budu i prva takve vrste, jer su i problemi s kojima se susrećemo potpuno novi, odnosno nitko ih ranije nije rješavao.

“Probijamo granice alata koje koristimo pa radimo s njihovim inženjerima na unaprijeđenju”
Kao primjer navodi bazu podataka Scyllu, čije inženjere su svojedobno namučili kako bi uspjeli podržati potrebe ReversingLabsa. Iscrpili su i sve mogućnosti open source alata za queuing i riješili problem na drugi način. Dosegnuli su i limite najpopularnije baze za pretragu teksta. Negdje u počecima, čak su i sami napisali bazu kakva im je trebala – na tržištu u to vrijeme nije bilo takvih, pojavile su se mnogo kasnije.
Lasić se prisjeća kako se količina podataka kojom barataju počela strelovito povećavati negdje 2015. i 2016:
Na analizu je počelo stizati i po nekoliko milijuna datoteka na dan te je njihov broj iz dana u dan sve brže rastao. Velik dio prikupljamo crawlanjem po internetu, javnim repozitorijima i slično. Sve novo i potencijalno opasno što se toga dana pojavilo u svijetu, doći će pod naše povećalo vrlo brzo nakon što se pojavi.
Uz to, dobivamo maliciozne datoteke od drugih kompanija, uglavnom velikih antivirusnih tvrtki putem kojih nam stiže zloćudni materijal s računala krajnjih korisnika širom svijeta. Treće, ReversingLabs postavlja mamce – honeypotove za hakere, i analizira načine na koji ih napadaju.
Izvorna tehnologija za vrh međunarodne kibernetičke branše
U novije vrijeme su ušli i u područje prikupljanja podataka o mrežnim prijetnjama i, samostalno i s partnerima, analiziraju i indeksiraju maliciozne web stranice, IP adrese i drugo.

Sve tako prikupljene datoteke i paketi će na TitaniumCloudu, temeljnoj platformi ReversingLabsa, proći četiri vrste analize, pojašnjava Ivan Penava, voditelj grupe timova koji rade na platformi:
Prvo radimo statičku analizu, i to koristeći izvornu tehnologiju ReversingLabsa. Razvijena je kod nas već u počecima, i upravo se zahvaljujući njoj ReversingLabs već u ranoj fazi probio u vrh međunarodne kibernetičke branše.
Naš sustav za statičku analizu inicijalno su osmislili Tomislav Peričin i Mario Vuksan u Zagrebu, s manjom grupom inženjera. Statička analiza je proces u kojem se fajlovi rastavljaju, provjerava im se format te se među ostalim primjenjuju moduli umjetne inteligencije kako bi se utvrdilo jesu li maliciozni.
Slijedi dinamička analiza, proces u kojem se datoteke izvršavaju te se bilježe ishodi izvršenja. Zadnje dvije faze obrade su antivirusni sken kroz 40-ak alata, te YARA procesiranje. Slijedi i provjera dodatnih parametara kao što je izvor te se nakon svega toga donosi konačna odluka o tome je li maliciozan ili ne.

“Pojedini API-ji imaju i više od 200 milijuna poziva dnevno”
Sustav se dijeli na dva dijela, Delivery i Analytic, objašnjava Damjan Čuljak, koji vodi timove koji na njima rade:
Delivery sustav ima više od 50 različitih API-ja koji omogućavaju jednostavnu integraciju s produktima koje nudimo klijentima i sa samim produktima klijenata. Pojedini API-ji imaju i više od 200 milijuna poziva dnevno.
Jer ne radi se samo o prikupljanju i analizi podataka. Tu je i skladištenje podataka i analitika nad njima. Podatke treba orkestrirati, dovesti u međusobnu vezu, i na kraju ih smisleno koristiti, odnosno omogućiti da se na osnovu njih donose poslovne odluke. Zbog toga smo mi u ReversingLabsu nad svojim podacima izgradili ogroman analitički sistem koji radi u realnom vremenu.
Dodaje kako u ReversingLabsu rade sa svim vrstama baza – relacijskim, NoSQL i graf bazama te da je njihova vjerojatno među najvećim bazama podataka u Jugoistočnoj Europi:
Na Clickhouse bazi radimo cijelo skladištenje podataka i data marts koji su potrebni za različite reporte. Graf baza NebulaDB prikazuje sve veze između milijarde metapodataka. Dodatno, dio podataka je dostupan putem naših produkata. Koristimo Solr i Elasticsearch kako bi korisnici mogli pretraživati podatke, slično kako radi Google.
Ono što zanima naše korisnike je, primjerice, koje malware kampanje su trenutno aktualne i koje nove prijetnje su se pojavile u industriji – tjedno se pronađe više desetaka novih prijetnji.

Kod sustava koji obrađuje i sprema tolike količine podataka, arhitektura je poseban izazov. Najteže je osmisliti ju već u početku tako da može podnijeti sve više podataka iz godine u godinu, odnosno da ju je jednostavno skalirati, ali i da je stabilna. Zato su dva glavna načela arhitekture u ReversingLabsu, dodaje Penava, redundancija i paralelizam:
Redundancija se postiže distribuiranjem sustava na mikroservise koji nisu ovisni jedan o drugome. Trenutačno ih imamo oko 500. Pojedinačnih instanci servisa može biti više tisuća. Kroz paralelno procesiranje naš sustav dobiva brzinu i stabilnost.
170 inženjera u Zagrebu radi na istraživanju kibernetičkih prijetnji i zaštiti od njih
ReversingLabs je u dvije investicijske runde dosad prikupio 81 milijun dolara i često se spominje kao vrlo izgledan kandidat za sljedećeg domaćeg jednoroga. Uz 90-ak zaposlenika u Cambridgeu kraj Bostona koji se uglavnom bave marketingom i prodajom, tvrtku čini i oko 170 ljudi zaposlenih u Zagrebu.

Kompletna inženjerska organizacija ReversingLabsa je smještena u Zagrebu i počiva na dva stupa – Research i Engineering. U vertikalu koja se bavi istraživanjima oko 45 stručnjaka podijeljenih u šest timova svakodnevno radi na istraživanju kibernetičkih prijetnji, oslanjajući se na reverzno inženjerstvo i binarnu analizu. U tom dijelu organizacije rade i timovi koji primjenjuje umjetnu inteligenciju na proces identifikacije zloćudnog softvera.
Engineering vertikalu čini oko stotinu stručnjaka zaduženih za backend, analizu datoteka, analitičku platformu i drugo.
ReversingLabsu se od početka godine do studenoga u istraživanju, razvoju i inženjeringu pridružilo više od 40 novih ljudi, a za sve željne novih inženjerskih izazova imaju pregršt otvorenih pozicija.
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na Netokraciji dopušteno je samo korisnicima koji ostave svoje ime i prezime te mail adresu i prihvate pravila ponašanja.
Pravila ponašanja
Na Netokraciji za vas stvaramo kvalitetan, autorski potpisan sadržaj i zaista se veselimo vašim kvalitetnim, kontruktivnim komentarima. Poštujmo stoga jedni druge prilikom komentiranja, kao i Zakon, držeći se sljedećih pravila ponašanja:
Kako koristimo podatke koje ostavljate? Bacite oko na našu izjavu o privatnosti.
Sve ostale komentare ćemo s guštom spaliti, jer ne zaslužuju svoje mjesto na internetu.