![]() Summa Technologiae: Didžiųjų duomenų mitas Žmonija mėgsta išprotėti, kad tik būtų tam pretekstas.
O mada visad jį suranda, Susipažinkite su didelių duomenų terminais Prieš kurį laiką buvo 3D spausdintuvų bumas (ačiū žiniasklaidai!), taip garsiai skambėjęs, kad Ostapas Benderis galėjo panaudoti savo instrukcijai, kaip kurti ... proginius eilėraščius, odes ir pagirikas. Visi džiaugsmingai darė savo darbą: gamintojai gaudavo pradinį kapitalą ir į parodas atveždavo tai, ką pavyko pagaminti, vartotojas entuziastingai vartojo pakylėtus straipsnius, žurnalistai aptarnavo ir vienus, ir kitus, tačiau pirmiausia savo leidinius, keldami jų skaitomumą ir pelningumą. Tik mažai kas parašė apie tai, kas akivaizdu: brangi technologija, konkurentabili tik vienetinėms detalėms iš tam tikros klasės medžiagų (beveik išimtinai iš plastiko). Kai kurie rašė visai įdomiai, pvz., metodas puikiai tinka modeliams, neskirtiems didesnėms mechaninėm apkrovom ir nereikalaujantiems didelio atsparumo susidėvėjimui tarkim, juvelyriniams dirbiniams. Praeityje jau buvo panašių bumų: dėl ypatingai plastiškų medžiagų, miltelinės metalurgijos (kai dirbiniai presuojami iš miltelių) ir pan. Matyt, taip yra dėl psichologijos: žmogui norisi kažko neįprasto, universalaus, ypatingo... t.y. stebuklingo. Tai atspindima ir anekdotuose: Problema turi du sprendimo būdus: a) fantastinį patys padarysim; b) realistinį atskris ateiviai ir padarys. Kai mums sako, kad kažko yra daugiau, greičiau ar mažesnių, mus domina, kaip tai atsilieps kasdieniniame gyvenime. Ir jei norime ne tik aikčioti, bet ir suprasti, tada yra prasmė paklausti o kokiems velniams, po perkūnais, mums reikalingi visi tie petabaitai?! Publikacijose apie big data paprastai pradedama nuo apibrėžimų, nurodant tam tikrus požymius: Pirmi 4-i požymiai akivaizdūs ir tokie uždaviniai buvo ir anksčiau. Naujumas tik akcentuojamame didesniame nei įprasta duomenų kiekyje ir poreikyje turėti naujas programines priemones. Tikrovėje yra taip, kad reikalingi nauji metodai ir programinė įranga jau yra rinkoje. Sudėtingesnis duomenų struktūrizacijos klausimas,... bet ir čia jau yra progresas. Tai iš kur tokia ekstazė? Tikriausiai dėl to, kad reikia trumpo, skambaus, lengvai įsiminančio (ir miglotos prasmės) žodžio. O dar svarbiau užkabinantis vaizdinys! Big data tai kažkas didelio: nesvarbu kas, bet kas didelis, tas jau krūta... Milžiniškos duomenų apimtys turėtos ir anksčiau (pvz., radijo teleskopų ir greitintuvų) net tokio dydžio, kad apie jų saugojimą ir kalbos nebuvo: reikėjo realiu laiku atrinkti tai, kas svarbiausia. Bet tam reikia suprasti, kas vyksta. Tačiau dauguma big data ideologų bando menedžerius įtikinti priešingu dalyku atseit suprasti nieko nereikia, tiesiog sumetam visus duomenis į krūvą ir programa ne tik pati ras, bet dar ir pasakys, ką daryti. Nors... kartais rašantieji apie big data vis tik nedrąsiai puse lūpų užsimena, kad vis tik yra geriau, jei supranti, ką daro supergalinga programa. Tačiau jų tarp rašančiųjų mažuma. Bet kuriai idėjai reikia, kad ji žmoguje kažką užkabintų. Pažiūrėk kaip patrauklu pasidaryk pats!
Tiksliau, už mus tai padarys stebuklinga programa o žmogus tiesiog priims sprendimą. Priimti
sprendimą juk tai skamba taip svariai! Bet... prisimenate teismų medikus?! - O galėtum paskaičiuoti Žemės diametrą?
- Atsiprašau, bet negalėčiau, - atsakė Šveikas ir tęsė. Tačiau aš irgi noriu, ponai, pateikti jums uždavinėlį. Štai stovi 4-ių aukštų namas, kiekviename aukšte po 8 langus, ant stogo du stoglangiai ir du kaminai, o kiekviename aukšte po du gyventojus. O dabar, ponai, pasakykite, kuriais metais mirė šveicoriaus močiiutė? Teismo medikai daugiareikšmiškai susižvalgė. Neabejotina, kad turint daugiau duomenų ir darant gilesnę analizę (t.y. daugiau kartų prasukant per mėsmalę) padidėja tikimybė kažką pastebėti (kažkokį dėsningumą). Bet sociologijos pradžiamokslis mums sako, kad koreliacija nereiškia priklausomybės (žr. >>>>>). Ir nėra sprendimo, kaip atskirti vieną nuo kitos. Tiksliau jis yra tik tiksliuosiuose moksluose ir tai tik asimptotinis. Tačiau big data apologetai to nežino ir džiugiai rašo, kad įžengiam į epochą, kai svarbios tik koreliacijos, o priklausomybės nė nago juodymo nevertos. Tikrai fundamentalus teiginys! O argi neužburia tvirtinimas, kad dar prieš šimtmetį fizikai spėjo, kad ne atomai, o informacija bus visos esaties pagrindas? Arba tokia nuostabi frazė: Tikimybė, kad, gavę personalizuotą reklamą, žmonės imsis veiksmų (nusipirks kažką ar balsuos už kandidatą) išaugs 1400%. Taip rašančiam, matyt, ne viskas gerai su jo paties data. Ketvirtas apokalipsės raitelis baimė Matyt, kad big data turi dar vieną pusę. Pagrindinis aukštųjų technologijų užsakovas tas, kuris turi tam pinigų. Tai prekyba, nes į ją savo pinigus neša galutinis vartotojas. Jei analizuojant duomenis pastebima koreliacija, prekyba, greičiausiai, sugebės ja pasinaudoti. O jei kuris nors iš koreliuojančių parametrų yra valdomas, tai kyla pagunda paieškoti galimybės papildomam pelnui. Didinant duomenų apimtį ir siaurinant reklamą vis tikslingesnei auditorijai, galima išskaičiuoti konkretų pirkėją ir jam pasiūlyti tiksliai tai, ką jis pirktų su didžiausia tikimybe. Atrodo ypač patraukliai, tačiau ar toji tikimybė tikrai didesnė nei kontrolinėje grupėje? Prekybininkų tasai klausimas nedomina - sistema jau nupirkta ir įdiegta, o ir menedžeriams tai geras prasiblaškymas. Tačiau yra klientų grupė, kurie linkę rinktis patys. Tokį klientą reklama tik erzina jis net labiau linkęs nepirkti to, kas reklamuojama, nes puikiai supranta, kad už reklamą galų gale jis sumokės pats. Tokie klientai aplamai vengia firmų, daug išleidžiančių reklamai. Normalus žmogus įtariai žiūri į valstybę. Priežastys dvi: a) jis moka mokesčius ir pan., o taisyklės jų panaudojimui visad pernelyg bendros; b) jis pagal save puikiai žino, kokia didelė pagunda yra iššvaistyti tai, kas lengvai gauta ir tai projektuoja į valstybę (ir visai neapsirinka!). O čia netikėtai išneria, kad visokios ten gūglės viską apie mus žino! O mes tai jau puikiai suprantam, kad valstybei (nesvarbu kuriai) jos viską atiduos vien pamojus mažuoju piršteliu. O kai kurios jų netgi bėga garvežio priekyje ir įtikinėja valstybę, kad visi duomenys apie gyventojus yra (tos) valstybės nuosavybė. Skaityti apie big data kartais įdomu, kartais smalsu, o ir nelabai baisu. Ekonominė situacija tokia, kad mintis apie Lamborghini pirkimą atidėta iki stagnacijos pabaigos, o ką nors pakramsnoti rasim ir be reklamos. O jei iš Didžiojo brolio burnos pernelyg smarkiai dvokia, tai patarimai labai paprasti: a) nesinaudoti jokiais socialiniais tinklais (feisbukėm ir pan.); b) naudotis anonimaizeriais ir įjungti saugius naršyklės režimus (jokių sausainių - cookies ir pan.); c) neatsižymėti svetainėse (jokių registracijų ir pan.); d) po paieškų internete būtinai kartą per dieną prasukti valytuvus (jų yra nemokamų); e) nesinaudoti mobiliu telefonu (namie draugams yra laidinis; darbui tarnybinis; o į kairę nuklystant - visai nieko gero iš to nesulauksi). Net nepatikėsite, kiek tai laiko jums sutaupys bendravimui su šeimos nariais ir draugais!
Mokslininkai turimą informaciją panaudoja būsimiems įvykiams nuspėti. Meteorologai spėja orą,
onkologai kaip vystysis auglys, finansininkas akcijų rinkos elgesį. Dar įdomesnis žmonių elgsenos
spėjimai, kas bandoma padaryti jau nuo žmonijos atsiradimo. Šiandien iš to gyvena pardavėjai, politikai, teisininkai ir kiti. Tai didelis biznis!
Tik gaila, kad mokslas niekada negali to padaryti su dideliu tikslumu kad ir kokie big data būtų dideli. Paimkim kad ir paskutinius rinkimus (tiek JAV, tiek Lietuvoje Trumpą ir gandriukus) yra daugybė sudėtingų ir vis dar nesuvokiamų priežasčių, kodėl žmonės daro tai, ką jie daro. Ankstesnės "Advanced HTML" skyrelio temos: | |