El big data és el futur, literalment.

“El negoci d’Über no són els viatges, ni el d’Airb’n’b l’allotjament sinó que és el big data. I el de Twitter, el de Facebook i el de Nike”. Ho heu sentit a la última conferència del darrer gurú de moda d’internet, just abans de: “Si avui en dia la teva empresa no basa el seu negoci en el big data no té futur perquè el big data és el futur”. Però sabem què és el big data? I què vol dir que el *big data *sigui el futur?

Per començar n’hauríem de dir pel seu nom i aclarir que encara que li posem un article singular, la paraula data és un plural en anglès i que la traducció de big data seria dades massives. A continuació hauríem d’aclarir si estem parlant de dades estructurades ––ordenades en files i columnes, similars a un full de càlcul— o bé de dades desestructurades ––un tuit o els papers de Panamà–– i què entenem per massiu. Ens posaríem d’acord de seguida en què els 11,5 milions de documents dels papers de Panamà —la filtració més gran de la història— són dades massives; imprimir-los implicaria desforestar un bosc de 80.000 arbres i per baixar-nos els 2,6 terabytes a casa necessitaríem més de 16 mesos. Però altres cassos no serien tan clars. En són els 1,7 Gb dels Wikileaks? I si potser no depèn només del volum de dades?

La definició més acceptada de dades massives és la que va proposar l’analista de dades Doug Laney l’any 2001: “Les dades massives són grans volums, gran velocitat i gran varietat d’actius d’informació que necessiten d’eficients i innovadores maneres de processament per a la seva comprensió i per a la presa de decisions”. El que es coneix com la definició de les tres v: volum, velocitat i varietat, a la que posteriorment s’hi va afegir veracitat i valor. Ens trobem doncs davant un concepte multidimensional on a banda del volum compta la velocitat a la que aquestes dades es generen, s’emmagatzemen i es processen, i la varietat en el formats d’adquisició: dades estructurades i no estructurades, que inclouen text, dades de sensors, clics, imatges, àudio, vídeo.

I d’on surten aquestes grans quantitat de dades? Doncs de vostè, de mi, dels altres 3.000 milions de persones connectades i dels 6,4 mil milions d’aparells connectats a la xarxa: de quan cerquem a Google, comprem a Amazon,
pengem una foto a Facebook, mirem un vídeo de gatets a YouTube, canviem de canal a Movistar+ o pitgem el botó de l’ascensor.

Agafem el cas dels famosos 140 caràcters d’un tuit. Resulta que només són 140 pels soferts humans però en són molts més per les màquines. A banda de la informació visible ––nom d’usuari, text del tuit, data, localització, aplicació des d’on s’ha emès–– amb cada tuit hi viatja: la biografia de l’autor, la data de creació del compte, l’idioma preferit de l’autor, el nombre de seguidors, seguits i favorits al moment de fer el tuit i informació geogràfica ampliada entre molta altra informació. Multipliqueu-ho pels 350 mil tuits que fem a cada minut i sumeu-hi les 2,4 milions de cerques a Google, els 2,8 milions de vídeos vistos a YouTube, les 70 mil hores de vídeo vistes a Netflix que fem en el mateix minut, esteneu-ho a la resta de serveis en-línia, sensors i aparells connectats i ja teniu el volum, la velocitat i la varietat de les dades massives en una escala que depassa la nostra capacitat de comprensió.

En un dia entre tots —humans i sensors— generem més de 2,5 trilions de bytes, l’equivalent a 10 milions de discos Blu-ray que posats l’un sobre l’altre fan quatre torres Eiffel. El 90% de les dades generades per la humanitat s’ha creat en els darrers dos anys.

I no cal que ens connectem a la xarxa per contribuir al volum de dades massives. Des que ens despertem fins que anem a dormir ––mentre dormim també— estem generant dades contínuament: l’hora de la dutxa i la durada, l’hora que s’engega la calefacció, el consum elèctric, el botó de l’ascensor, l’engegada del motor del cotxe, l’hora de sortida del pàrquing, les càmeres de trànsit, el pas pel peatge, les connexions del mòbil a les antenes. Tot.

El nostre estat natural és el de generar dades i les dades són el subproducte de la nostra existència.

Fins fa uns anys aquestes dades només servien per multiplicar-les per pessetes i facturar-ne el resultat, l’agregat es quedava com a molt en un diagrama de barres a la memòria anual de la companyia. Ara, a banda que la facturació és en euros, l’agregat de totes aquestes dades és una fotografia perfecta del nostre estil de vida amb un valor per a les organitzacions igual o superior al del propi servei proveït.

Els cada cop més presents monitors d’activitat —rellotges espavilats, polseres, sensors de ritme cardíac— ho fan encara més evident: cada passa, cada pis pujat i cada quilòmetre corregut queda enregistrat. Fins i tot canvis tan petits com el batec del nostre cor es converteixen en dades.

La qüestió fonamental rau en com organitzacions i individus utilitzarem aquest superpoder. La resposta és dins les dades massives.

Actualment les organitzacions utilitzen les dades massives en la gestió eficient de les ciutats —ciutats intel·ligents—, la prevenció d’epidèmies d’acord amb les cerques de símptomes a Google, la prevenció de crims i per operacions massives de vigilància. El doctor Baselga afirmava en la darrera trobada del Fòrum Econòmic Mundial a Davos que la cura del càncer passava necessàriament per la nostra capacitat de computació en la recollida i l’anàlisi de dades massives de milions d’historials clínic de tot el planeta.

I si els petits canvis són poderosos —com deia el Capità Enciam—, els grans volums de petits canvis són superpoderosos, i és precisament això el que són les dades massives: un gran volum de dades variables a una gran velocitat generades per petits canvis. El coneixement de les dades massives del present ens atorga el superpoder de conèixer el futur, i és només qüestió de temps que tinguem la capacitat de computació i anàlisi necessàries per extreure’n informació rellevant per predir-lo efectivament.

ganyet.cat

El big data és el futur, literalment.

Josep M. Ganyet

El big data és el futur, literalment.

Pokémon, la xarxa social

Josep M. Ganyet