Significance. la rivista dell’American Statistical Association, è uscita ad agosto con un’edizione speciale interamente dedicata a Big Data.
L’espressione Big Data, di quando in quando ha fatto capolino nei media: se ne è parlato a proposito della campagna elettorale americana in un articolo di Gianni Riotta su La Stampa, se ne è intravista l’ombra dietro la scoperta del bosone di Higgs
Ninety per cent of the data stored in the world today has been created in the past two years. This is the big data revolution.Per farvi un’idea della quantità di dati di cui stiamo parlando: ogni collisione di particelle creata nell’acceleratore di particelle del CERN di Ginevra produce circa 1 MB di dati. Nell’esperimento del bosone di Higgs, il Large Hadron Collider ha prodotto qualcosa come 600 milioni di collisioni al secondo che vuol dire qualcosa come 10 seguito da 14 zeri ( o se volete cento mila miliardi di bytes al secondo (per gli amici delle potenze del dieci, un petabyte), o se volete l’equivalente di 200.000 DVD da 5GB al secondo. L’esperimento di Ginevra è durato 3 anni.
Al CERN, un enorme insieme di dati ha cambiato la nostra comprensione dell’universo, ma molti altri dataset di dimensione simile, o anche più grandi, sono utilizzati per (i) replicare la dinamica di reti complesse (le reti dei sistemi nervosi, le reti metaboliche ma anche le reti di sinonimi); (ii) capire gli umori di un paese (attraverso l’analisi dei tweets); (iii) ridisegnare le città attraverso una migliore integrazione dei servizi (SMART cities). Solo per fare qualche esempio.
Nel campo della tecnologia e della scienza, Big data sta cambiando ogni cosa. Questo data tsunami non è creato soltanto da un eccezionale volume di dati. I dati tradizionali sono numeri. Questa enorme quantità di informazioni è, certo, digitale ma è generata da qualsiasi tipo di hardware e software: è testo, video, tweets, pagine di Facebook, non solo numeri, e richiede nuovi metodi di analisi, un modo nuovo di pensarli e utilizzarli.
L'idea, semplice, al cuore di Big data è che "data beats math", i dati hanno la meglio sulla matematica; in altre parole che algoritmi previsionali che girano su un campione di dati, non possono essere così accurati come le analisi fatte su tutti i dati.
La divertente discussione sulle mappe di Apple che impallidiscono in confronto a Google Maps, alimentata dagli utenti di iOS 6 che sono costretti a utilizzare il prodotto Apple, è un perfetto esempio del fatto che ciò che realmente conta sono i dati e non gli algoritmi, un esempio di "data beats math" in azione. Perché? Perché Google Maps ha il vantaggio, al momento insormontabile per la Apple, di utilizzare i dati storici dei percorsi scelti dai suoi utenti ed usa queste informazioni per dare le sue raccomandazioni.
Invece, il dataset di dati di cui Apple dispone è infinitamente più piccolo e quindi fornisce risposte meno accurate. Fino a quando Apple non accumulerà abbastanza dati storici per competere con Google, il suo prodotto sarà inferiore perché dovrà necessariamente tentare di indovinare il percorso migliore fidandosi dei suoi algoritmi. E tentare di indovinare non è proprio il massimo.
Big data è un cambiamento di paradigma, e naturalmente si porta dietro l’importante questione della privacy, che è sempre fonte di grandi tensioni: come garantirla e come ripensarla.
Batty M, 2012, "Smart cities, big data" Environment and Planning B: Planning and Design 39(2) 191 – 193
Cardanobile S, Pernice V, Deger M, Rotter S (2012) Inferring General Relations between Network Characteristics from Specific Network Ensembles.PLoS ONE 7(6): e37911. doi:10.1371/journal.pone.0037911
Hardy Q. Rethinking privacy in an Era of Big Data. Bits, New York Times.
Lampos V and Cristianini N: Nowcasting Events from the Social Web with Statistical Learning. ACM Transactions on Intelligent Systems and Technology (TIST) Vol. 3, No. 4, 2011
