mercoledì 23 dicembre 2009

It's the data, stupid!

It's the data, stupid!

E' vero che passando da "it's the press, stupid!" a "it's the internet stupid!" lo slogan elettorale di Bill Clinton - it's the economy, stupid - è stato declinato in tutte le maniere, ma a coniare questa nuova versione fu niente meno che Jim Gray, il ricercatore della Microsoft (premiato con il Turing Award, il Nobel per l'informatica, nel 1998) sparito in mare quasi tre anni fa - Amazon, Microsoft e Google coinvolsero il web nella sua ricerca rendendo attivo l'accesso ad immagini satellitari ad alta definizione nella speranza che qualcuno avvistasse la sua imbarcazione e Wikipedia l'ha incluso nell'elenco delle persone misteriosamente scomparse.

A Jim Gray è dedicato The fourth paradigm: data intensive scientific discovery, una raccolta di saggi (si può scaricare free sul sito della Microsoft Research) su quello che è considerato il (nuovo) quarto paradigma su cui si fonda la ricerca scientifica: l'analisi di enormi quantità di dati.

I paradigmi classici attraverso cui si sviluppa l'indagine scientifica sono quello teoretico e quello sperimentale. Più recentemente, grazie al lavoro di von Neumann, è emerso un terzo paradigma: quello della computating science l'uso di algoritmi per la simulazione al computer di fenomeni complessi.

Secondo Jim Gray, il quarto paradigma nasce dal fatto che oggi la nostra capacità di raccogliere dati è andata ben oltre le possibilità che abbiamo di analizzarli, e uno dei campi di ricerca più stimolanti riguarda proprio la definizione e lo sviluppo di nuovi metodi e tecnologie che permettano di leggere e dare un senso a questo diluvio di dati. In un certo senso il quarto paradigma integra e mette in relazione reciproca i primi tre paradigmi molto più di quanto avvenga nel tradizionale processo attraverso cui le previsioni teoriche vengono verificate sperimentalmente e, a loro volta, osservazioni sperimentali portano alla scoperta di fenomeni che richiedono una spiegazione teorica.

La visione di Jim Gray, però, e questo è importante, non è tanto legata all'aspetto tecnologico, nell'avere cioè a disposizione super-computer per l'analisi dei dati, quanto piuttosto "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other." Insomma, it's the data, stupid!

Nessun commento: