The Grid: più risorse alla scienza

La relazione tra scienza e tecnologia è un inseguimento fatto di sorpassi reciproci e continui. Gli scienziati vogliono sempre fare esperimenti “impossibili”, e gli sviluppi tecnologici rendono presto l’impossibile possibile.

Non appena uno di questi esperimenti impossibili diventa possibile, si scoprono nuovi fenomeni che richiedono di allestire un nuovo esperimento “impossibile”. Nella fisica molto spesso risiede la sottile linea che separa scienza e tecnologia: sono stati due fisici, nel 1939, a progettare il primo calcolatore elettronico digitale, volendo spiegare la struttura dei cristalli attraverso una teoria che prevedeva calcoli impossibili da risolvere con i calcolatori meccanici esistenti all’epoca.

Cinquanta anni dopo, al CERN è stato sviluppato il primi web browser e web server, per facilitare la condivisione tra scienziati di esperienze e dati tramite una rete paritaria.

Analogamente, anche la tecnologia che permette la gestione e l’archiviazione dei dati è sempre al limite del possibile. Dieci anni fa, si sapeva già che gli esperimenti tenuti all’LHC avrebbero generato circa 15 petabyte (1 petabyte = 1 milione di gigabyte) di dati ogni anno. E 10 anni fa era totalmente fuori discussione poter gestire una tale quantità di dati.

La soluzione per questo problema è quello che viene chiamato “The Grid “: un insieme di migliaia di computer sparsi per tutto il globo, collegati tra di loro tramite reti ad alta velocità e muniti di software che permette loro di funzionare assieme come se fossero un unico sistema, dove gli scienziati possono archiviare, processare e analizzare i loro dati.

Il CERN si è dimostrato il perfetto punto di incontro tra scienza e tecnologia, dove i bisogni della scienza hanno trovato la collaborazione di grandi industrie del campo, quali Hewlett-Packard, Oracle e Intel , mentre EDS ha partecipato contribuendo occasionalmente.

Il calcolo a “griglia”(per l’appunto, Grid) o calcolo distribuito, non è stato inventato al CERN, ma ha le sue origini negli Stati Uniti e viene utilizzato per svariate applicazioni, sia accademiche che di comunicazione e industriali. Si tratta di un particolare tipo di calcolo parallelo che si appoggia a dei sistemi completi (ovvero muniti di CPU, spazio di archiviazione, alimentazione, interfaccia di rete e tutto il resto), connessi alla rete (che può essere una rete pubblica, privata o Internet) attraverso un’interfaccia convenzionale, come per esempio l’Ethernet.

Questa rappresenta una delle principali differenze rispetto ai supercomputer tradizionali, dove un elevato numero di processori sono collegati tra di loro attraverso un bus locale ad alta velocità. In pratica con il calcolo distribuito si ha a disposizione un super computer virtuale composto da una rete di computer che eseguono le operazioni in modo organizzato, per risolvere problemi di grandissima complessità.

Ciò che distingue in massima parte un cluster computazionale convenzionale da un sistema di tipo Grid è che nell’ultimo caso i computer sono più indipendenti l’uno dall’altro, creando una rete eterogenea anche da un punto di vista geografico. Inoltre, il software e le librerie su cui viene basato sono più generali, tali da poter essere utilizzate per gli scopi più disparati, non soltanto per l’applicazione specifica per cui la rete viene costruita.

Il vantaggio principale nell’utilizzare il calcolo distribuito è che ogni nodo può gestire l’acquisto delle proprie risorse in modo abbastanza indipendente, distribuendo il costo di un super computer su un elevato numero di utilizzatori, come diverse università o aziende. Il rovescio della medaglia è la necessità di tutti i nodi che si uniscono al progetto di avere a disposizione una connessione super veloce, che non sempre è disponibile.

Rispetto ai supercomputer, vi sono anche delle differenze nel metodo di programmazione e di avvio delle applicazioni. È spesso molto difficile programmare un’applicazione che possa girare in un ambiente di un supercomputer, che può avere un sistema operativo proprietario e necessitare di un particolare programma per gestire la concorrenza.

Al contrario, quando un problema offre un’adeguata possibilità di parallellizzazione, è possibile tramite un un piccolo servizio di gestione scrivere dei programmi “standalone” che possono girare contemporaneamente in diverse macchine, ciascuna risolvendo una parte diversa dello stesso problema. Questo permette, al lato pratico, che gli users del servizio Grid possano scrivere il loro programma di analisi (per rimanere nel campo scientifico) quasi come se lo facessero girare nel loro computer locale, oltre a risolvere inconvenienti tipici come avere diverse istanze dello stesso programma che scrivono contemporaneamente sullo stesso spazio di memoria condivisa.

Come si è capito da quello che ho scritto, la convinzione che Grid sostituirà Internet, o possa essere il futuro Internet è un luogo comune impreciso. Grid, come del resto il Worl Wide Web, non è altro che un’applicazione di Internet. Quando l’LHC verrà acceso (il prossimo Ottobre), i dati verranno trasferiti ad una velocita di 10 gigabits al secondo, dal CERN verso 11 grandi centri computazionali in giro per il modo.

Questi centri scambieranno al loro volta i dati con altri 200 centri più piccoli. Tutti questi trasferimenti verranno fatti esclusivamente attraverso Internet: attraverso fibre ottiche dedicate tra il CERN e i centri più grandi e tramite connessioni più standard (in alcuni casi il classico Internet pubblico) verso i centri più piccoli.

In ogni caso, anche se il pubblico non avrà presto accesso a questo tipo di calcolo, potrà molto presto beneficiare dei vantaggi che esso porta alla scienza e alla tecnologia, come avere diagnosi mediche più precise e rapide, previsioni meteorologiche più azzeccate e forse (ma su questo non mi pronuncio) investimenti più sicuri. In ambito scientifico l’utilizzo di Grid si sta diffondendo velocemente tra moltissime discipline, tanto da avere un progetto dedicato: EGEE.

Per chi fosse interessato ad avere maggiori informazioni (magari più tecniche) sull’utilizzo e il funzionamento di Grid, consiglio di visitare il sito GridCafé.

The Grid: più risorse alla scienza

Non tutte le “crisi” vengono per nuocere

Perché la televisione non parla più di tecnologia?

Sfoglia categorie

Programmazione

Not always “big is better”: the importance of choosing data types – An example with CPython

Non sempre “big is better”: l’importanza della scelta dei tipi di dati – Un esempio con CPython

No, i limiti dell’HAM non sono svaniti!

L’abuso di assembly nuoce gravemente alla salute (mentale)

Amiga in modalità HAM: gioia per gli occhi, ma per pochi giochi

Non erano pigri certi sviluppatori Amiga che spremevano la macchina

Con Unity 3D è un gioco – Parte 2

Con Unity 3D è un gioco!

Genesi di un videogame ai tempi dell’Amiga: Verkosoft al Salvataggio!

Genesi di un videogame ai tempi dell’Amiga: La lunga e tetra ora del tè dell’anima

The Grid: più risorse alla scienza

Sfoglia categorie

Programmazione

Tag Clouds

Press ESC to close