La fisica del linguaggio con Google Books

Quelli di voi più “hard core”, che mi seguono ormai da anni, si ricorderanno forse un post che ho scritto circa un anno e mezzo fa, sul genoma letterario via google books. Quella volta era appena uscito un articolo di un gruppo di Harvard che, per la prima volta, ha utilizzato un approccio altamente quantitativo e scientifico per studiare la linguistica. L’idea che hanno avuto è molto semplice: di solito per fare studi di linguistica si prendono dei campioni letterari che vengono considerati rappresentativi di un’epoca e li si legge e studia approfonditamente.

Ovviamente in questo processo si perdono un sacco di informazioni, poiché selezionare solo un piccolo campione è un’approssimazione molto poco giustificabile. Idealmente uno dovrebbe leggere tutti i libri mai stati scritti, per sapere veramente come si è evoluto il linguaggio. Umanamente questo è impossibile, ma “qualcuno” lo ha fatto: Google. Google books ha digitalizzato oltre 5 milioni di libri, fornendo quindi un campione molto più rappresentativo di quello che un gruppo di ricerca può leggere manualmente. Gli studiosi di Harvard hanno quindi dissezionato i 5 milioni di libri creando 2 miliardi di “n-grammi” , ovvero grafici che rappresentano l’uso delle parole nel tempo. Questi grafici sono così divertenti (oltre che utili) da fare, che Google ha deciso di rendere pubblico lo strumento a questo indirizzo. Questo studio, apparso su Science più di un anno fa, ha dato inizio a una vera e propria nuova disciplina, chiamata in inglese “culturomics”, ovvero lo studio del codice genetico della cultura umana.

Per quelli di voi che ne vogliono sapere di più, consiglio il seminario fatto nella serie “TED talks” dagli autori di quell’articolo.

Lo strumento che Google e Harvard hanno reso disponibile è estremamente potente e, soprattutto, è utilizzabile da chiunque. Ecco quindi che un gruppo di fisici non hanno saputo resistere dall’analizzare un così ricco set di dati e hanno prodotto un nuovo articolo, apparso questa volta sulla rivista Nature. A. Petersen, J. Tenenbaum e i loro collaboratori hanno preso un’insieme di ben 10^7 parole (dieci milioni di parole) in inglese, spagnolo ed ebraico e usate tra il 1800 e il 2008 e ne hanno studiato l’andamento dinamico. Lo studio è stato fatto in modo prettamente statistico, cercando dei pattern non solo nella diffusione delle parole ma nell’intera lingua. In particolare hanno analizzato la frequenza di nascita e morte di nuove parole. Sebbene, a conferma degli studi precedentemente fatti, risulti che l’inglese sia una lingua ancora molto viva, con una nascita di circa 8500 nuove parole all’anno, lo studio attuale suggerisce che questo numero è destinato a decrescere sempre di più. La ragione è fondamentalmente da ricercarsi nella standardizzazione del linguaggio. Una volta gli autori scrivevano la stessa parola in decine di modi diversi all’interno della propria opera, e molte di queste ortografie venivano poi assunte da altri. Oggi, invece, coi controlli ortografici automatici, tendiamo a standardizzare il modo in cui ogni parola va scritta. Anche l’uso dei sinonimi tende a diminuire: se una volta c’erano molti modi per dire la stessa parola (nell’articolo si fa l’esempio di “Roengenogram”, “radiogram” o semplicemente “X-ray”) oggi si tende a usare tutti la stessa, per facilitare la comunicazione. Nell’immagine qui sotto, per esempio, possiamo vedere come con lo sviluppo di case editrici commerciali e professionali, che applicano severe regole di correzione ortografica prima della pubblicazione, la frequenza di “morte” dei vocaboli sia aumentata moltissimo, mentre la frequenza di “nascita” sia in netto declino:

Per queste ragioni le nuove parole che nascono nel linguaggio moderno tendono ad essere collegate esplicitamente con nuovi concetti che non hanno ancora una rappresentazione verbale (come “tweet” o “google”, che in inglese sono diventati dei veri e propri verbi: “let me google this” o “did you try googling that?” ).

L’articolo in questione, non si limita solo a studiare l’andamento di vita o di morte delle parole, ma cerca anche vari tipi di correlazione. Per esempio, appaiono evidenti correlazioni con importanti eventi storici internazionali, come le guerre mondiali. In quei momenti diverse culture si sono trovate forzatamente a stretto contatto, con necessità di comunicare, e questo ha fatto si che fosse necessario coniare molte parole nuove (solitamente importate da altre lingue). Inoltre è bello sapere quando nasce e muore un parola, ma cosa succede quando essa è in vita? Una delle cose più interessanti che si nota dall’articolo di Nature è che l’uso di una nuova parola raggiunge il suo apice dopo circa 30 anni di “vita”, praticamente una generazione umana. Inoltre, un altro dato molto interessante è che gli andamenti linguistici sembrano essere estremamente simili per tutte le lingue prese in considerazione.

Insomma, sembra che siamo di fronte alla nascita di una nuova scienza, che di certo sarà molto utile per la comprensione del linguaggio, ma anche della storia e della società umana.

La fisica del linguaggio con Google Books

Ricerca Scientifica – tra finanziamenti e innovazione (2a puntata)

Commodore è tornata… solo per incassare

Sfoglia categorie

Programmazione

Genesi di un videogame ai tempi dell’Amiga: La lunga e tetra ora del tè dell’anima

Not always “big is better”: the importance of choosing data types – An example with CPython

Non sempre “big is better”: l’importanza della scelta dei tipi di dati – Un esempio con CPython

No, i limiti dell’HAM non sono svaniti!

L’abuso di assembly nuoce gravemente alla salute (mentale)

Amiga in modalità HAM: gioia per gli occhi, ma per pochi giochi

Non erano pigri certi sviluppatori Amiga che spremevano la macchina

Con Unity 3D è un gioco – Parte 2

Con Unity 3D è un gioco!

Genesi di un videogame ai tempi dell’Amiga: Verkosoft al Salvataggio!

Genesi di un videogame ai tempi dell’Amiga: La lunga e tetra ora del tè dell’anima

Not always “big is better”: the importance of choosing data types – An example with CPython

La fisica del linguaggio con Google Books

Sfoglia categorie

Programmazione

Tag Clouds

Press ESC to close