Ir al contenido principal

Culturonomia, una revolución en la linguistica

Un artículo publicado en diciembre del 2010 en la revista de ciencia Science ha acabado por ser tema de conversación entre escritores, críticos, curiosos y especialistas.  En medio de su fiebre por clasificarlo todo, Google se propuso generar una herramienta que analiza la cantidad de veces que se utilizaron diferentes palabras o frases en la maraña de volúmenes publicados desde 1880. Así, ahora es posible seguir a vuelo de pájaro –y no sin salvedades, claro– el proceso de nacimiento, desarrollo, reproducción y muerte de las expresiones lingüísticas, un campo que los especialistas han empezado a llamar Culturomics (www.cultu romics.org). Se trata del Books Ngram Viewer, una base de datos con la que se puede comprobar con un solo clic la evolución que una palabra o un grupo de palabras han experimentado en los dos últimos siglos en los libros. Esto, que podría ser una simple cuestión de estadística, se convierte en manos de los que trabajan el lenguaje (en mayor medida, de los que estudian el lenguaje) en una mina de oro.

No es casual que el juguetito haya surgido de la cabeza de dos estudiantes de Harvard (Erez Lieberman Aiden y Jean-Baptiste Michel) interesados en el lenguaje: tuvieron que hacer un estudio sobre los verbos irregulares ingleses, y tardaron 18 meses… Para evitarlo en el futuro, se inventaron esta base de datos. Luego llamaron a las puertas de Google… El resultado es este Books Ngram Viewer y un fenómeno que ya tiene nombre: culturonomia (culturomics). Pones “Tiananmen Square” a partir de 1800 y descubrís (lógicamente) esto. Pones “blog” y el resultado es este.

Pero ojo, que una base de datos no es la realidad: hay que tener muy en cuenta que hablamos de datos extraídos de 5,2 millones de libros digitalizados por Google (lo que equivale a 500 mil millones de palabras en inglés, francés, español, alemán, chino y ruso) entre 1500 y 2008. Hay, por supuesto, una criba, la que supone partir de los libros escaneados en la inmensa base de datos de Google, que por muy inmensa que sea, nunca será total. La herramienta, en nuestra opinión, es sin duda útil, pero hay que interpretarla con ojo crítico. Sirva de fácil ejemplo el gráfico de las apariciones de Umberto Eco en español a partir del 1900 (en la imagen de arriba a la derecha). Serviría de respuesta a una pregunta del Trivial, ¿no te parece? ¿En qué año se editó El nombre de la rosa? Ojo, dijimos "en español"...

"Nuestro conocimiento de las lenguas en este momento es equivalente al que tenia Galileo en el siglo XVI sobre el universo: él inventó el telescopio para poder hacer mejores observaciones. La tecnología mejoró la investigación en Física. Hasta que no ha habido una tecnología que ha permitido disponer de los datos sobre el lenguaje de manera manejable para los investigadores, es decir, hasta que no ha aparecido la tecnologia digital, nuestro conocimiento se ha basado en lo que podían captar nuestros sentidos, lo cual es muy limitado. La tecnología digital permite disponer de grandes bancos de datos textuales sobre los que podemos aplicar programas que nos permiten analizar como son las lenguas, cual es su estructura, etcétera. Y lo que es más, la tecnología de la imagen (resonancia magnética y tomografías de emisión de positrones) nos permite ver el cerebro en acción y observar su funcionamiento cuando realiza funciones cognitivas relacionadas con el lenguaje. Por primera vez se va a poder estudiar el lenguaje de manera integrada con la Neurociencia. La digitalización de la información ha sido realmente una revolución en las ciencias del lenguaje". Opina María Antonia Martí, linguista española, y continúa: "Desde el momento en que se empieza a disponer de textos en soporte digital se ve la posibilidad de aplicar programas que realizan análisis cuantitativos de los textos. Esto tiene lugar en Estados Unidos en los años 50. El análisis cuantitativo permite averiguar de manera muy rápida las palabras más frecuentes, qué combinaciones de palabras son las que predominan, etcétera. Con estos datos, aunque son limitados, se puede afrontar el análisis cualitativo (del contenido) con mayor objetividad. Que conste que me centro en los 'métodos'; otra cosa distinta serían los 'modelos' matemáticos del lenguaje, pero esto es harina de otro costal.
Estos métodos tienen la ventaja de ser fácilmente implementables, son independientes de la lengua y ponen a disposición del investigador los datos lingüísticos preprocesados, de manera que se facilita la investigación posterior. Además, como se ve en el artículo de Culturomics, el interés de la aplicación de estos métodos no és sólo lingüística, tiene un interés social, cultural... amplio y se pueden beneficiar de ello investigadores de diversas líneas de investigación. Actualmente se están desarrollando métodos estadísticos muy sofisticados para extraer información de grandes corpus. Por ejemplo se puede saber qué palabras están relacionadas. Ésta es una web muy simple de un programa que hemos desarrollado en nuestro grupo de investigación: en la casilla de arriba pones una palabra del español, la que sea, y verás como aparecen las palabras relacionadas sobre un fondo de color más o menos fuerte según el grado de conexión".

Comentarios