Un artículo publicado en diciembre del 2010 en la revista de ciencia Science ha acabado por ser tema de conversación entre escritores, críticos, curiosos y especialistas. En medio de su fiebre por clasificarlo todo, Google se propuso generar una herramienta que analiza la cantidad de veces que se utilizaron diferentes palabras o frases en la maraña de volúmenes publicados desde 1880. Así, ahora es posible seguir a vuelo de pájaro –y no sin salvedades, claro– el proceso de nacimiento, desarrollo, reproducción y muerte de las expresiones lingüísticas, un campo que los especialistas han empezado a llamar Culturomics (www.cultu romics.org). Se trata del Books Ngram Viewer, una base de datos con la que se puede comprobar con un solo clic la evolución que una palabra o un grupo de palabras han experimentado en los dos últimos siglos en los libros. Esto, que podría ser una simple cuestión de estadística, se convierte en manos de los que trabajan el lenguaje (en mayor medida, de los que estudian el lenguaje) en una mina de oro.
No es casual que el juguetito haya surgido de la cabeza de dos estudiantes de Harvard (Erez Lieberman Aiden y Jean-Baptiste Michel) interesados en el lenguaje: tuvieron que hacer un estudio sobre los verbos irregulares ingleses, y tardaron 18 meses… Para evitarlo en el futuro, se inventaron esta base de datos. Luego llamaron a las puertas de Google… El resultado es este Books Ngram Viewer y un fenómeno que ya tiene nombre: culturonomia (culturomics). Pones “Tiananmen Square” a partir de 1800 y descubrís (lógicamente) esto. Pones “blog” y el resultado es este.
Pero ojo, que una base de datos no es la realidad: hay que tener muy en cuenta que hablamos de datos extraídos de 5,2 millones de libros digitalizados por Google (lo que equivale a 500 mil millones de palabras en inglés, francés, español, alemán, chino y ruso) entre 1500 y 2008. Hay, por supuesto, una criba, la que supone partir de los libros escaneados en la inmensa base de datos de Google, que por muy inmensa que sea, nunca será total. La herramienta, en nuestra opinión, es sin duda útil, pero hay que interpretarla con ojo crítico. Sirva de fácil ejemplo el gráfico de las apariciones de Umberto Eco en español a partir del 1900 (en la imagen de arriba a la derecha). Serviría de respuesta a una pregunta del Trivial, ¿no te parece? ¿En qué año se editó El nombre de la rosa? Ojo, dijimos "en español"...
No es casual que el juguetito haya surgido de la cabeza de dos estudiantes de Harvard (Erez Lieberman Aiden y Jean-Baptiste Michel) interesados en el lenguaje: tuvieron que hacer un estudio sobre los verbos irregulares ingleses, y tardaron 18 meses… Para evitarlo en el futuro, se inventaron esta base de datos. Luego llamaron a las puertas de Google… El resultado es este Books Ngram Viewer y un fenómeno que ya tiene nombre: culturonomia (culturomics). Pones “Tiananmen Square” a partir de 1800 y descubrís (lógicamente) esto. Pones “blog” y el resultado es este.
Pero ojo, que una base de datos no es la realidad: hay que tener muy en cuenta que hablamos de datos extraídos de 5,2 millones de libros digitalizados por Google (lo que equivale a 500 mil millones de palabras en inglés, francés, español, alemán, chino y ruso) entre 1500 y 2008. Hay, por supuesto, una criba, la que supone partir de los libros escaneados en la inmensa base de datos de Google, que por muy inmensa que sea, nunca será total. La herramienta, en nuestra opinión, es sin duda útil, pero hay que interpretarla con ojo crítico. Sirva de fácil ejemplo el gráfico de las apariciones de Umberto Eco en español a partir del 1900 (en la imagen de arriba a la derecha). Serviría de respuesta a una pregunta del Trivial, ¿no te parece? ¿En qué año se editó El nombre de la rosa? Ojo, dijimos "en español"...
Estos métodos tienen la ventaja de ser fácilmente implementables, son independientes de la lengua y ponen a disposición del investigador los datos lingüísticos preprocesados, de manera que se facilita la investigación posterior. Además, como se ve en el artículo de Culturomics, el interés de la aplicación de estos métodos no és sólo lingüística, tiene un interés social, cultural... amplio y se pueden beneficiar de ello investigadores de diversas líneas de investigación. Actualmente se están desarrollando métodos estadísticos muy sofisticados para extraer información de grandes corpus. Por ejemplo se puede saber qué palabras están relacionadas. Ésta es una web muy simple de un programa que hemos desarrollado en nuestro grupo de investigación: en la casilla de arriba pones una palabra del español, la que sea, y verás como aparecen las palabras relacionadas sobre un fondo de color más o menos fuerte según el grado de conexión".
Comentarios
Publicar un comentario
Esperamos tu comentario