Entrevista a Mark Davies

2 de junio de 2009

Tuve el placer de entrevistar a Mark Davies, creador del COCA (Corpus de Inglés Estadounidense Contemporáneo), a través de Skype. Durante nuestra conversación, él habló sobre el funcionamiento de su corpus electrónico y su corpus lingüístico, y sobre algunas diferencias entre los idiomas español e inglés. A continuación podrán ver un fragmento de lo que hablamos:

MD:        Cuéntame a qué te dedicas.

RJ:        Soy un traductor independiente de español-inglés de Santiago de Chile. Me especializo en textos legales, en especial certificados, y sentencias de divorcio de México y de América Central y del Sur. También traduzco documentos de marketing provenientes de España.

MD:        Me has dicho que utilizas el COCA. Como hablante nativo, ¿de qué manera te ayuda? En la mayoría de los casos, tú ya cuentas con la intuición.

RJ:        Es cierto. Mi lengua maternal es el inglés, pero el lenguaje que conozco tiene un alcance limitado. Al traducir, no sólo me gusta saber cómo decir una palabra o una frase, sino también cuál es la mejor manera de decirlas.
---------------------------------------
RJ:        ¿Qué es un corpus?


MD:        Un corpus es un conjunto de textos, casi siempre en formato electrónico, en el cual se pueden realizar búsquedas eficientes para obtener respuestas a preguntas relacionadas con la lengua. Un periódico en línea podría ser considerado un corpus. Sin embargo, los lingüistas pertenecientes a los corpus generalmente distinguen entre un corpus y un archivo de texto.

Un concepto básico para un corpus es que debe ser representativo para el idioma que éste intente modelar. Si deseas tener un corpus de español y todo lo que tienes son periódicos, pues no será un buen corpus. Tendrá muchísima información acerca del español usado en los periódicos, pero no te dirá nada acerca de otros géneros.

En el COCA, yo intento incluir una igual cantidad de textos de cuatro géneros diferentes, para brindar un ejemplo del alcance del idioma inglés. Este es un concepto importante en la lingüística de corpus.

RJ: ¿Cómo decides qué géneros escoger?

MD:        En la lingüística de corpus ha habido cuatro géneros principales durante los últimos veinte o treinta años. En un extremo está la conversación hablada. En el otro extremo se encuentran las publicaciones académicas. En el medio está la ficción, la cual puede ser hablada gracias al diálogo. Luego están las revistas y los periódicos. Éstos no son tan formales como las publicaciones académicas, pero son más formales que la ficción. Esos son los cuatro géneros a ser incluidos dentro de un corpus.

RJ:        ¿Cuentas con un equipo para recopilar los corpus?

MD:        No, hago el trabajo yo solo.

RJ:        ¿Cómo evitas sentirte abrumado por la enorme cantidad de información?

MD:        Pues, es un problema a la hora de recolectar los datos de manera eficiente. Una vez que has alcanzado la cantidad de un par de millones de palabras, si no cuentas con la arquitectura adecuada, las consultas comenzarán a hacerse más lentas. Si buscas palabras o frases exactas, no será tan malo. Piensa en Google: trillones de palabras, y sólo te toma un cuarto de segundo. No es difícil buscar palabras y frases exactas en un texto. Es más difícil buscar estructuras lingüísticas complejas (partes de discurso, sinónimos, etc.) entre cientos de millones de palabras. Allí es donde entra en juego la arquitectura adecuada. De otra manera, es imposible.

RJ:        ¿A qué te refieres exactamente con arquitectura?

MD:        La arquitectura se refiere a la manera en que almacenas los datos y a la manera en que las palabras y las oraciones son comentadas (partes de discurso, lematización). Con el COCA, puedes decir "Encuéntrame todas las posibles formas de todos los sinónimos de «clean», como verbo, seguido de un artículo definido o de un artículo más un sustantivo". Existen pocas arquitecturas que trabajen con grandes cantidades de datos.

RJ:        ¿Qué software utilizas?

MD:        Utilizo bases de datos relacionales. Uso Microsoft Sequel Server, pero yo tengo que escribir todos los algoritmos de búsqueda.

RJ:        ¿Qué has aprendido de tu corpus? ¿Qué has obtenido a partir de él?

MD:        ¡Uh! Muchísimo. Yo he sido formado como lingüista-historiador. He creado varios corpus para estudiar la manera en que los idiomas cambian. Acabo de obtener una importante beca del National Endowment for the Humanities (Fondo Nacional de las Humanidades) para crear un gran corpus de inglés estadounidense histórico. Ya lo he hecho para portugués y para español. Un estudio sobre cómo y por qué cambian los idiomas. Otra cosa importante es el género. Cuando decimos "En inglés es así", "En español es así"…, eso es simplista. Deberíamos decir "En inglés hablado es así", o "En el español de los periódicos es así". El lenguaje de diferentes géneros es completamente distinto. Los corpus nos pueden ayudar a descifrar eso. También uso los corpus para enseñar. Cuando enseñaba español, solía pedirles a mis estudiantes que observaran los corpus para que se dieran cuenta de que las cosas generalmente eran mucho más complicadas que lo que decían las simplistas reglas gramaticales.

Los corpus también nos ayudan con la semántica, averiguando qué significan las palabras a partir del contexto. Los corpus nos brindan información acerca de las colocaciones, o sea, de palabras que ocurren cerca de otras palabras.

RJ:        ¿Tú dirías que puede ser de utilidad para traducir?

MD:        Absolutamente. Por lo menos el 30% de los usuarios del COCA lo usan para hacer traducciones. Puedes encontrar gente en Bélgica, Chile o Hong Kong que hable bien el inglés, pero que no son angloparlantes nativos. Ellos realizan muchas consultas diarias acerca de los matices de los significados; qué es lo que se usa en cada género.

RJ:        Debo confesar que yo realmente disfruto del uso del COCA y de ver cómo las palabras encajan entre sí. A veces lo hago sólo por diversión.

MD:        Incluso entre no-lingüistas y no-traductores, gente simplemente interesada en el lenguaje, hay muchos usuarios que lo utilizan a ese nivel. En el COCA hay entre 7.000 y 8.000 usuarios únicos cada semana.

RJ:        A mí el COCA me resulta bastante fácil de usar y mucho mejor que Google, el cual suelo utilizar como una especie de corpus gigante.

MD:        Google tiene problemas básicos como corpus. No está clasificado en partes de discurso ni en lemas, por lo que resulta difícil realizar consultas de tipo gramatical. No puedes buscar sub-cadenas, sufijos y prefijos. No puedes buscar según morfología o formación de palabras. Los dos peores problemas de Google es que tú verás que cierta palabra o frase aparece una x cantidad de veces. Pero no te brinda ninguna información acerca de si es formal o informal. En otras palabras, Google no sabe de géneros. Un problema serio con Google es que, cuando tú ingresas una frase, más de una palabra, el número de coincidencias que Google encuentra (por ej., 79.000) es sólo una conjetura aproximada. Google no sabe demasiado acerca de frecuencias, simplemente adivina. Si intentas determinar cuál es más común entre A y B, no hay manera de saberlo. El número de coincidencias no significa nada en este caso. Con un corpus, puedes saberlo.

RJ:        Quería preguntarte acerca de la diferencia entre el español antiguo y el inglés antiguo. Tengo la impresión de que el español antiguo está más cerca del español moderno que el inglés antiguo del inglés moderno. ¿Cuál es tu impresión?

MD:        El inglés fue una lengua germánica, 99% germánica, hasta el año 1.000 DC. Luego se agregó la lengua romance por encima de la germánica. En español, en cambio, no sucedió eso. Es por eso que el inglés antiguo es tan difícil de comprender. Es un idioma diferente porque tenemos que trasladarnos hasta antes de la conquista de los normandos.

RJ:        ¿Dirías tú que el español, en ese sentido, es más continuo?

MD:        Sí, definitivamente. El inglés está formado por las lenguas A y B, germánica y romance, que se convirtieron en la lengua C. El español es sólo la lengua A que se convirtió en la lengua A. Claro que hubo cambios, pero no ocurrió esa gran mezcla entre dos lenguas totalmente diferentes que sí ocurrió en el inglés. Además, España e Inglaterra se encontraban en situaciones muy diferentes en los 1700s. Inglaterra estaba abierta a los avances científicos del resto de Europa, mientras que España se había aislado de todo eso. Es por eso que el inglés siempre ha sido más abierto que el español.

RJ:        Mencionaste que ibas a publicar un libro. ¿Podrías compartir eso con nuestros lectores?

MD:        En el 2005 hice un diccionario de frecuencias en español con Routledge. Estaba basado en el Corpus del Español; 5.000 lemas en español. Luego, en el 2007, lo hice en portugués; y el año pasado, cuando el COCA fue lanzado, me contacté con Routledge. Ellos me dijeron que querían hacer un diccionario de frecuencias de inglés. Éste consistirá en las 5.000 palabras principales en cuanto a la frecuencia. A diferencia de los otros diccionarios, éste te dará, para cada palabra, sus principales colocaciones (palabras que ocurren junto a la entrada). Esto nos ayudará a tener una visión del funcionamiento de la palabra. Probablemente el libro estará disponible en diciembre de este año.

RJ:        Al escucharte hablar sobre estos materiales, me dan ganas de encerrarme en mi habitación y devorarlos.

MD:        Termina siendo adictivo. A veces estoy leyendo el periódico, o un artículo de una revista, y veo una palabra y me digo: "Me pregunto qué sucede con esa frase. ¿Será más usada hoy de lo que era hace veinte años? ¿Cómo se compara con esta otra palabra? Me parece que es informal. ¿Es informal?" Intuyo cosas, como lo hacemos los hablantes nativos. Pero tener la posibilidad de recurrir a un corpus, ingresar una consulta y obtener la respuesta a todas esas preguntas en dos o tres segundos termina haciéndose adictivo.

Lo divertido del lenguaje es que, por un lado, es complejo. Por otro lado, estamos rodeados de él cada segundo de nuestras vidas. La física de las partículas es compleja, pero no estamos rodeados de ella todos los días. El lenguaje, en cambio, combina esos dos factores.

RJ:        No tengo más preguntas. ¿Hay algo que te gustaría agregar, Mark?

MD:        Sí. He creado un portal para corpus que tal vez te gustaría mencionar. Te permite decir "Yo uso el corpus para hacer traducciones. Soy de España, o Francia, o Chile". Y luego puedes encontrar a otras personas que utilizan el corpus con objetivos similares desde la misma parte del mundo, y te puedes poner en contacto con ellas.

RJ:        Muchas gracias por tu tiempo, Mark.

MD:        ¡No hay de qué! Buena suerte.
Acerca de Mark Davies:

Soy profesor de Lingüística de Corpus del Departamento de Lingüística e Idioma Inglés de la Brigham Young University de Provo, Utah.  Entre 1992 y 2003 fui profesor de Lingüística Española en la Illinois State University.


Mis principales áreas de investigación y actividad son:
--            Lingüística de corpus y computacional.
--            Diseño y optimización de bases de datos lingüísticas.
--            Integración de secuencias de comandos y bases de datos en internet.
--            Lingüística histórica y variación sintáctica.
--            Inglés, español y portugués.
Reed D. James
rjames@vtr.net

+562 8485729
rjames@vtr.net