Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).[1] Los corpus pueden ser textuales, cuando compilan textos orales o escritos, o de referencia, cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile.[2]
Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus[3] tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.
Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.[4]
La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica.
Aplicación de los corpus
Los corpus lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian. Este tipo de corpus cada vez cuenta con más partidarios, y gracias al estudio de la lengua que estos corpus ofrecen, algunos postulados lingüísticos que contaban con un gran respaldo dentro de la comunidad lingüística, han sido puestos en duda.[5]
Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.
Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clásico Computational Analysis of Present-Day American English (Análisis computacional del inglés estadounidense de la actualidad), a partir del corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.
Criterios de clasificación
Grado de generalidad
El grado de generalidad de un corpus depende de la medida en que sus textos han sido seleccionados con respecto a las diversas variedades de una lengua. Los corpus especializados se orientan a una variedad lingüística particular (sublanguage) o a un dominio restringido (lenguaje periodístico, jurídico, médico, etc). Por este motivo tienen el grado mínimo de generalidad. Por otro lado, los textos de los corpus generales pertenecen a diferentes variedades lingüísticas y son seleccionados porque componen el cuadro descriptivo de la lengua en su totalidad. Se trata, por lo tanto, de corpus plurifuncionales que son a menudo usados como recursos de referencia a la hora de estudiar una lengua, por ejemplo como fuente de datos para la elaboración de un diccionario. Frecuentemente los corpus generales se componen o se pueden dividir en varios subcorpus, es decir subconjuntos de textos que pertenecen a una variedad particular.
Tamaño
El tamaño del corpus es determinado por el número de palabras que contiene el mismo corpus en el caso de los corpus de lengua escrita. En cambio, en los corpus de lengua hablada, se tiene en cuenta las horas de grabación. Podemos distinguir corpus cerrados y abiertos. El primero es la versión del corpus estándar tradicional, en el cual la cantidad de los textos y de las palabras viene ya prefijado en la fase inicial del proyecto. Los corpus cerrados son como una especie de fotografía de una lengua a través de los textos seleccionados, pero no son adaptados a seguir los cambios y la evolución que se da en una lengua como con su naturaleza intrínsecamente dinámica. Con el fin de superar este límite, John Sinclair propuso extender la noción tradicional de corpus a instrumento de observación lingüística. Los corpus cuya función es principalmente observar la lengua (monitor corpus) es un conjunto abierto de textos que cambia en el tiempo, ya que va introduciendo textos nuevos seleccionados conforme a los mismos criterios usados para elegir textos anteriores. Este tipo de corpus permite por ejemplo observar el carácter cambiante del léxico de la lengua en cuestión y por lo tanto puede ser usado en contextos lexicográficos como fuente de datos para los diccionarios actualizados.
Corpus representativo
Un corpus es representativo cuando tiene rasgos de todo el ámbito de la variabilidad y las propiedades de una lengua. Esto significa que un corpus debe proporcionar un modelo de las propiedades lingüísticas del lenguaje analizado de la manera más verosímil posible. De esta manera, debe ser posible aplicar los textos del corpus a una población entera.
Autenticidad
Es otra condición requerida para conseguir un corpus representativo. Los textos auténticos son aquellos que se han creado en condiciones de comunicación natural. Esto es especialmente cierto para el lenguaje hablado. Por ejemplo, los dramas, la poesía, los subtítulos de películas, etc., son considerados fuentes de corpus no muy auténticas y demasiado específicas. Debido a la influencia inevitable por parte de la lengua de la versión original, en los corpus generales no se recogen las traducciones (sí en los corpus paralelos). Hay más problemas relacionados con la autenticidad, como la prescripción. Las muestras recogidas, por norma general, no se corrigen, no se acortan ni se cambian. Incluso los errores típicos en los periódicos y las revistas de la lengua inglesa se consideran valiosos en cierta manera. Ellos permiten darse cuenta de las regularidades, cómo se infringen las reglas de ortografía u otras normas formales y comprobar la dirección de las tendencias del desarrollo lingüístico.[6]
Equilibrio
Desde el surgimiento de los corpus se ha procurado crearlos de modo equilibrado, compuestos por diversas fuentes y siguiendo criterios claros. Sólo más tarde aparecieron corpus que empleaban todos los textos recogidos (corpus oportunistas). El equilibrio se consigue al establecer las proporciones de diferentes fuentes según ciertos criterios. Los criterios posibles son los siguientes:
Elitismo (las fuentes más válidas)
Legibilidad (best sellers, periodismo)
Indicadores demográficos (mayor variedad de autores)
Accesibilidad
En cuanto a la representatividad, la pregunta esencial es ¿qué es lo que debe reflejar un corpus? No basta sólo con decir que éste debe reflejar el idioma o su variabilidad, porque esta respuesta no es informativa. Por tanto conviene disgregar la composición en cuatro esferas de uso: el habla, la escritura, la audición y la lectura, y, además, tomar en cuenta el número de usuarios de cada esfera. Los corpus oportunistas y representativos a menudo se relacionan como etapas distintas de composición de un único corpus: al principio se crea un corpus representativo y luego, de acuerdo con ciertas proporciones, se seleccionan corpus para un corpus equilibrado.
Tipos de corpus
La tipología de los corpus
Los corpus lingüísticos se pueden dividir dependiendo del tipo de información que recojan.[7] Tipológicamente los corpus pueden ser subdivididos según
el canal comunicativo (corpus escritos y orales);
su forma de presentación y almacenamiento (textuales y multimodales, los últimos consistiendo en grabaciones del sonido, imagen y sus correspondientes transcripciones);
el número de lenguas representadas (mono-/bi- y multilingües, corpus paralelos);
la anotación de la lengua (no anotados y anotados morfológicamente, fonéticamente y sintácticamente);
el alcance (corpus generales y especializados);
su carácter de enfoque temporal sobre la lengua (sincrónicos y diacrónicos);[8]
El grado de finalización (finitos (estáticos) y continuos (dinámicos)).
Cabe mencionar que los distintos tipos de corpus no son exclusivos, puede darse el caso de que un único corpus reúna las características de dos de los tipos de corpus mencionados más abajo. A continuación aparecen algunos tipos explicados:
Corpus general
Contiene una gran variedad de ejemplos orales y escritos de la lengua que han sido producidos por gente de diversas edades, regiones y clases sociales. Un conocido ejemplo de este tipo de corpus es el British National Corpus.
Corpus especializado
Aunque existe polémica sobre si es necesario saber de antemano quién y cómo va a utilizar el corpus, cada vez es más notable la tendencia de crear corpus de tipo general y finalidades diversas, y no corpus especializados. Los últimos son de tamaño reducido, representan un área específica de la lengua y se codifican (se anotan) acudiendo directamente a las necesidades de investigadores particulares. Los compiladores de los corpus siguen “la póliza del texto limpio”: la versión original del corpus no se codifica, no se contamina con marcado de ningún tipo para que las necesidades de unos investigadores no obstruyan el trabajo de otros. Por tanto los corpus especializados y anotados normalmente se presentan como versiones separadas de los corpus globales.
Corpus sincrónico y corpus diacrónico
El corpus sincrónico contiene ejemplos lingüísticos recogidos en un único momento, es decir, en un tiempo determinado. Un ejemplo podría ser el corpus lingüístico del español de principios del siglo XIX.
El corpus diacrónico recoge textos de diferentes épocas, como lo son por ejemplo los diferentes siglos. Se usa para ver como palabras desaparecen, están introducidas o cambian de significado.
Corpus finitos y continuos
Los corpus finitos enseñan el estado de la lengua en un momento dado. Son útiles cuando se comparan con otros corpus similares pero creados en otro momento en el tiempo o para otra lengua o dialecto. En los corpus continuos se puede aplicar filtros que recojan hechos lingüísticos nuevos. Normalmente están compuestos de textos enteros y no sus fragmentos y por eso no equilibrados. Sin embargo, la extensión de los mismos compensa el desequilibrio.
Corpus mono-/ bi- y multilingües
Corpus monolingües permiten investigaciones sobre una lengua, mientras que corpus bi- o multilingües recogen ejemplos de más de una. De los corpus multilingües se distinguen tres diferentes subtipos:
Corpus comparativos
Son corpus en los cuales los textos de las diferentes lenguas son comparables en tamaño y contenido, pero donde no todas las lenguas son apuntadas necesariamente con la misma precisión.
Corpus paralelos
Son corpus con los mismos textos en todas las lenguas anotadas.
Un corpus paralelo famoso es la Biblia en todos los idiomas en los que está traducida.
Corpus alineados
Son corpus paralelos en los que no todas las lenguas tienen los mismos textos, sino que donde está anotado qué fragmento del texto corresponde a qué fragmento del texto en el otro idioma. Estas anotaciones se encuentran o a nivel de párrafo o bien a nivel de frases.
Corpus orales
Además del corpus escrito, existen también los corpus que recogen muestras de la lengua oral (diálogos, entrevistas, conferencias, etc.). En la mayoría de los casos, los fragmentos hablados van acompañados de transcripciones ortográficas o fonéticas.
La transcripción ortográfica más conocida es la subtitulación de películas, mientras que la transcripción fonética usa el alfabeto fonético.
La calidad de los corpus que recogen muestras de la lengua oral dependerá de la situación en la que se produce la comunicación: ruidos de fondo, errores a la hora de habla, vacilaciones y otros fenómenos propios de la oralidad se reflejarán en la transcripción, así como el volumen y la entonación.
Los corpus orales se utilizan para analizar las peculiaridades del discurso oral (en ese caso, se suele trabajar con corpus transcritos) y para el estudio del componente fónico (con las grabaciones).
Corpus de aprendices
Son conjuntos de datos producidos por aprendices de lenguas extranjeras, como por ejemplo ensayos escritos[9] o grabaciones.[10]
Treebanks
(Del inglés: 'banco de árbol') Corpus con anotaciones sintácticas. Se usan para la investigación y la instalación de programas de descomposición.
↑Chantal Pérez Hernández. «El corpus en los estudios lingüísticos». Explotación de los corpus textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento. Consultado el 6 de abril de 2015.
↑Lozano. «Learner corpora as a research tool for the investigation of lexical competence in L2 Spanish». Journal of Spanish Language Teaching2 (2): 180-193. doi:10.1080/23247797.2015.1104035.