Sobre PaCheS

El Corpus Paralelo Chino<>Español, PaCheS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que compila corpus paralelos bilingües con el español como lengua central. Hasta ahora, además de este mismo, se han construido el corpus alemán<>español (www.corpuspages.eu), el inglés<>español (www.corpuspaens.eu) y el francés<>español (www.corpuspafres.eu).

El corpus PaCheS está compuesto por textos originales en chino o español y su traducción, o bien por traducciones chinas y españolas de una tercera lengua. Actualmente PaCheS contiene unos 50 millones de tokens, segmentados en 2.177.314 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.

Pretendemos construir un recurso lingüístico multifuncional y representativo para el par de lenguas chino / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.

Objetivo primordial del corpus PaCheS es constituirse en una herramienta útil y fácil de usar para traductores, profesores y estudiantes de chino o español como lengua extranjera de nivel intermedio y avanzado. Con esta herramienta pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.

Actualmente incluye las siguientes colecciones:

United Nations Parallel Corpus¹ v1.0, que se compone de actas oficiales y otros documentos parlamentarios de dominio público de las Naciones Unidas en chino y español. La versión actual contiene textos producidos y traducidos anualmente entre 1990 y 2014, incluidas las alineaciones a nivel de oración. En PaCheS se ha incluido sólo una parte que abarca más de 1,2 millones de bisegmentos.
Wikimatrix², es un corpus de oraciones paralelas en chino y español extraídas de artículos de Wikipedia. Los textos chinos, originalmente escritos en caracteres de chino tradicional, han sido convertidos al sistema simplificado.
ParaCrawl³ v9, un corpus formado mediante extracción automática de textos en sitios web multilingües, que posteriormente son alineados a nivel oracional.
Ted-Talks⁴ un corpus que recoge las traducciones al chino y al español de las transcripciones de 1369 Ted-Talks de los años 2018 a 2020.

Los bisegmentos, alineados a nivel de oración, han sido sometidos a una serie de revisiones semiautomáticas: eliminación de segmentos sin correspondencia, de segmentos sin interés textual y de segmentos demasiado cortos o demasiado largos (más de 350 caracteres en español).

Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües chino<>español de origen diverso.

Aviso:

Si utilizas PaCheS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.paches@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaCheS (2024/02)

COLECCION	LENGUA	*CARACTERES TOKENS**	BISEGMENTOS
United Nations	Chino	24.031.462	1.219.488
United Nations	Español	9.103.395	1.219.488
Paracrawl	Chino	15.235.788	498.145
Paracrawl	Español	7.534.822	498.145
Wikimatrix	Chino	12.546.473	360.968
Wikimatrix	Español	6.028.866	360.968
Ted-Talks	Chino	3.695.097	98.713
Ted-Talks	Español	1.740.554	98.713
Total	Chino	55.508.820	2.177.314
Total	Español	24.407.637	2.177.314

*Para el chino, el cómputo se ha realizado en caracteres, ya que un carácter chino se corresponde más estrechamente con un token del español: la proporción es de 1:2-3 entre los tokens en español y los caracteres chinos.