El Corpus Paralelo Chino<>Español, PaCheS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que compila corpus paralelos bilingües con el español como lengua central. Hasta ahora, además de este mismo, se han construido el corpus alemán<>español (www.corpuspages.eu), el inglés<>español (www.corpuspaens.eu) y el francés<>español (www.corpuspafres.eu).
El corpus PaCheS está compuesto por textos originales en chino o español y su traducción, o bien por traducciones chinas y españolas de una tercera lengua. Actualmente PaCheS contiene unos 50 millones de tokens, segmentados en 2.177.314 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.
Pretendemos construir un recurso lingüístico multifuncional y representativo para el par de lenguas chino / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.
Objetivo primordial del corpus PaCheS es constituirse en una herramienta útil y fácil de usar para traductores, profesores y estudiantes de chino o español como lengua extranjera de nivel intermedio y avanzado. Con esta herramienta pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.
Actualmente incluye las siguientes colecciones:
Los bisegmentos, alineados a nivel de oración, han sido sometidos a una serie de revisiones semiautomáticas: eliminación de segmentos sin correspondencia, de segmentos sin interés textual y de segmentos demasiado cortos o demasiado largos (más de 350 caracteres en español).
Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües chino<>español de origen diverso.
Aviso:
Si utilizas PaCheS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.paches@usc.es. Así contribuyes a la sostenibilidad del proyecto.
Estadísticas PaCheS (2024/02)
COLECCION | LENGUA | CARACTERES* TOKENS | BISEGMENTOS |
United Nations | Chino | 24.031.462 | 1.219.488 |
Español | 9.103.395 | ||
Paracrawl | Chino | 15.235.788 | 498.145 |
Español | 7.534.822 | ||
Wikimatrix | Chino | 12.546.473 | 360.968 |
Español | 6.028.866 | ||
Ted-Talks | Chino | 3.695.097 | 98.713 |
Español | 1.740.554 | ||
Total | Chino | 55.508.820 | 2.177.314 |
Español | 24.407.637 |
*Para el chino, el cómputo se ha realizado en caracteres, ya que un carácter chino se corresponde más estrechamente con un token del español: la proporción es de 1:2-3 entre los tokens en español y los caracteres chinos.