en | zh | es | gl
|
Publicaciones
|
Equipo
|
Contacto

Sobre PaCheS


El Corpus Paralelo Chino<>Español, PaCheS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, que compila corpus paralelos bilingües con el español como lengua central. Hasta ahora, además de este mismo, se han construido el corpus alemán<>español (www.corpuspages.eu), el inglés<>español (www.corpuspaens.eu) y el francés<>español (www.corpuspafres.eu).

El corpus PaCheS está compuesto por textos originales en chino o español y su traducción, o bien por traducciones chinas y españolas de una tercera lengua. Actualmente PaCheS contiene unos 50 millones de tokens, segmentados en 2.177.314 bisegmentos, esto es pares de unidades textuales alineadas a nivel oracional o suboracional.

Pretendemos construir un recurso lingüístico multifuncional y representativo para el par de lenguas chino / español, capaz de satisfacer necesidades diferenciadas de los usuarios y que pueda ser explotado para múltiples propósitos, tales como la investigación general en lingüística contrastiva, la tipología lingüística, estudios de traducción y lexicografía bilingüe, así como suministrar datos para el entrenamiento de sistemas de traducción automática.

Objetivo primordial del corpus PaCheS es constituirse en una herramienta útil y fácil de usar para traductores, profesores y estudiantes de chino o español como lengua extranjera de nivel intermedio y avanzado. Con esta herramienta pueden obtener multitud de sugerencias de traducción realizadas por humanos y presentadas en ejemplos de uso real.

Actualmente incluye las siguientes colecciones:

  1. United Nations Parallel Corpus1 v1.0, que se compone de actas oficiales y otros documentos parlamentarios de dominio público de las Naciones Unidas en chino y español. La versión actual contiene textos producidos y traducidos anualmente entre 1990 y 2014, incluidas las alineaciones a nivel de oración. En PaCheS se ha incluido sólo una parte que abarca más de 1,2 millones de bisegmentos.
  2. Wikimatrix2, es un corpus de oraciones paralelas en chino y español extraídas de artículos de Wikipedia. Los textos chinos, originalmente escritos en caracteres de chino tradicional, han sido convertidos al sistema simplificado.
  3. ParaCrawl3 v9, un corpus formado mediante extracción automática de textos en sitios web multilingües, que posteriormente son alineados a nivel oracional.
  4. Ted-Talks4 un corpus que recoge las traducciones al chino y al español de las transcripciones de 1369 Ted-Talks de los años 2018 a 2020.

Los bisegmentos, alineados a nivel de oración, han sido sometidos a una serie de revisiones semiautomáticas: eliminación de segmentos sin correspondencia, de segmentos sin interés textual y de segmentos demasiado cortos o demasiado largos (más de 350 caracteres en español).

Dado que se trata de un proyecto en curso, está previsto en el futuro añadir nuevas colecciones de textos bilingües chino<>español de origen diverso.

Aviso:

Si utilizas PaCheS en tus trabajos, por favor indícalo y comunícanoslo a: corpus.paches@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaCheS (2024/02)


COLECCION LENGUA CARACTERES* TOKENS BISEGMENTOS
United Nations   Chino 24.031.462 1.219.488
Español 9.103.395
Paracrawl   Chino 15.235.788 498.145
Español 7.534.822
Wikimatrix   Chino 12.546.473 360.968
Español 6.028.866
Ted-Talks   Chino 3.695.097 98.713
Español 1.740.554
Total   Chino 55.508.820 2.177.314
Español 24.407.637

*Para el chino, el cómputo se ha realizado en caracteres, ya que un carácter chino se corresponde más estrechamente con un token del español: la proporción es de 1:2-3 entre los tokens en español y los caracteres chinos.

                                                    
PaCheS Vers. 1.0
Última actualización: 15.04.2024
ISLRN 153-041-143-772-3   ©PaCorES
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).