O Corpus Paralelo Chino<>Español, PaCheS, forma parte dun proxecto máis amplo, PaCorES, Parallel Corpora Spanish, que desenvolve corpus paralelos bilingües co español como lingua central. Até o momento, ademais deste, realizaronse o corpus alemán<>español (www.corpuspages.eu), o inglés/español (www.corpuspaens.eu) e o francés<>español (www.corpuspafres.eu).
O corpus PaCheS está composto por textos orixinais en chino ou español e as súas traducións ou tamén por traducións chinas e españolas dunha terceira lingua. Actualmente, PaCheS contén arredor de 50 millóns de tokens, segmentados en 2.177.314 bisegmentos, isto é, pares de unidades textuais alineadas a nivel oracional ou suboracional.
Con este corpus preténdese construír un recurso lingüístico multifuncional e representativo para o par de linguas chino/español, capaz de satisfacer necesidades diferenciadas dos usuarios e que poida ser explotado para múltiples propósitos, tales como investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe, así como fornecer datos para o adestramento de sistemas de tradución automática.
O obxectivo primordial do corpus PaCheS é constituírse nunha ferramenta útil e fácil de usar para tradutores e estudantes de chino ou español como lingua estranxeira de nivel intermedio e avanzado. Con este recurso poden obter multitude de suxestións de tradución realizadas por humanos e presentadas en exemplos de uso real.
Actualmente inclúe as seguintes coleccións:
Os bisegmentos, aliñados a nivel de oración, foron sometidos a unha serie de revisións semiautomáticas: eliminación de segmentos sen correspondencia, de segmentos sin interés textual e de segmentos demasiado curtos ou demasiado largos (máis de 350 caracteres en español).
Dado que se trata dun proxecto en curso, está previsto no futuro engadir novas coleccións de textos bilingües chino<>español de orixe diverso.
Aviso:
Se empregas PaCheS nos teus traballos, por favor indícao e comunícanoslo a: corpus.paches@usc.es. Así contribuyes a la sostenibilidad del proyecto.
Estadísticas PaCheS (2024/02)
| COLECCION | LINGUA | CARACTERES* TOKENS | BISEGMENTOS |
| United Nations | Chinés | 24.031.462 | 1.219.488 |
| Español | 9.103.395 | ||
| Paracrawl | Chinés | 15.235.788 | 498.145 |
| Español | 7.534.822 | ||
| Wikimatrix | Chinés | 12.546.473 | 360.968 |
| Español | 6.028.866 | ||
| Ted-Talks | Chinés | 3.695.097 | 98.713 |
| Español | 1.740.554 | ||
| Total | Chinés | 55.508.820 | 2.177.314 |
| Español | 24.407.637 |
*Para o chinés, o cómputo realizouse en caracteres, xa que un carácter chinés correspóndese máis estreitamente con un token do español: proporción é de 1:2-3 entre os tokens en español e os caracteres chineses.
