关于 PaCheS
汉语<>西班牙语平行语料库 PaCheS,
是正在进行的大型项目 PaCorES (西班牙语平行语料库)的一部分,该项目汇编了以西班牙语为核心语言的双语平行语料库。到目前为止,除了此语料库,本项目还建立了德语<>西班牙语语料库
(www.corpuspages.eu)、英语<>西班牙语语料库(www.corpuspaens.eu)和法语<>西班牙语语料库 (www.corpuspafres.eu) 。
PaCheS 语料库由汉语或西班牙语原文及其译文,或由第三种语言译成的汉语和西班牙语组成。 PaCheS
50百万个标记,分割为 2.177.314 双段,即在句或子句层面上对齐的文本单元对。
我们的目标是为汉语/西班牙语语对建立一个多功能、有代表性的语言资源,以满足用户的差异化需求,并可用于多种目的,如对比语言学、语言类型学、翻译研究和双语词典编纂,以及为训练机器翻译系统提供数据。
PaCheS 语料库的主要目标是为中高级水平的汉语或西班牙语学习者或翻译人员提供一个有用的、易于使用的工具。通过这个工具,可以获得大量的人工翻译建议,并在实际使用的示例中呈现。
目前它包括以下收藏的一部分文本:
- United Nations Parallel Corpus1 v1.0,由汉语和西班牙语的联合国的官方会议记录和其他公共领域的会议文件组成。该语料库的当前版本包含1990年至2014年期间每年制作和翻译的文本,包括句级别的对齐。
- Wikimatrix2,从维基百科文章中提取的汉语和西班牙语句子平行语料库。这些中文文本最初以繁体中文字符书写,后来转换为简体中文系统。
- ParaCrawl3 v9, 是通过自动从多语言网站提取文本形成的语料库,随后在句子级别进行了对齐。
- Ted-Talks4 是一个语料库,收集了2018年至2020年间1369个Ted-Talks的中文和西班牙文翻译稿。
在句子层面上对齐的双段已经过一系列的半自动修订:删除不对应的片段、无文本意义的片段以及太短或太长的片段(西班牙语超过350个字)。
由于这是一个正在进行的项目,未来计划增加新的来自不同来源的中文<>西班牙语双语文本集合。
统计数据 PaCheS (截至 2024 年 2 月)
|
语言
|
语言
|
字符数*标记
|
双段
|
|
United Nations
|
中文
|
24.031.462
|
1.219.488
|
|
西班牙语
|
9.103.395
|
|
Paracrawl
|
中文
|
15.235.788
|
498.145
|
|
西班牙语
|
7.534.822
|
|
Wikimatrix
|
中文
|
12.546.473
|
360.968
|
|
西班牙语
|
6.028.866
|
|
Ted-Talks
|
中文
|
3.695.097
|
98.713
|
|
西班牙语
|
1.740.554
|
|
总共
|
中文
|
55.508.820
|
2.177.314
|
|
西班牙语
|
24.407.637
|
*对于中文,计数是以字符为单位的,因为一个字符更接近一个标记:西班牙语标记和中文字符之间的比例在2到3之间。