做翻译,除了可以参考词典,语料库(corpus)也是一大辅助。
利用语料库,译者不仅能学习语言知识,还能确定单词/短语的译法、进行核实查证。
今天,一起来盘点10个实用的语料库吧!
BCC是北京语言大学建立的现代汉语语料库,包括:报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC的语料经过了分词、词性标注,少量还做过句法分析。BiCovid为新冠肺炎疫情双语文本检索和分享平台,公益性质,目的是帮助国内外正在翻译相关内容的志愿者、译者查询双语数据。英国国家语料库(BritishNationalCorpus, BNC)是由英国牛津出版社、朗文出版公司大英图书馆、牛津大学计算机中心等机构联合建立的大型语料库。收录包括报纸、期刊、小说、书籍等类型语料,以现代英式英语文本为主,也有口语和书面语。http://www.natcorp.ox.ac.uk/美国当代英语语料库(Corpus of Contemporary American English, COCA),收录内容包括文本小说、口语、杂志、报纸、学术文章等。COCA每年都在更新语料,有收录很多新词。词典查不到的词可以到这上面找找看。https://www.english-corpora.org/coca/LIVAC(Linguistic Variation in Chinese Speech Communities)是一个搜集、处理华语报章语料的汉语语料库。该语料库的最大特点是采用共时方式,剖析来自京沪台港澳新等多料库地的定量华语媒体语料。MyMemory为记忆库检索平台,语料来源于欧盟、联合国等组织,按领域划分。从该网站下载到的TMX文件可以在CAT工具中使用。https://mymemory.translated.net/zh/Sketch Engine是个功能丰富的在线语料分析网站,提供词频统计、语料标记、术语提取、历时分析等多种语料处理功能。https://www.sketchengine.eu/翻译自动化用户协会(TAUS)运营的大型翻译记忆库网站。订阅用户可任意搜索、浏览并下载该网站提供的记忆库文件,也可调用数据云API。https://datamarketplace.taus.net/该网站收录了1993年以来联合国印发的所有正式文件。同时,也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有決议。https://documents.un.org/prod/ods.nsf/home.xsp语料库在线是一个非营利性学术网站,提供现代汉语和古代汉语语料库相关资源。可以通过字词索引检索,还支持分词与词性标注、汉语拼音标注、宇词频率统计等功能。http://corpus.zhonghuayuwen.org/