2023暑期翻译技术实践研修班第五讲来啦!我们有幸邀请到上海海事大学的刘世界博士帮助大家从零到一掌握语料库、术语库创建与应用全流程。整个课程以案例实操演练为主,流程介绍为辅。通过本次学习,能够让大家动手搭建研究/实践所需的垂直领域语料库、术语库,熟练掌握语料数据的处理技巧、主流语料检索工具/方法,助力大家借助语料数据开展教学、研究及实践工作。
本期课程主要内容包括:
术语技术与翻译实践
语料技术与翻译实践
术语库建设方法与应用
语料库建设方法与应用
语料库与术语库应用实训
首先,世界博士介绍了语料库建设与应用的完整流程,包括语料采集、语料加工和检索应用三个大的方面。在语料采集方面,世界博士主要介绍了自动化采集语料与人工采集语料,并分享了自动化采集语料的各种实用工具。在语料加工方面,世界博士主要从语料预处理、语料对齐、格式转换、分词赋码等方面进行了介绍并分享了对应的工具使用方法。在检索应用方面,世界博士主要介绍了语料技术与翻译实践、语料技术与翻译/语言研究。
01、语料采集
在语料采集方面,世界博士介绍了八爪鱼采集器、Teleport Ultra、TextForever、火车头采集器、Python等自动化语料采集工具以及人工采集语料的方法。
02、语料加工
本部分中,世界博士首先介绍了语料清洗/预处理、语料对齐、格式转换、分词赋码等基本操作流程及可用到的主要工具。接着,世界博士演示了如何在word中批量清洗语料以及如何使用库酷进行语料批量预处理等内容。接着,世界博士介绍了Déjà Vu、RWS Trados、Transmate等集成式语料对齐工具以及LanguageX、ABBYY Aligner 2.0、Tmxmall等独立式对齐工具/平台的应用。为了使学员们进一步掌握这些工具的使用,世界博士以LanguageX为例向大家演示了如何进行语料对齐。最后,世界博士讲解并演示了如何利用Heartsome TMX Editor (tmx-word-txt) 完成格式转换以及利用现有工具进行分词/赋码。
03、语料检索应用
在语料技术与翻译实践方面,世界博士讲解并带领大家实操BFSU ParaConc、CUC_ParaConc、Search and Replace等自建语料库辅助翻译实践/词典编纂的工具。
对于自建语料库辅助语料库语言学/翻译学研究,世界博士讲解并带领大家实操AntConc、WordSmith Tools 7.0、LancsBox等语料分析工具,详细介绍了如形符、类符、TTR、STTR等语料库研究基本概念,明确区分了Wordlist与Key Wordlist。
世界博士以案例驱动的方式重点介绍并带领大家学习如何使用LancsBox,包括主题词索引(KWIC)、搭配图解(GraphColl)、词汇模块(Words)、检索词分布(Whelk)和N元结构(N-Grams)等内容。
本部分中,世界博士首先对术语库常见格式类型进行了讲解,包括CSV格式、XML格式、TBX格式、JSON文件等;并分享了术语库建设常见的两种路线。
路线1:术语提取/抽取(平台/工具)——SDL MultiTerm 2021 Desktop(创建术语库)——SDL MultiTerm 2021 Convert(转换术语文件xlxs——xml)——导入术语库;
路线2:Glossary Converter(一步到位)。
世界博士就上述两种常见方式演示了如何利用SDL MultiTerm 2021 Desktop、SDL Multiterm 2021 Convert、Glossary Converter等软件进行术语文件转换。
在实训环节,世界博士结合研修内容,提供了两个实操案例,让大家动手进行实操,在研修的最后一天集中答疑。最后,世界博士提供了一个随堂测验,检验大家对语料库、术语库相关知识的掌握程度,感兴趣的小伙伴可以扫描下方二维码进行测试哦~
https://mp.weixin.qq.com/s/1rJGojGq5apzPwQZZ5uVQg
(二维码:点击链接下拉文章至此处)
好啦,以上就是本期课程的全部干货啦~
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
- END -
转载来源:语言服务行业
本文地址:http://sjzytwl.xhstdz.com/quote/71680.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多