GlossaryConverter | MultiTerm 术语库字段定义
Trados Studio (TS) 中使用的术语库是 SDL 公司(现称 RWS)专有的格式,由于这种格式的非开源性,难以与其他工具进行直接的数据交换。所以,在需要批量增删改查操作时,译员还是会选择使用其他更加便捷的工具。这就产生了格式转换需求,在能满足这种需求的工具中,最著名的是 GlossaryConverter (GC)。
最理想的情况是,把一种格式的术语库放进 GC,即产生另一种可在 TS 中直接使用的术语库。实际情况是,译员收到的大部分术语库都不合自己的习惯,要么术语在 TS 中识别不出,要么术语库太大导致电脑死机或反应慢。这时就要对术语库进行大刀阔斧地修改,这个活儿 MultiTerm (MT) 显然不是最佳选择,用 MS Office Excel 更快捷。
整个流程就是:GC 将 MT 术语库(后缀 .sdltb)转换为 Excel 格式(后缀 .xlsx)。完成修改之后,再将 Excel 术语库转换为 MT 格式。
如果对 MT 术语库的结构不了解,很可能导致修改后的术语库转换不回去。因此有必要更深入地学习一下 MT 术语库知识。
下面是一个 Excel 术语库。
»L«English | »I«Sublanguage | »L«Chinese | »I«Sublanguage | »E«Subject | »T«Note |
---|---|---|---|---|---|
surgical table | EN-US | 手术床 | SimpCHN | Medical | May have different translations in general domain |
WHO | Abbreviated EN-US | 世衛組織 | TradiCHN | Clinical | Need a simplified Chinese translation |
Shanghai | Pinyin | 上海 | 简体中文 | General | A municipality in China, under direct administration of central government |
转换成 sdltb 格式后,它在 MT 中的结构如下。
可以看出,MT 中的字段名称必须在 Excel 第一行定义,不同字段是通过 »{TAGS}« 这种形式定义的。具体而言,记录 (entry,即一条术语) 是术语库的最小单位,使用 »E«{ENTRY TAG} 标签定义。比如,我们想指明一条术语的适用领域,就可以定义一个此级别 (entry-level) 的字段 (如此例中的 subject 字段)。表示此字段对下面的所有项均适用。
一条记录通常包含一个多个语言名称字段,语言名称字段使用 »L«{LANGUAGE TAG} 标签定义。比如,定义美国英语用 »L«US-EN,定义简体中文用 »L«SIMP-CHN。由于每个人的偏好不同,一种语言有无数种定义方法,但是为了兼容性,最好采用通用的语言名称来定义这个字段。因为最终的术语库导入 TS 后,TS 会将项目 (.sdlppx 或 .sdlproj) 所用语言名称与这里定义的语言名称进行比较,然后生成一个映射关系。如果定义不当,则可能无法使用术语库。比如,在 TS 中新建了项目,进入编辑器界面,原文句段中含有术语库中的术语原文,却不显示相应的术语译文。这就是语言名称字段没有正确映射造成的,只要修改此字段,使之与项目的语言名称一致,然后重新导入 TS,通常可以解决。
如果需要对一个语言名称字段进行备注,就要使用 »I«{INDEX TAG} 标签定义。比如指明一种语言的子语言名称,可以定义一个此级别 (index-level) 的字段 »I«{SUBLANGUAGE}。字段的顺序很重要,此字段适用范围为其左侧的语言名称字段。如果每种语言都需要指明子语言名称,则需要在语言名称字段右侧分别定义一个字段。
如果需要对一条术语的使用语境或注意事项进行备注,就要使用 »T«{COMMENT TAG} 标签定义。比如定义一个此级别 (term-level) 的字段 »T«Notes。
通过以上四个标签就可以定义 MT 术语库中的全部字段,实际使用中根据需求对相应级别的字段进行定义即可。
简洁起见,在 TS 中默认不会显示一个术语库定义的所有字段,仅显示原文和译文的术语字段。要显示全部字段信息,在 TS 的 Term recognition 界面依次点击 hitlist settings -> Fields -> Select Fields -> Field Selection 下勾选相应字段即可。