翻译项目统计信息使用的标准—

2019-01-02 | 分类技术随笔 | 标签 CAT

翻译项目的统计信息是用来衡量工作量的一个主要手段。文件的字数、词数、重复片段数、标签数等是常用的指标。

GMX-V（Global Information Management Metrics Volume，文档）便是计算这类信息时使用的标准，它由Lisa组织制定。主要介绍了如何统计空格分割词汇的语言和汉字等其它特殊语言统计字数的方法。它还定义了用于交换生成的报告数据的格式。GMX-V还有其它两个兄弟，分别是统计复杂度的GMX-C和质量的GMX-Q，不过都没有完成。

首先讲一下gmx-v里单元（unit）的概念，对应xliff的trans-unit，一般是一句话。

然后，我们主要讲一下字数的统计：

对于英语这类语言，可以简单地用空格来分割句子。下面这句有9个词，标点符号被认为是词的一部分。

*Example 1: Word Boundaries*
The		quick		(	"	brown	"	)		fox		can't		jump		32.3		feet	,		right	?

提取出来的词如下：

*Example 2: Extracted Words*
The	quick	brown	fox	can't	jump	32.3	feet	right

字数是把每个提取出来的词的字符数相加。

而对于中文等语言，按一个字两个字符算，然后再除以一个固定的系数（factor）得到词数，中文是2.8。十个中文得到的词数是20/2.8≈7。

GMX-V是基于XLIFF进行设计的，一般原文会有很多行内标签，比如下面这样的：

 <source>Start<bpt id="2">code<sub>Text</sub></bpt>end<ept id="2">code</ept>.</source>

这时要将其转换为如下的常规形式（Canonical form）后再进行统计：

   <source>Start<bpt><sub> Text </sub></bpt><ept>end</ept>.</source>

标签一般应被视为透明（transparent）的，不会对原文词数产生影响。

另外还有句子的重复情况等数据，这个的话，每个CAT软件的实现就都不一样了。

Okapi利用GMX-V来进行词数统计、字数统计和报告生成。

可以利用以下步骤实现：

Raw Documents to Filter Event
Word Count
Character Count
Scoping Report

生成的报告类似以下内容：

Date:	2019年1月2日星期三下午09时24分58秒 CST
Files:	E:\okapi\新建文本文档.txt
Total:	7 words	20 characters
Exact Local Context:	0 words	0 characters
100% Match:	0 words	0 characters
Fuzzy Match:	0 words	0 characters
Repetitions:	0 words	0 characters