研究者们普遍认识到,源语和译 语两种语言的差异,不仅只表现在词汇的不同上 ,而且,还表现在句法结构的不同上,为了得到 可读性强的译文,必须在自动句法分析上多下功 夫。
自动句法分析
机器翻译系统开始采用的分析、转换、生成三个阶段的做法
一个好的 机器翻译系统,应该分别地对源语和译语都作出恰如 其分的描写,这样的描写应该互不影响,相对独立。
英格维主张,机器翻译可以分为三个阶段来进行。
– 第一阶段:用代码化的结构标志来表示源语文句的结构;
– –
第二阶段:把源语的结构标志转换为译语的结构标志;
第三阶段:构成译语的输出文句。
为什么要做词法分析
形态的变化的背后的本质的意义用法相同。
不变的本质。
形态不同的词条承载不同的词性、语义、对译词、概率等等。
利用有限的字典和形态变化的规则来覆盖尽可能多的元素。
因此:形态变化对应语法功能,引导约束句法分析,辨别不同形态下的词义。
词义<-->形态语法<-->句法
孤立语:汉语
词语只有一种形式,不发生形态变化
汉语其实也有重叠等变化形式
屈折语:英语、法语、德语、俄语......
词语可以附加一层词缀
词缀有多重语法意义
英语动词 +s :第三人称、单数、现在时
相对来说,英语词语的形态变化是比较简单的,动词
只有四种变化形式,从形态变化复杂度上来说接近分
析语
有些屈折语的形态变化非常复杂
英语的词法分析
1.Tokenization分词 将字符串转换成词串
2.Stemming:/Lemmatization 对词的内部结构进行分析,并还原到词典形式。
3.POS-Tagging:词性标注
分词:数字、缩略、带杠词串,带撇号,短语,网址。。。
数词的识别一般可以用有限状态自动机来实现//正则表达式
Tokenization算法
Stemming算法:基于有限状态自动机的Stemming
中文分词难度
未定义词的类型
基于语言模型的汉语词语切分算法
语言模型给出任何一个句子的出现概率
统计语言模型实际上就是一个概率分布,它给出了
一种语言中所有可能的句子的出现概率
在统计语言模型看来,对于一种语言,任何一个句
子都是可以接受的,只是接受的可能性(概率)
不
同
统计语言模型问题是一个典型的序列评估问题
理论上,单词串的任何一种概率分布,都是一个语言模型。
实际上, N 元语法模型是最简单也是最常见的语言模型。
N 元语法模型由于没有考虑任何语言内部的结构信息,显然不是 理想的语言模型。
其他语言模型:
– 隐马尔科夫模型(HMM)(加入词性标记信息)
– 概率上下文无关语法(PCFG)(加入短语结构信息)
– 概率链语法( Probabilistic Link Grammar )(加入链语法的结构信息)
目前为止,其他形式的语言模型效果都不如 N 元语法模型
统计机器翻译研究中开始有人尝试基于句法的语言模型
N元语法模型-概念辨析
N 元语法模型: N-Gram Model 。
所谓 N-Gram ,指的是由 N 个词组成的串,可以称 为“ N 元组”,或“ N 元词串”。
基于 N-Gram 建立的语言模型,称为“ N 元语法模 型 (N-Gram Model)” 。
Gram 不是 Grammar 的简写。在英文中,并没有 N-Grammar 的说法。
在在汉语中,单独说“ N 元语法”的时候,有时指 “ N 元组 (N-Gram)” ,有时指“ N 元语法模型 (N- Gram Model)” ,
请注意根据上下文加以辨别。

数据平滑数据稀疏问题
–如果f(w1...wn)=0,那么出现零概率,导致整个文本的出现概率为零
解决办法:劫富济贫
约束:概率的归一性
句子首尾标记处理
•
首尾标记,通常用 <s> 和 </s> 来表示,
应用语言模
在语言模型训练时,要注意给每一个句子加上句子
型时,也要把句子首尾标记考虑进来,否则会影响
模型应用的效果。
N元语法模型工具开源工具:
SRI Language Model
IRST Language Model (in Moses)
基于 N 元语法的词语切分 对于每一个切分结果,采用 n 元语法模型计算其概
率,并输出概率最大的切分结果
一元切分词图
对任何一个未切分句子,可以构造一个一元
切分词图
一元切分词图为一个有向图:
结点:相邻两个汉字之间的间隔
边:一个候选的词语
切分表示为词图的路径
词语切分可以转化为在切分词图上寻找概率最大
的最优路径问题。
N元切分词图的构造先构造N-1元词图
对于N-1元词图上每一条边:在N元词图上添加一 个结点;
对于N-1元词图上每一个结点:假设该结点有S条入边(ei1,...,eiS)和T条出边(eo1,...,eoT),那么对于
对于该结点的每一对入边和出边的组合(eis,eot), 在N元词图上增加一条边,该边的起点和终点分别
是eis和eot在N元词图上对应的结点
在词图上搜索最优路径:Viterbi算法
基于 n 元语法模型的词语切分 采用一元语法
把词频的负对数理解成“代价”,
这种方法也可
以理解为最短路径法的一种扩充
正确率可达到 92% 简便易行,
效果一般好于基于词表的方法
采用三元语法 实验表明,在较大规模数据上,
采用三元语法进
行词语切分正确率可以达到 98% 以上 缺点:无法识别未定义词




HMM解码问题-Viterbi算法
把词汇序列(记做 W=w1w2...wn )理解为观察值 把词性标注序列(记做 T=t1t2...tn )理解为
隐含的状态值
词性标注问题变成 HMM 中的解码问题
已知词串 W (观察序列)和模型参数 λ 情况下,
求使
得条件概率 P(T|W, λ) 值最大的那个 T’ ,
字标注
对每一个汉字进行标注{B,M,E,S}:–B:词首字
–M:词中字
–E:词尾字
–S:单字词