研究者们普遍认识到,源语和译 语两种语言的差异,不仅只表现在词汇的不同上 ,而且,还表现在句法结构的不同上,为了得到 可读性强的译文,必须在自动句法分析上多下功 夫。

自动句法分析

机器翻译系统开始采用的分析、转换、生成三个阶段的做法

一个好的 机器翻译系统,应该分别地对源语和译语都作出恰如 其分的描写,这样的描写应该互不影响,相对独立。 
英格维主张,机器翻译可以分为三个阶段来进行。

– 第一阶段:用代码化的结构标志来表示源语文句的结构;
– –
第二阶段:把源语的结构标志转换为译语的结构标志;
第三阶段:构成译语的输出文句。

为什么要做词法分析

形态的变化的背后的本质的意义用法相同。


不变的本质。

形态不同的词条承载不同的词性、语义、对译词、概率等等。

利用有限的字典和形态变化的规则来覆盖尽可能多的元素。

因此:形态变化对应语法功能,引导约束句法分析,辨别不同形态下的词义。

词义<-->形态语法<-->句法


孤立语:汉语

词语只有一种形式,不发生形态变化

汉语其实也有重叠等变化形式

屈折语:英语、法语、德语、俄语......

词语可以附加一层词缀

词缀有多重语法意义
英语动词 +s :第三人称、单数、现在时

相对来说,英语词语的形态变化是比较简单的,动词
只有四种变化形式,从形态变化复杂度上来说接近分
析语

有些屈折语的形态变化非常复杂


英语的词法分析

1.Tokenization分词 将字符串转换成词串

2.Stemming:/Lemmatization 对词的内部结构进行分析,并还原到词典形式。

3.POS-Tagging:词性标注

分词:数字、缩略、带杠词串,带撇号,短语,网址。。。

数词的识别一般可以用有限状态自动机来实现//正则表达式


Tokenization算法

Stemming算法:基于有限状态自动机的Stemming


中文分词难度

未定义词的类型

基于语言模型的汉语词语切分算法

语言模型给出任何一个句子的出现概率
统计语言模型实际上就是一个概率分布,它给出了
一种语言中所有可能的句子的出现概率
在统计语言模型看来,对于一种语言,任何一个句
子都是可以接受的,只是接受的可能性(概率)
不
同
统计语言模型问题是一个典型的序列评估问题
理论上,单词串的任何一种概率分布,都是一个语言模型。 
实际上, N 元语法模型是最简单也是最常见的语言模型。

N 元语法模型由于没有考虑任何语言内部的结构信息,显然不是 理想的语言模型。
其他语言模型:
– 隐马尔科夫模型(HMM)(加入词性标记信息)
– 概率上下文无关语法(PCFG)(加入短语结构信息)
– 概率链语法( Probabilistic Link Grammar )(加入链语法的结构信息)
目前为止,其他形式的语言模型效果都不如 N 元语法模型 
统计机器翻译研究中开始有人尝试基于句法的语言模型

N元语法模型-概念辨析

N 元语法模型: N-Gram Model 。
所谓 N-Gram ,指的是由 N 个词组成的串,可以称 为“ N 元组”,或“ N 元词串”。
基于 N-Gram 建立的语言模型,称为“ N 元语法模 型 (N-Gram Model)” 。

Gram 不是 Grammar 的简写。在英文中,并没有 N-Grammar 的说法。
在在汉语中,单独说“ N 元语法”的时候,有时指 “ N 元组 (N-Gram)” ,有时指“ N 元语法模型 (N- Gram Model)” ,
请注意根据上下文加以辨别。

数据平滑数据稀疏问题

–如果f(w1...wn)=0,那么出现零概率,导致整个文本的出现概率为零

解决办法:劫富济贫

约束:概率的归一性
句子首尾标记处理
•
首尾标记,通常用 <s> 和 </s> 来表示,
应用语言模
在语言模型训练时,要注意给每一个句子加上句子
型时,也要把句子首尾标记考虑进来,否则会影响
模型应用的效果。

N元语法模型工具开源工具:

SRI Language Model
IRST Language Model (in Moses)

基于 N 元语法的词语切分 对于每一个切分结果,采用 n 元语法模型计算其概
率,并输出概率最大的切分结果
一元切分词图
对任何一个未切分句子,可以构造一个一元
切分词图
一元切分词图为一个有向图:
 结点:相邻两个汉字之间的间隔
 边:一个候选的词语
切分表示为词图的路径
词语切分可以转化为在切分词图上寻找概率最大
的最优路径问题。

N元切分词图的构造先构造N-1元词图

对于N-1元词图上每一条边:在N元词图上添加一 个结点;

对于N-1元词图上每一个结点:假设该结点有S条入边(ei1,...,eiS)和T条出边(eo1,...,eoT),那么对于

对于该结点的每一对入边和出边的组合(eis,eot), 在N元词图上增加一条边,该边的起点和终点分别

是eis和eot在N元词图上对应的结点

在词图上搜索最优路径:Viterbi算法

基于 n 元语法模型的词语切分 采用一元语法
 把词频的负对数理解成“代价”,
这种方法也可
 以理解为最短路径法的一种扩充
正确率可达到 92% 简便易行,
效果一般好于基于词表的方法
采用三元语法 实验表明,在较大规模数据上,
采用三元语法进
行词语切分正确率可以达到 98% 以上 缺点:无法识别未定义词

HMM解码问题-Viterbi算法

把词汇序列(记做 W=w1w2...wn )理解为观察值 把词性标注序列(记做 T=t1t2...tn )理解为
隐含的状态值
词性标注问题变成 HMM 中的解码问题
已知词串 W (观察序列)和模型参数 λ 情况下,
求使
得条件概率 P(T|W, λ) 值最大的那个 T’ ,

字标注

对每一个汉字进行标注{B,M,E,S}:–B:词首字
–M:词中字
–E:词尾字

–S:单字词

results matching ""

    No results matching ""