研究者们普遍认识到，源语和译语两种语言的差异，不仅只表现在词汇的不同上，而且，还表现在句法结构的不同上，为了得到可读性强的译文，必须在自动句法分析上多下功夫。

自动句法分析

机器翻译系统开始采用的分析、转换、生成三个阶段的做法

一个好的 机器翻译系统，应该分别地对源语和译语都作出恰如 其分的描写，这样的描写应该互不影响，相对独立。 
英格维主张，机器翻译可以分为三个阶段来进行。

– 第一阶段:用代码化的结构标志来表示源语文句的结构;
– –
第二阶段:把源语的结构标志转换为译语的结构标志;
第三阶段:构成译语的输出文句。

为什么要做词法分析

形态的变化的背后的本质的意义用法相同。

不变的本质。

形态不同的词条承载不同的词性、语义、对译词、概率等等。

利用有限的字典和形态变化的规则来覆盖尽可能多的元素。

因此：形态变化对应语法功能，引导约束句法分析，辨别不同形态下的词义。

词义<-->形态语法<-->句法

孤立语:汉语

词语只有一种形式，不发生形态变化

汉语其实也有重叠等变化形式

屈折语:英语、法语、德语、俄语......

词语可以附加一层词缀

词缀有多重语法意义
英语动词 +s :第三人称、单数、现在时

相对来说，英语词语的形态变化是比较简单的，动词
只有四种变化形式，从形态变化复杂度上来说接近分
析语

有些屈折语的形态变化非常复杂

英语的词法分析

1.Tokenization分词将字符串转换成词串

2.Stemming:/Lemmatization 对词的内部结构进行分析，并还原到词典形式。

3.POS-Tagging:词性标注

分词：数字、缩略、带杠词串，带撇号，短语，网址。。。

数词的识别一般可以用有限状态自动机来实现//正则表达式

Tokenization算法

Stemming算法:基于有限状态自动机的Stemming

中文分词难度

未定义词的类型

基于语言模型的汉语词语切分算法

语言模型给出任何一个句子的出现概率
统计语言模型实际上就是一个概率分布，它给出了
一种语言中所有可能的句子的出现概率
在统计语言模型看来，对于一种语言，任何一个句
子都是可以接受的，只是接受的可能性(概率)
不
同
统计语言模型问题是一个典型的序列评估问题

理论上，单词串的任何一种概率分布，都是一个语言模型。 
实际上， N 元语法模型是最简单也是最常见的语言模型。

N 元语法模型由于没有考虑任何语言内部的结构信息，显然不是 理想的语言模型。
其他语言模型:
– 隐马尔科夫模型(HMM)(加入词性标记信息)
– 概率上下文无关语法(PCFG)(加入短语结构信息)
– 概率链语法( Probabilistic Link Grammar )(加入链语法的结构信息)
目前为止，其他形式的语言模型效果都不如 N 元语法模型 
统计机器翻译研究中开始有人尝试基于句法的语言模型

N元语法模型-概念辨析

N 元语法模型: N-Gram Model 。
所谓 N-Gram ，指的是由 N 个词组成的串，可以称 为“ N 元组”，或“ N 元词串”。
基于 N-Gram 建立的语言模型，称为“ N 元语法模 型 (N-Gram Model)” 。

Gram 不是 Grammar 的简写。在英文中，并没有 N-Grammar 的说法。
在在汉语中，单独说“ N 元语法”的时候，有时指 “ N 元组 (N-Gram)” ，有时指“ N 元语法模型 (N- Gram Model)” ，
请注意根据上下文加以辨别。

数据平滑数据稀疏问题

–如果f(w1...wn)=0，那么出现零概率，导致整个文本的出现概率为零

解决办法:劫富济贫

约束:概率的归一性

句子首尾标记处理
•
首尾标记，通常用 <s> 和 </s> 来表示，
应用语言模
在语言模型训练时，要注意给每一个句子加上句子
型时，也要把句子首尾标记考虑进来，否则会影响
模型应用的效果。

N元语法模型工具开源工具:

SRI Language Model
IRST Language Model (in Moses)

基于 N 元语法的词语切分 对于每一个切分结果，采用 n 元语法模型计算其概
率，并输出概率最大的切分结果

一元切分词图
对任何一个未切分句子，可以构造一个一元
切分词图
一元切分词图为一个有向图:
 结点:相邻两个汉字之间的间隔
 边:一个候选的词语

切分表示为词图的路径
词语切分可以转化为在切分词图上寻找概率最大
的最优路径问题。

N元切分词图的构造先构造N-1元词图

对于N-1元词图上每一条边:在N元词图上添加一个结点;

对于N-1元词图上每一个结点:假设该结点有S条入边(ei1,...,eiS)和T条出边(eo1,...,eoT)，那么对于

对于该结点的每一对入边和出边的组合(eis,eot)，在N元词图上增加一条边，该边的起点和终点分别

是eis和eot在N元词图上对应的结点

在词图上搜索最优路径:Viterbi算法

基于 n 元语法模型的词语切分 采用一元语法
 把词频的负对数理解成“代价”，
这种方法也可
 以理解为最短路径法的一种扩充
正确率可达到 92% 简便易行，
效果一般好于基于词表的方法
采用三元语法 实验表明，在较大规模数据上，
采用三元语法进
行词语切分正确率可以达到 98% 以上 缺点:无法识别未定义词

HMM解码问题-Viterbi算法

把词汇序列(记做 W=w1w2...wn )理解为观察值 把词性标注序列(记做 T=t1t2...tn )理解为
隐含的状态值
词性标注问题变成 HMM 中的解码问题
已知词串 W (观察序列)和模型参数 λ 情况下，
求使
得条件概率 P(T|W, λ) 值最大的那个 T’ ，

字标注

对每一个汉字进行标注{B,M,E,S}:–B:词首字
–M:词中字
–E:词尾字

–S:单字词

nlp

自动句法分析

results matching ""

No results matching ""