?

Log in

No account? Create an account

概率语法起于形式化语言理论止步之处

"Probabilistic grammars start where formal language
theory stops. Ambiguity resolution, robustness, efficiency,
learning/adaption and estimation from data is the starting point for
probabilistic grammars."

这是我从一段概率语法和面向数据的解析的课程介绍中看到的:
http://www.snlp.de/prescher/teaching/2004/ProbabilisticGrammars/

想起以前拜读刘挺老师的博文中的一段:


(3)统计方法的弱点



两位网友多提到计算所的机器翻译系统从规则改为统计后,取得了很大的提高,因此感到规则方法的无效,语言学研究者的无用。但据我所知,也有反例,比如东芝
中国研发中心的王海峰博士,他在东芝主持的机器翻译研究仍是以规则为基础的,他们一直有数名语言学背景的员工在机器翻译第一线工作,今年又新增两位从海外
归来的语言学研究人员。东芝比较低调,但他们的翻译系统是非常出色的,在国际博览会上受到国际学者的充分肯定,在ACL和MTSummit上连续发表文
章。现在的潮流是统计占有优势,因此做基于规则的方法不容易发表论文,但这并不意味着规则方法已经过时。规则是人的智慧的结晶,深刻而灵活,自有它存在的
价值。



短期内评测的成绩不能够决定未来的方向,凡事走到一个极端的时候就会回归了,统计的方法有一些明显的弱点,举例而言,在10万字的语料中你看到了1000
个不同的词,那么当语料扩大一倍,即达到20万字的时候,你可能看到了1200个词,语料增加100%,而新的语言现象可能只增加了20%,当语料庞大到
一定程度,再翻倍增长已经很难,即使翻倍增长,新的语言现象可能已经降到只增加1%以下,油水越来越少了。语言学的作用就是对语言的处理从统计方法所利用
的字词表层推向语法语义深层,每深入一层,就能够大幅度地对语言实例进行归纳,也就能够大幅度地较少对语料库规模和计算规模的无节制的依赖。台湾苏克毅老
师是最早开始从事统计自然语言处理的国际知名学者,但他在演讲中却用一个生动的比喻指出盲目信仰统计方法的可笑之处,他认为停留在语言表层的统计方式方法
是在爬树,尽管目前爬得很高,但机器翻译的目标是登月,完全依靠统计是无法实现机器翻译的目标的。



统计的方法还有一个要穴就是研究者在统计方法面前比较被动,用统计方法作出一套系统,输入一个句子进行测试,如果效果不佳,即使是开发者本人也无法解释其
中的原因,因为所有的参数都是自动计算出来的,人可控的余地很小,只好更换或追加语料库,或者调整统计方法,即使如此能不能修正原先的错误也很难说。于
是,就有人开始打补丁,也就是在统计方法做出结果后,再用一些针对性的规则把一些明显的错误修补一下,这只能说是一种权宜之计,如果换了统计方法,错误类
型也会改变,补丁程序也要跟着换,非常麻烦。




之前在读了这段博文后和同事产生过分歧,同事认为这说明统计模型可以抛弃了。应当转基于规则的语言模型的研究。个人认为这是对刘老师的意见的误解。其关键之处在于文章开头引用的那句话。统计模型从来都不是用来代替其他的语言模型的,而是弥补(个人不清楚机器翻译领域是怎样的情况,但是在句法分析这块,从90s开始的确是坚持规则和统计模型并用的方法进行句法分析器的研究的。而且越精确的句法分析器,其规则模型和统计模型都越趋于复杂。

概率是研究随机事件发生和分布规律的数学工具。语言可以被用来基于概率进行研究。是建立在一系列的假设基础上的。比如,我们认为抛硬币正反面的出现是随机事件,给定一个句子中的前一个词,后一个词是什么也是随机的事件。但如果我们为硬币加入了结构是否均匀,空气阻力,花纹不同而影响的运动状态等等模型,硬币的面就不再是一个随机事件。语言模型也是一样,当我们对其系统的构成不够了解时,可以完全借助概率来研究其分布。但是当我们对系统有一定了解时,就要利用了解的系统的结构,将问题进行细化,在子问题中使用统计模型。比如现代句法分析的统计模型,是建立在上下文无关语法,X-bar理论等一系列语言规律的基础之上的。新的语言规律不断的被发现,模型就会不断的被细化。统计计算的复杂度也会随之降低。

另一个使用统计模型的原因是计算能力和数据规模的限制。很多复杂的规则语言模型都因为需要消耗大量的资源,而无法摆脱实验室走向应用。在吴军的Google黑板报上曾经提出,对于中文输入法的语言模型方案其实很多。但现实应用不得不牺牲智能化的算法而换取更小的资源占用,甚至连词库的规模都要小心控制。


Comments