欢迎光临
一起学习,一起进步

数学之美 之一 –两问

1.信息的冗余是信息安全的保障。同一信息重复三次,只要有一份内容保存下来,原来的信息就不会丢失,这对信道编码有指导意义。
2.语言的数据,我们称之为语料。尤其是双语或者多余的对照语料翻译至关重要,它是我们从事机器翻译研究的基础。

语言 OR 语法

如果说从字母到词的构词法(Morphology)是词的编码规则,那么语法则是语言的编码和解码规则。
词可以被认为是有限而且封闭的集合,而语言则是无限而开放的集合。从数学上讲,前者具有完备的编码解码规则,而后者不具备这个特性。所以,任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。
这就涉及到一个语言学研究方法的问题:到底是语言对,还是语法对?前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。
经过三四十年的争论 ,最后实践选择了前者。

 基于规则 OR 基于统计

计算机能否处理自然语言;如果能,那么它处理自然语言的方法是否和人类一样。
本书对于这两个问题的答案都是yes。
20世纪60年代,科学家的认识是: 要理解自然语言,必然要先做好两件事情,即分析语句和获取语义。这实际上是惯性思维的结果–受到传统语言学研究的影响。学习西方语言,都要学习语法规则(grammar rule)、词性(part of speech)和构词法(morphologic)等。这些规则确实是我们人类学习语言的好工具,而且又容易用计算机的算法描述。对于语义的研究和分析,相比较而言要不系统的多。语义比语法更难在计算机表达出来,因此,直到70年代,这方面的工作乏善可陈。值得一提的是,中国古代语言学的研究主要集中在语义而非语法上,比如《说文解字》等都是语义学研究的成果。
赞(0) 打赏
未经允许不得转载:openSL » 数学之美 之一 –两问

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏