ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

《数学之美》读书笔记

2019-07-22 14:07:03  阅读:254  来源: 互联网

标签:语言 读书笔记 模型 之美 数学 语料 分词 统计


看了吴军的《数学之美》,感触颇多。吴军先生能通过简单的故事和诙谐的语言,将晦涩难懂的数学原理解释清楚,让人再次感受到数学的博大精深。读了这本书之后,发现曾经只和成绩挂钩的数学原理还能这么玩,这么接地气。为此,摒弃应试的动机,下一步计划重学一遍概率论、线代、高数等数学,以提高自己。本文是个人读《数学之美》记录下阅读时的最直接的感受,希望后期能适时翻阅,思想上和知识层面上共同指导自己。


第二版前言

今天,除了初等数学(加减乘除),大家对数学,尤其是纯粹的数学用途产生了怀疑。很多大学所学的数学,可能一辈子都没有机会应用,几年后就差不多忘光了。原因:----因为不懂得数学的应用就在我们生活中,没感受到数学之美,数学也就真的白学了。

要了解世界级学者他们的平凡和卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。


第1章 文字和语言VS数字和信息

文字只是信息的载体,而非信息本身。

罗塞塔3份文本的数据保存形式,为自然语言处理提供两点指导:

  1. 信息冗余是信息安全的保障
  2. 语言的数据,称为语料。尤其在翻译中,语料的对比,是从事机器翻译的基础。

古时候的文言文和白话文,其实就是类似于今天信道压缩与否的区别,比如书中


 第2章 自然语言处理从规则到统计 

从规则到统计的过渡过程,是在很长的历史内完成的。

基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。统计模型的思想,可充分发挥数据的优势,大大提高效果。


第3章 统计语言模型

统计模型的核心思想是 马尔可夫模型(当前状态只和前面的一个或多个状态有关)

而这个,可以用样本的统计方法,近似估计各种条件概率。这期间,需要进行模型的训练和零概率问题的平滑处理。

模型的训练

平滑处理

训练参数的一个直接的办法是增加数据量,但是仍然会遇到零概率事件。我们本这种模型称为“不平滑”,必须解决。

古德-图灵估计

 语料选取的问题

如果训练语料和模型应用的领域脱节,那么模型的效果将大打折扣。

训练数据通常越多越好,虽然通过平滑过渡可以解决平滑问题。但是,片面追求大规模数据,是没有意义的。

训练语料的噪声高低或多或少会对模型效果产生影响。在训练之前,有时需要对训练的数据进行预处理。一般,少量的随机噪声清除的成本比较高,通常不处理。但是大量的噪声,还是有必要进行处理的,而且他们也比较号处理,比如网页中的大量制表符。


第4章 谈谈分词

分词的二义性问题是语言歧义性的一部分,郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。

最好的分词方法,应该保证分完词后的这个句子出现的概率最大。统计语言模型可以算出这个句子出现的概率。统计语言可以计算出每种分词后句子出现的概率。(马尔可夫)

分词,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。

一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词,这样效果会更好些。而在语音识别中,“北京大学”一般是被分成两个词。比如网页搜索中,小的粒度比大的粒度效果更好。因此,不同的应用,应该有不同的分词系统。

中文分词是一个已经解决的问题,提升的空间是微乎其微的。只要使用统计模型,效果就差不到哪去。英文等西方语言,本身就没有分词问题,除非要做文本分析找词组。


 

 

 

 

 

 

 

标签:语言,读书笔记,模型,之美,数学,语料,分词,统计
来源: https://blog.csdn.net/LWHGMAN/article/details/96829906

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有