标签:网页 训练 读书笔记 模型 之美 信息 马尔可夫 数学 自然语言
罗塞塔石碑破译的两点指导意义:
- 信息的冗余是信息安全的保障。
- 语言的数据,我称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。
基于统计的自然语言处理方法
基于统计的自然语言处理方法,在数学模型上和通信是相同的,甚至就是相同的。
如何正确训练语言模型
一个直接的办法是增加数据量,但是这样也会存在缺陷。
训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题。
模型训练中另一个重要的问题就是训练数据,或者说语料库的选取。
自然语言处理在工程上的细节问题
1、分词的一致性
2、词的颗粒度和层次
雅各布森通信的六个要素:
发送者(信息源)、信道、接收者、信息、上下文和编码。
马尔可夫链:
隐含马尔可夫模型:
围绕着隐含马尔可夫模型的三个基本问题:
1、给定一个模型,如何计算某个特定的输出序列的概率
2、给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列
3、给定足够量的观测数据,如何估计隐含马尔可夫模型的参数
如果没有信息,任何公式或者数字的游戏都无法排除不确定性。
信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。
建立搜索引擎:
1、自动下载尽可能多的网页
2、建立快速有效的索引
3、根据相关性对网页进行公平准确的排序
搜索的“道”: 下载、索引和排序
布尔代数非常简单,但是对数学和计算机发展的意义重大,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了今天数字化的时代。
牛顿:“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的。”
构建网络爬虫工程的要点
1、用BFS还是DFS?
2、页面分析和URL提取
3、记录哪些网页已经下载过的小本本——URL表
PageRank核心思想:
在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。
智能手机的定位和导航功能里面的三个关键技术:
1、利用卫星定位
2、地址识别
3、根据用户输入的起点和终点,在地图上规划最短路线或者最快路线
信息指纹
信息指纹可以理解成将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间中的一个点(一个二进制数字)。只要这个随机函数做得好,那么不同信息对应的这些点不会重合,因此这些二进制数字就成了原来信息所具有的独一无二的指纹。
在通信中解决噪音干扰问题的基本思路
1、从信息源出发,加强通信(编码)自身的抗干扰能力。
2、从传输来看,过滤掉噪音,还原信息。
数学模型
1、一个正确的数学模型应当在形式上是简单的。
2、一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。
3、大量准确的数据对研发很重要。
4、正确的模型也可能受到噪音干扰,而显得不准确;这时不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大的发现。
GIS算法训练最大熵模型的步骤:
1、假定第零次迭代的初始模型为等概率的均匀分布。
2、用第N次迭代的模型来估计每种信息特征在训练数据中的分布。如果超过了实际,就把相应的模型参数变小,否则,将它们变大。
3、重复步骤2直到收敛。
最大熵模型的良好特性:
从形式上看,它非常简单,非常优美;
从效果上看,它是唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑性的模型。
香农第一定理
对于一个信息,任何编码的长度都不小于它的信息熵。
香农第二定理
香农第三定理
贝叶斯网络
从数学的层面讲,贝叶斯网络是一个加权有向图,是马尔可夫链的扩展。
从认识论的层面看,贝叶斯网络克服了马尔可夫链那种机械的线性约束,它可以把任何有关联的事情统一到它的框架下面。
标签:网页,训练,读书笔记,模型,之美,信息,马尔可夫,数学,自然语言 来源: https://blog.csdn.net/Deep___Learning/article/details/103810938
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。