【记录】白吃小学生知识点记录

2022-02-02 11:34:06 阅读：147 来源： 互联网

1、时序模型中，当前数据跟之前观察到的数据相关。
2、自回归模型使用自身过去数据来预测未来。
3、马尔可夫模型假设当前只跟最近少数数据相关，从而简化模型。
4、潜变量模型使用潜变量来概括历史信息。

文本预处理
把文本当作时序序列，文本中的字符、字、词当作变量，这些变量都是有时序信息的。文本预处理主要研究，如何把文本中的这些字、词变成计算机能够处理训练的东西。
1、将数据集读取到由多条文本行组成的列表中；
2、将每行的文本序列拆分成一个标记列表（词元：token）；
（1）英文：
词：作为一个基本的单元，简单；
字符串：作为一个基本单元；
（2）中文：
字：作为一个基本的单元；
词：要作分词操作，jieba分词；
3、构建一个字典，即词汇表，用来将字符串类型的标记（token）映射到从0开始的数字索引中；结果是给一个token返回一个对应的下标，或者是unknown；最终将每个文本行转换成一个数字索引列表。

语言模型
给定文本序列x1…xT，语言模型的目标是估计联合概率P（x1…xT）
应用：
1、做预训练模型（eg：BERT，GPT-3），微调其他模型；
2、生成文本，给定前面几个词，不断采样下一个词；
3、判断多个序列中哪个更常见（电脑打字的时候自动生成、纠错）；

N元语法：
当序列很长时，因为文本量不够大，很可能n（x1…xT）《=1
使用马尔科夫假设可以缓解这个问题：
一元语法：p（x1，x2，x3，x4）=p（x1）p（x2）p（x3）p（x4）
二元语法：p（x1，x2，x3，x4）=p（x1）p（x2|x1）p（x3|x2）p（x4|x3）
三元语法：p（x1，x2，x3，x4）=p（x1）p（x2|x1）p（x3|x1，x2）p（x4|x1，x2，x3）

标签：知识点,x1,记录,模型,白吃,x2,x3,文本,x4
来源： https://blog.csdn.net/weixin_44082645/article/details/122767977

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【记录】白吃小学生知识点记录