ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

智能技术_6:K个最近邻居(医疗旅游)

2021-04-10 11:00:40  阅读:196  来源: 互联网

标签:医疗 字词 智能 TF 词频 篇文章 邻居 IDF 本体论


智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4:贝叶斯分类和贝叶斯网络
智能技术_5:决策树
智能技术_6:K个最近邻居(医疗旅游)


# 写于2021.04.10
# 本文为学习笔记,用的ppt是陈志华教授版,侵删
# 笔记只为交流,入门小白,有错望留言纠正
# 总结不易 望赞鼓励

1. K个最近邻居

1.1 简单理解

还是分类问题,k表示最近的几个列子,k一般取单数(3,5…)是为了尽量必面 两类相同。
在这里插入图片描述

1.2 求解步骤

信息检索(Information Retrieval, IR)(数据前处理过程)

  • 断词切字(Stemming)
  • 词频(Term Frequency, TF)

假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
在这里插入图片描述

  • 逆向文件频率(Inverse Document Frequency, IDF)

假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):

在这里插入图片描述

  • TF-IDF

就是②③相乘
第i篇文章第j个字词TF-IDF值vij为:
在这里插入图片描述

k个最近邻居(k-Nearest Neighbors, kNN)(二选一

  • 相似度算法

计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

  • 距离算法

计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

kNN算法通过相似度或者距离算法,选择一个样本范围k,然后看哪类多就属于哪类

2. 过程

2.1 断词切字(Stemming)

2.2 词频(Term Frequency, TF)

假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
在这里插入图片描述

在这里插入图片描述
第一句话13个词,那么这句machine就是1/13;

第三句话13个词,那么这句computer就是2/13;
在这里插入图片描述

2.3 逆向文件频率(Inverse Document Frequency, IDF)

假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):

在这里插入图片描述

这里只看有没有出现,不谈出现次数;M=3(三篇文章)
在这里插入图片描述
利用公式:log(M/mj)
在这里插入图片描述

2.4 TF-IDF

就是②③相乘
第i篇文章第j个字词TF-IDF值vij为:
在这里插入图片描述

在这里插入图片描述

2.5 k个最近邻居(k-Nearest Neighbors, kNN)

2.5.1 相似度

计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

在这里插入图片描述

2.5.2 距离算法

计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

在这里插入图片描述

2.5.3 通过kNN解决分类问题

在这里插入图片描述

通过绝对距离测量,那么d1的sum = |6-3| +|5 - 3| + 0-0 =5
在这里插入图片描述

3 本体论

本体论(Ontology)是「研究到底哪些名词代表真实存在实体,哪些名词只是代表一种概念,近年来,人工智能及信息技术相关领域的学者也开始将本体论的观念用在知识表达上,即 藉由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。
也就是本来一个专有词汇 它给拆开了。本体论那就跟归类


例如:皮肤有类症在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4 实例-医疗旅游应用方法

4.1 断词切字和本体论

① 将两类泉水疗效内容找到
在这里插入图片描述

②计算每篇文章中提及的文字出现次数并标记每篇文章所属类别
在这里插入图片描述
③ 断文切字
在这里插入图片描述
④ 将相同字词数合并 并计算次数总和
在这里插入图片描述
本体论结果

参考医疗本体论,将各个疾病名称抽象化为「概念层级」

在这里插入图片描述

4.2 词频

在这里插入图片描述
在这里插入图片描述

4.3 逆向文件频率

在这里插入图片描述
在这里插入图片描述

4.4 TF-IDF

在这里插入图片描述

4.5 kNN(欧几里得距离, k=3)

查询内容「轻度高血压、肠胃不舒服」,肠胃没有这项,那么忽略
在这里插入图片描述
计算结果(欧几里得距离, k=3):
在这里插入图片描述

查询之病症,推荐可以采用碳酸氢钠泉疗法。

查询内容「脚扭伤」
在这里插入图片描述
计算结果(欧几里得距离, k=3):
在这里插入图片描述
查询之病症,推荐可以采用硫化氢泉疗法。

标签:医疗,字词,智能,TF,词频,篇文章,邻居,IDF,本体论
来源: https://blog.csdn.net/wistonty11/article/details/115563265

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有