ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据压缩作业三:非结构化数据

2021-06-03 14:34:01  阅读:166  来源: 互联网

标签:结构化 作业 相关度 信息内容 数据处理 文本 数据 数据压缩


非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。
由于非结构化数据文件数量过多,过大;非结构化数据归集检索调取效率低;传统架构无法按需弹性配置存储空间

处理非结构化数据

(1)Web页面信息内容提取;

(2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);

(3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)

(4)文本建模(含向量空间模型、主题模型等)

(5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

(资料均来源于网络)

标签:结构化,作业,相关度,信息内容,数据处理,文本,数据,数据压缩
来源: https://blog.csdn.net/weixin_43503346/article/details/117520689

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有