ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

2.3 数据变换【斯坦福21秋季:实用机器学习中文版】

2021-12-07 09:58:12  阅读:166  来源: 互联网

标签:采样 21 变换 car 中文版 数值 2.3 数据 图片


数据变换

在获取了原始数据,经历了数据清洗的步骤后,我们又应该怎么做呢?本节课从数值、图片、视频、文本四个角度出发,介绍了数据变化。
出处:https://www.bilibili.com/video/BV1pQ4y167ej
参考:https://www.bilibili.com/read/cv13533854?from=note

一、思维导图
在这里插入图片描述
二、数值变换
处理过程中,要保证数据质量、大小,考虑具体使用什么格式(每个单独的文件or文件夹)读取,实现数据的正常化(Normalization)。
(1)数据放置在一个合理的区间。把一个列里面的数值的最小值与最大值都限定到一个固定区间内,所有的元素只通过线性变化出来,防止数据过大过小。
机器学习对于数据大小很敏感,过大过小的数据模型可能会认为很重要,最终导致结果不准确。
在这里插入图片描述
(2)每一列的特征均值变成0,方差变成1。
在这里插入图片描述
(3)归一化处理,把一列的数据换成在[-1, 1]之间。
在这里插入图片描述
(4)对数值都是大于0,且数值变换比较大可以试一下log。log上的加减等于原始数据的乘除,可以计算将基于百分比。
在这里插入图片描述
三、图片变换
1.问题
存储问题——占用内存过大
2.解决方案
(1)修改图片尺寸
机器学习对低分辨率的图片不在意,可以裁剪图片背景、或者抠图减小尺寸。
(2)压缩图片
图片的质量还是图片的大小需要权衡。图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降。
四、视频变换
1.问题
(1)存储的大小
(2)下载的速度
(2)处理的质量
2.解决方案
(1)采样关键帧
对于视频的感兴趣的部分,进行切割处理(利用GPU采样),占用内存少一点。
(2)直接转换为关键图片
五、文本变换
1.词根化或者语法化
把一个词变成常见的形式 。比如,am,is,are–>be car,cars,car’s,cars’–>car
2.词元化
机器学习算法中最小的单元。
(1)对于英文词,可以word.split(’ ')
(2)对于词组切割子词, word.split(‘a new gpu!’)–>“a”,“new”,“gp”,"##u","!"
目标是把文本处理为小的单元。

标签:采样,21,变换,car,中文版,数值,2.3,数据,图片
来源: https://blog.csdn.net/weixin_43937790/article/details/121749898

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有