ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

使用 Python 的 Amazon Web Scraper

2022-09-10 02:01:53  阅读:254  来源: 互联网

标签:Web Python 抓取 标题 进口 Amazon 网络 CSV 数据


使用 Python 的 Amazon Web Scraper

Photo by 马吕斯表 on 不飞溅

介绍

网络抓取是任何数据科学家在他们的工具箱中拥有的一项重要技能。 网络抓取可用于收集有关待售产品、用户帖子、图像以及几乎任何其他在网络上有用的数据 .

网络抓取(或数据抓取)是一种用于从互联网收集内容和数据的技术。这些数据通常保存在本地文件中,以便可以根据需要对其进行操作和分析。如果您曾经将网站上的内容复制并粘贴到 Excel 电子表格中,这本质上就是网络抓取,但规模非常小。

对于网络抓取,需要考虑几个不同的库,包括:

  • 美丽的汤
  • 要求
  • 刮擦

在这个例子中,我们将使用 Beautiful Soup。

概括

  1. 导入库
  2. 用户代理
  3. 检查网页
  4. 创建 CSV 文件
  5. 结论

1.导入库

首先,我们将导入所需的库。

**从** BS4 **进口** 美丽汤  
 **进口** 要求  
 **进口** 时间  
 **进口** 约会时间  
 **进口** smtplib

2. 用户代理

复制并粘贴我们要废弃的网站的链接。然后,我们从计算机中获取“标题”,即“用户代理”,通过 这里 .

 网址 **=** 'https://www.amazon.com/Funny-Data-Systems-Business-Analyst/dp/B07FNW9FGJ/ref=sr_1_3?dchild=1&keywords=data%2Banalyst%2Btshirt&qid=1626655184&sr=8-3&customId=B0752XJYNL&th=1' 标题 **=** {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate" , "接受":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "升级不安全请求":"1"} 页 **=** 要求 **.** 获取(网址,标题 **=** 标题)

3.检查网页

现在我们开始实际使用 Beautiful Soup 库。

 汤1 **=** 美丽汤(页 **.** 内容,“html.parser”)  
 汤2 **=** 美丽汤(汤1 **.** 美化(),“html.parser”)  
 标题 **=** 汤2 **.** 找到(身份证 **=** '产品标题') **.** 获取文本()  
 价格 **=** 汤2 **.** 找到(身份证 **=** 'priceblock_ourprice') **.** 获取文本()  
  
 打印(标题)  
 打印(价格)

我们得到的输出是:

 有趣的得到数据 MIS 数据系统业务分析师 T 恤  
                    
  
 16.99 美元

4. 创建 CSV 文件

下一步是为输出创建时间戳以跟踪收集数据的时间。

**进口** 约会时间  
 今天 **=** 约会时间 **.** 日期 **.** 今天()  
  
 打印(今天)

我们将数据附加到 cs 五。

**和** open('AmazonWebScraperDataset.csv', 'a+', 换行 **=** '', 编码 **=** 'UTF8') **作为** F:  
 作家 **=** CSV **.** 作家(女)  
 作家 **.** 写手(数据)

现在我们可以可视化我们抓取的数据。

**进口** 熊猫 **作为** PD  
  
 df **=** PD **.** read_csv(r'C:\Users\Alysson\AmazonWebScraperDataset.csv')  
  
 打印(df)

5. 结论

这是我们可以用来在互联网上废弃数据的方法之一。我希望这很清楚。一个好的数据科学家必须知道如何使用上面提到的各种方法。完整代码可以访问 这里 .

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/23550/25301001

标签:Web,Python,抓取,标题,进口,Amazon,网络,CSV,数据
来源: https://www.cnblogs.com/amboke/p/16675879.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有