爬虫基础（案例：北京新发地信息爬取）

2021-10-30 16:58:01 阅读：216 来源： 互联网

标签：发地 url res self 爬虫爬取 file csv data

爬取思路：
1、找到蔬菜信息页面，然后进行翻页，发现页面的url没有发生改变，所有蔬菜信息是通过接口数据动态获取的，是动态数据。
2、进行chrom调试抓包，找到每个页面信息所在的url
3、发现每个信息的url都相同，post请求，form data不同。
4、通过修改提交的data来获取不同页面的蔬菜信息。

import requests
import json
import csv

file = open("C://Users//孤桥//Desktop//项目//PekingXFD//vegetable.csv","a",newline='')
file_csv = csv.writer(file)
file_csv.writerow(["ClassFication","Name","low-price","mean-price","high-price","release-time"])

class spyderXFD():
    def __init__(self):
        self.url ="http://www.xinfadi.com.cn/getPriceData.html"
        self.headers = {
            "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
            }
        self.data = {
            "limit": 20,
            "current":"",
            "pubDateStartTime":"", 
            "pubDateEndTime": "",
            "prodPcatid": "",
            "prodCatid": "",
            "prodName": ""
            }
    def post_url(self):
        res = requests.post(self.url,data =self.data,headers = self.headers)
        res_dic = json.loads(res.text)
        for i in res_dic["list"]:
            file_csv.writerow([i["prodCat"],i["prodName"],i["lowPrice"],i["avgPrice"],i["highPrice"],i["pubDate"]])
    def run(self,x): 
        self.data["current"] = x#获取第x页数据
        self.post_url()


train_XFD = spyderXFD()

for i in range(10):
    if(i==0):    
        train_XFD.run("")
    else:
        train_XFD.run(i)
    file_csv.writerow("")
file.close()

标签：发地,url,res,self,爬虫,爬取,file,csv,data
来源： https://blog.csdn.net/qq_44805233/article/details/121053279

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

爬虫基础（案例：北京新发地信息爬取）