标签:csv appName Python APP 爬虫 url authorName apkUrl app
应用宝app数据采集
工具准备
数据来源: 应用宝
开发环境:win10、python3.7
开发工具:pycharm、Chrome
项目思路解析
明确需要采集的数据:
- app的下载地址
- app的下载次数
- app的名字
- app的开发公司
提取到页面的分类标签
获取到a标签的href属性
用于之后拼接动态地址
找到动态加载的app数据加载地址
url的值是每个分类标签的值
https://sj.qq.com/myapp/cate/appList.htm?orgame=1&categoryId=-10&pageSize=20&pageContext=undefined
拼接新的url值发送请求
简易源码分析
import requests # 工具包发送网络请求
from lxml import etree # 转换成对象
import csv # 处理表格数据
url = "https://sj.qq.com/myapp/category.htm?orgame=1"
response = requests.get(url)
html_data = etree.HTML(response.text)
li_list = html_data.xpath('//ul[@data-modname="cates"][position()>1]/a/@href')
del(li_list[-1])
for url1 in li_list:
for i in range(10):
new_url = "https://sj.qq.com/myapp/cate/appList.htm" + url1 + "&pageSize=20&pageContext={}".format(i*20)
res = requests.get(new_url).json()
if res["count"] == 0:
break
with open("应用宝.csv", "a", newline="", encoding="utf-8")as f:
csv_data = csv.DictWriter(f, fieldnames=["appName", 'authorName', "apkUrl"])
for info in res["obj"]:
appName = info['appName']
authorName = info['authorName']
apkUrl = info['apkUrl']
print({"appName": appName, "authorName": authorName, "apkUrl": apkUrl})
csv_data.writerow({"appName": appName, "authorName": authorName, "apkUrl": apkUrl})
标签:csv,appName,Python,APP,爬虫,url,authorName,apkUrl,app 来源: https://www.cnblogs.com/ai19970205/p/15311809.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。