ICode9

精准搜索请尝试: 精确搜索
  • scrapy-redis分布式爬取 读取redis数据库中内容存储到mongo2021-12-24 15:04:08

    import json import pymongo from redis import StrictRedis rediscli=StrictRedis(host='192.168.6.223',port=6379,db=0,decode_responses=True) client=pymongo.MongoClient('mongoip',27017) db=client.xixian collention=db.demo while True:

  • 关于爬取b站播放排行榜的爬虫2021-12-24 12:05:25

    期末作业搞个爬虫给大家看看,就是大家最爱的b站的播放排行 操作如下: 1. 页面解析 首先打开要爬取的网站:https://www.bilibili.com/v/popular/rank/all 然后右击空白页选择检查就能看到如下界面然后点击这个箭头所指图标 2. 点击箭头所指图标 然后点击需要爬取的内容就可以看到标

  • python--爬取CSDN作者信息及文章2021-12-23 20:34:27

            本次项目爬取的是CSDN上作者的数据信息以及作者的文章,本次项目主要用到parsel、os、re、xlwt、requests、pdfkit等库。此次项目写了两个方面,分别为:爬取用户数据,爬取作者文章并且转化为pdf。         用户数据模块主要包括:原创数量,周排名,总排名,访问数,用户等级,积

  • 【python爬虫】动态图片爬取2021-12-23 18:33:00

    爬取网站上的动态图片  代码 import os from re import I import urllib import requests from lxml import html #定位用的lxml 还有其他如beautifulsoup xpath import time from requests.packages.urllib3.exceptions import InsecureRequestWarning requests.packages.ur

  • 关于Python爬取招聘网站信息2021-12-23 18:03:52

    一、什么是爬虫? 简单一句话就是代替人去模拟浏览器进行网页操作,而这里我们需要的就是模拟打开网页,去获取我们需要的数据并储存在数据库中。 二、爬取代码 代码如下(实例): #-*- codeing = utf-8 -*- #@time : 2021/12/2 22:53 #@Author : 19310220204 #@File : spider test.py #@So

  • 爬虫爬取文件(图片,视频)2021-12-23 16:01:37

    url:后加目标的链接 path:后加保存的路径   

  • selenium+chormdriver+python 实现淘宝的信息爬取2021-12-22 22:00:01

            因为我是个爬虫新手,所以对爬虫还不熟练,这几天想着自己做一个淘宝信息的自动爬取,一开始感觉比较简单,但做到了登录界面,发现一直被网站检测出来,不能滑动滑块。接下来从网上翻遍了资料,整理了以下自己的代码,完成了这个艰难的工程(嘻嘻,对我来说)下面先把代码放上来,想做

  • 爬取微博热搜榜 - 李白之死 - Python2021-12-20 16:35:20

    最近有关中国传统文化的内容频频登上热搜,就比如最近的李白之死,今天换一种方式爬取,以前爬取微博评论是网址里一大串参数,今天把参数提出来做一个字典,然后请求的时候再构造url。 1 """ 2 就爬取李白之死的评论 3 """ 4 import requests 5 import re 6 import openpyxl as

  • 【爬虫】手刃豆瓣近十多年电影排行数据!2021-12-20 01:34:20

    源码见我github仓库:https://github.com/xzajyjs/Python_FilmInfo_reptile 爬取豆瓣上2009-2021年共13年的年度电影排行榜数据,可全自动爬取,爬取内容如下: 电影名称 电影分类 电影上映日期 电影票房 已知问题:部分年份的个别电影的票房信息会有少许错误 源码中默认是爬取2009-202

  • 分享自用的php爬取网页,读取、写入txt语句2021-12-19 12:31:52

    emmm,今天来分享自己常用的php语句,关于txt文本的读取和写入! 老鸟直接飞过 首先来发读取的代码 $file_path = "content.txt"; //判断是否有这个文件 if(file_exists($file_path)){ $fp = fopen($file_path,"r"); $str = fread($fp,filesize($file_path));//指定读取大小,这里把

  • Python 爬取朋友圈最新方法!!2021-12-18 14:04:28

        在几年前,互联网上曾经出现过一款生成朋友圈相册的产品。但是它的流程说起来很不互联网: 首先,需要添加指定的微信号,并且给这个微信号查看自己朋友圈的权限; 然后,等待几个小时; 最后,得到一个链接,里面用相册模板显示了自己的朋友圈内容; 最开始听起来觉得很牛逼,心想这款

  • python批量爬取美女图片2021-12-18 10:06:21

    不废话上代码 import urllib.request from bs4 import BeautifulSoup import os def Download(url, picAlt, name): path = 'D:\\tupian\\' + picAlt + '\\' # 判断系统是否存在该路径,不存在则创建 if not os.path.exists(path): os.makedirs(path)

  • 基于Selenium爬取动态网页的信息2021-12-17 21:03:25

    一、Selenium介绍与配置 1、Selenium简介 Selenium 是ThoughtWorks专门为Web应用程序编写的一个验收测试工具。Selenium测试直接运行在浏览器中,可以模拟真实用户的行为。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括:测试与浏览器

  • Scrapy爬取北京公交并保存MYSQL数据库实例2021-12-16 14:34:31

            前言就不过多赘述了,大家只要把scrapy的基本了解之后就可以完成这个项目。 一:创建scrapy项目: 打开控制台输入 scrapy startproject beibus(这个是项目名称,可以自己修改) 进入项目文件夹创建爬虫scrapy genspider (爬虫名) (域名)  查看beibus项目,如果有刚刚创

  • python爬取招聘网站信息2021-12-15 22:03:53

    毕业将近,大部分学生面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题,我们设计和实现一个爬取boss直聘,招聘网站招聘信息的爬虫。功能有:对boss直聘网站招聘信息详情进行爬取,对爬取出的详情数据进行存储,将其储存到csv表格中,以及数据分析与数据展示

  • 朋友很喜欢打篮球,我用Python爬取了1000张他喜欢的NBA球星图片2021-12-15 17:32:16

    前言 朋友快过生日了,不知道送啥礼物【绝对不是因为我抠】,想着他非常喜欢打篮球,篮球他很多个了,应该也不会缺【不会是因为篮球贵】,那我就用技术白嫖点东西送给他吧,爬虫首当其冲呀,必须安排一波,于是我的灵感来了,爬取一波他喜欢的NBA球星图片送给他,再整点活合作一张大图,那效果不就出

  • 动态网页的信息爬取2021-12-15 11:03:20

    文章目录 1、关于selenium2、网页自动化测试3、动态网页数据爬取4、爬取京东网站上的感兴趣书籍信息5、总结 1、关于selenium     1、Selenium简介:Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令

  • 爬取图片测试2021-12-14 22:32:35

    好久没有做爬虫测试,今天测试爬取网站素材上的图片,测试爬取前10页风景图片测试。 基本步骤: 1. 请求对象的定制 2. 获取网页源码 3. 分析图片的url,图片的名称 4.下载 爬取图片前做网页源码分析,进入主页https://sc.chinaz.com/ 选择高清风景图片https://sc.chinaz.com/tupian/

  • 培训了python找不到工作吗2021-12-13 16:30:01

    在编程界,Python是一种神奇的存在。有人认为,只有用Python才能优雅写代码,提高代码效率;但另一部分人恨不能把Python喷成筛子。那么,Python到底有没有用,为什么用Python找不到工作? Python到底能做什么? Python易学,编译速度又超快。因为其拥有大量第三方库,所以开发人员不必重复造轮

  • 【东南亚小语种项目】泰文文献双语标题和双语摘要爬取2021-12-12 19:00:36

    这里写自定义目录标题 0.介绍项目目标1.网站分析1.1 寻找文档的uri规律1.2 寻找html规律 2.爬取操作2.1 多线程实现访问和爬取2.2 html 处理2.3 tsv转换 3.完整代码4.结果展示 0.介绍项目目标 项目是基于东南亚小语种迁移学习所需要的数据集爬取任务,而目标选择定为小语种

  • 14-bs4基本使用---爬取菜价2021-12-12 16:02:34

    首先要安装bs4 pip install bs4 from bs4 import BeautifulSoup import requests import csv url = "http://www.maicainan.com/offer/show/id/3242.html" resp = requests.get(url) f = open("price.csv", "w") csvWriter = csv.writer(f) # 解析数

  • 12-爬取小说网实战2021-12-11 22:01:31

    我们把小说名、是否完结、男主名字、女主名字都给爬取下来 import requests import re url = "http://m.pinsuu.com/paihang/nanpindushi/" headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko)

  • 网站爬取2021-12-11 13:04:11

    把"https://www.shicimingju.com/chaxun/zuozhe/1.html"上的对应信息提取出来,保存为excel,通过代理ip和频率限制绕过网站保护。 import requestsimport reimport timeimport randomimport openpyxlfrom bs4 import BeautifulSoupdef gethtml(url): user_agent_list = [

  • 几种方式保存爬虫爬取的数据 - Python2021-12-10 15:35:32

    以美团烤肉为例,将爬取的数据进行保存。 第一种:csv。新建一个csv文档,利用字典写入器写入头,然后把爬取好的数据进行字典构造,然后将字典逐条写入到csv文档里。 1 """ 2 爬取美团烤肉 3 """ 4 import pprint 5 import csv 6 import parsel 7 import requests 8 import js

  • 用 python 爬取房价信息2021-12-09 23:02:53

           这是我们python课程要求我们制作一个项目,用python爬取结果并作数据展示。 我们使用requests的方法对房价的信息做了爬取,一下就是我们所爬取的网页  我们主要爬取的内容包括了房价的走势,上月的价格,本月的价格,和历史最高的价格和涨幅,等信息做了爬取并用matplotlib 画

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有