爬虫---08.selenium

2021-11-02 23:03:57 阅读：170 来源： 互联网

标签：bro 浏览器 chrome 08 selenium options --- page

概念基于浏览器自动化的模块
自动化可以通过代码指定一系列的行为动作然后将其作用到浏览器中
pip install selenium
selenium和爬虫之间的关联
- 1.便捷的捕获到任意形式动态加载的数据（可见即可得）
- 2.实现模拟登陆

简单实例

注意：网页里可以直接复制xpath路径在代码部分右键

        from selenium import webdriver
        from time import sleep

        # 基于浏览器的驱动程序实例化一个浏览器对象

        bro = webdriver.Chrome(executable_path='./chromedriver')
        # 对目的网站发起请求
        bro.get('http://www.jd.com/')
        # 标签定位
        search_text = bro.find_element_by_xpath('//*[@id="key"]')
        search_text.send_keys('iphoneX')        # 向标签中录入数据

        btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
        btn.click()
        sleep(2)
        # 在搜索结果页面进行滚轮向下滑动的操作(执行JS操作：js注入)
        bro.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        
        -------------------------------------------------------------------------------------------------------------

        from selenium import webdriver
        from time import sleep
        from lxml import etree

        url = "http://scxk.nmpa.gov.cn:81/xk/"

        bro = webdriver.Chrome(executable_path='./chromedriver.exe')
        bro.get(url)
        page_text_list = []         # 每一页的页面源码数据
        sleep(1)

        # 捕获到当前页面对应的页面源码数据
        # 当前页面全部加载完毕后对应的所有数据
        page_text = bro.page_source
        page_text_list.append(page_text)

        # 点击下一页

        for i in range(2):
            next_page = bro.find_element_by_xpath('//*[@id="pageIto_next"]')
            next_page.click()
            sleep(1)
            page_text_list.append(bro.page_source)

        tree = etree.HTML(page_text)
        li_lst = tree.xpath('//*[@id="gzlist"]/li')
        print(li_lst)

        for li in li_lst:
            name = li.xpath('./dl/@title')[0]
            print(name)
        sleep(2)
        bro.quit()

selenium的弊端，效率低
动作链ActionChains 指的是一系列连续的动作(滑动动作)
selenium规避检测有的网站会检测请求是否为selenium发起, 如果是的话则该次请求失败规避检测的方法是使用浏览器接管技术
- 这里的步骤是原始的下边部分是另外看到的都没尝试过
  - 进入cmd 输入命令
  - chrome.exe --remote-debugging-port=9222 --user-data-dir='C:\selenum\AutomationProfile'
  - 对于-remote-debugging-port值可以指定任何打开的端口
  - 对于-usesr-data-dir标记指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件
  - 还有不要忘了在环境变量中PATH里将chrome的路径添加进去
  - 此时会打开一个浏览器页面，我们数据百度网址把它当成一个已存在的浏览器
- 步骤
  - 1.必须将你电脑中安装的谷歌浏览器的驱动程序所在目录找到。且将目录添加到环境变量中。
  - 2.打开cmd 输入上边的指令
    chrome.exe --remote-debugging-port=9222 --user-data-dir='C:\selenum\AutomationProfile'(后边跟的是一个空文件夹目录)
    指定执行结束后会打开你本机安装好的谷歌浏览器
  - 3.执行如下代码可以使用下边代码接管步骤2打开的真实的浏览器
```
          from selenium import webdriver
          from selenium.webdriver.chrome.options import Options
          chrome_options = Options()
          chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
          chrome_driver = 'C:\Program Files(x86)\Google\Chrome\Application\chromedriver.exe' #(本机安装好的谷歌驱动程序路径)
          driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=chrome_options)
          print(driver.title)
```

无头浏览器即无可视化界面的浏览器

谷歌无头浏览器（推荐）

phantomJs
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

                # 创建一个参数对象 用来控制chrome以无界面模式打开
                chrome_options = Options()
                chrome_options.add_argument('--headless')
                chrome_options.add_argument('--disable-gpu')

                # 创建浏览器对象
                browser = webdriver.Chrome(executable_path='./chromedriver', chrome_options=chrome_options)

                # 上网
                url = 'http://www.baidu.com'
                browser.get(url)
                time.sleep(3)
                # 截图
                browser.save_screenshot('baidu.png')
                print(browser.page_source)
                browser.quit()

标签：bro,浏览器,chrome,08,selenium,options,---,page
来源： https://www.cnblogs.com/FGdeHB/p/15494900.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

爬虫---08.selenium