ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Golang 网络爬虫框架gocolly/colly 四

2021-05-01 21:52:14  阅读:203  来源: 互联网

标签:Set cn err gocolly Golang Headers sse com colly


爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、土豆、校内网、web版qq、网页邮箱等等也都爬过;那时候先用C#写demo,项目是C++的,所以还要转换成托管C++的代码。第一阶段的主要心得是cookie管理,比较难搞的cookie就借助于webbrowser控件。

      第二阶段是13年左右,做的是金融数据分析类软件和网络机器人,爬虫编程语言依然借助于C# ,发包收包全靠HttpWebRequest和HttpWebResponse,cookie管理靠CookieContainer,HTML分析靠HtmlAgilityPack,验证码识别靠自己预处理封装过的tesseract,协议分析靠fiddler,元素选择靠浏览器调试器,这套功夫在手基本可以畅游网络,实现的机器人随意游走于博客、微博,自动留言、发帖、评论;各大金融网站、上交所、深交所、巨潮网络、互动平台等等数据任爬。

      第三阶段就是现在了。四年多过去了,重新学习审视爬虫技术,发现武器更强大了:go语言,goquery,colly,chromedp,webloop等,强大的语言及工具使爬虫更简单、更高效。

      多年的爬虫经验总结了开头那句话。已知的爬虫手段无外乎三大类:一,分析HTTP协议,构造请求;二,利用浏览器控件,获取cookie、页面元素、调用js脚本等;phantomjs、webloop属于此类;第三类是直接操作浏览器,chromedp属于此类;微软还提供了操纵ie浏览器的com接口,很早以前用C++写过,比较难用,代码写起来很恶心,需要较多的条件判断。构造请求直接快速,浏览器控件和操纵浏览器可靠安全,可以省去很多不必要的协议分析、js脚本分析,但速度慢,加载了很多无用的数据、图片等;第二、三种与第一种混用效果更佳,只要表演地越像浏览器就越安全可靠,或者干脆操纵浏览器,只要不超过服务器的人类操作阈值判定,ip基本不会被封。单ip不够用时,就设置代理来切换。

      学无止境,不断用新的武器武装自己。下面贡献一个小例子,爬取上交所的AB股股票列表,简单地show下演技。(哈哈哈)

      

       

     该页面提供了下载功能,A股的下载地址 http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1

     B股的下载地址  http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2

     拿到了这个地址就开始Visit了

1

c.Visit("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")

   UserAgent设置成了Chrome

1

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"

  发现不行,程序会报错,

2018/01/03 23:39:27 Forbidden

把这个网址直接在浏览器地址栏中打开也是不行的,会报告“Error 403: SRVE0190E: 找不到文件:/error/error_cn.jsp”

服务端做了些限制,打开fiddler看下协议

  

请求中有一大堆cookie,第一感觉是可能没有加cookie的缘故,于是利用chromedp打开页面,再调用ajax去请求,刚开始ajax没有带cookie也请求成功了,

后来发现关键在于请求头中的“Referer”,有了Referer就行了。

干脆把所有的头补全,更像浏览器些,这不会吃亏:

 

1

2

3

4

5

6

7

8

9

c.OnRequest(func(r *colly.Request) {

    r.Headers.Set("Host", "query.sse.com.cn")

    r.Headers.Set("Connection", "keep-alive")

    r.Headers.Set("Accept", "*/*")

    r.Headers.Set("Origin", "http://www.sse.com.cn")

    r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误

    r.Headers.Set("Accept-Encoding", "gzip, deflate")

    r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")

})

  

附上完整的代码,将股票保存到CSV文件

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

package sse

 

import (

    "encoding/csv"

    "os"

    "strings"

 

    "github.com/gocolly/colly"

)

 

/*GetStockListA 获取上海证券交易所股票列表

A股

*/

func GetStockListA(saveFile string) (err error) {

 

    stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")

    if err != nil {

        return err

    }

 

    err = saveStockList2CSV(stocks, saveFile)

    return

}

 

/*GetStockListB 获取上海证券交易所股票列表

B股

*/

func GetStockListB(saveFile string) (err error) {

    stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2")

    if err != nil {

        return err

    }

    err = saveStockList2CSV(stocks, saveFile)

    return

}

func saveStockList2CSV(stockList string, file string) (err error) {

 

    vals := strings.Split(stockList, "\n")

 

    f, err := os.Create(file)

    if err != nil {

        return err

    }

    defer f.Close()

    fw := csv.NewWriter(f)

 

    for _, row := range vals {

 

        rSplits := strings.Split(row, "\t")

 

        rSplitsRslt := make([]string, 0)

        for _, sp := range rSplits {

            trimSp := strings.Trim(sp, " ")

            if len(trimSp) > 0 {

                rSplitsRslt = append(rSplitsRslt, trimSp)

            }

        }

        if len(rSplitsRslt) > 0 {

            err = fw.Write(rSplitsRslt)

            if err != nil {

                return err

            }

        }

    }

    fw.Flush()

 

    return

}

 

func getStockList(url string) (stockList string, err error) {

 

    //GET http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1 HTTP/1.1

    //Host: query.sse.com.cn

    //Connection: keep-alive

    //Accept: */*

    //Origin: http://www.sse.com.cn

    //User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36

    //Referer: http://www.sse.com.cn/assortment/stock/list/share/

    //Accept-Encoding: gzip, deflate

    //Accept-Language: zh-CN,zh;q=0.9`

 

    c := colly.NewCollector()

 

    c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"

    c.OnRequest(func(r *colly.Request) {

        r.Headers.Set("Host", "query.sse.com.cn")

        r.Headers.Set("Connection", "keep-alive")

        r.Headers.Set("Accept", "*/*")

        r.Headers.Set("Origin", "http://www.sse.com.cn")

        r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误

        r.Headers.Set("Accept-Encoding", "gzip, deflate")

        r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")

    })

    c.OnResponse(func(resp *colly.Response) {

        stockList = string(resp.Body)

    })

 

    c.OnError(func(resp *colly.Response, errHttp error) {

        err = errHttp

    })

 

    err = c.Visit(url)

 

    return

}

  

 

 

1

2

3

4

5

6

7

8

9

10

11

12

13

func main() {

 

    var err error

    err = sse.GetStockListA("e:\\sseA.csv")

    if err != nil {

        log.Fatal(err)

    }

    err = sse.GetStockListB("e:\\sseB.csv")

    if err != nil {

        log.Fatal(err)

    }

 

}

  


标签:Set,cn,err,gocolly,Golang,Headers,sse,com,colly
来源: https://blog.51cto.com/u_15187242/2749307

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有