ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

C#基于.Net-HtmlAgilityPack库的爬虫初体验

2022-06-09 16:02:35  阅读:165  来源: 互联网

标签:初体验 webData aNodes C# HtmlAgilityPack 爬虫 li var ChildNodes


讲故事

前几天有点空闲时间,在github上看一些.Net的开源库,看到了关于爬虫相关的库,于是加入了一个QQ群,看到里面各位大佬讨论的是爬的越好,进去越快,于是我自己也想做一个爬虫相关的东西,但是爬虫是个危险的东西,自己也不敢随便爬别人的网页,于是找到了一个朋友,拿他的网站来进行练习!

图片

练习

对于.Net来说。爬虫相关的库还是蛮多的,于是我选择了HtmlAgilityPack来做一个爬虫练习!

当然什么是爬虫呢?

简而言之:

爬虫的基本流程是:下载数据(发送 HTTP 请求并获得返回的 resonse) -> 解析返回的文本(可以是 text、json、html) -> 存储解析到的数据

学习一个框架,我们肯定是从它的官方文档开始, 地址:https://html-agility-pack.net/

Html解析器
  • From File(从文件加载 HTML 文档)
  • From String (从指定的字符串加载 HTML 文档)
  • From Web (从 Internet 资源中获取 HTML 文档)
  • From Browser(从 WebBrowser 获取 HTML 文档)

于是我选择了From Web 来解析我们的html文档, 代码如下:

            var html = @"https://dotnet9.com/";

            HtmlWeb web = new HtmlWeb();

            var htmlDoc = web.Load(html);

既然Html文档被我们获取到了,我们肯定就要对Html内容进行一个解析了。

Html选择器
  • SelectNodes()(选择与 XPath 表达式匹配的节点列表)
  • SelectSingleNode(String)(选择与 XPath 表达式匹配的第一个 XmlNode)

打开网站,找到我们想要爬取的网站,今天我们就来爬该网站的特色专辑下的所有文章。

图片

打开调试模式,我们可以看到特色专辑是一个a标签,我们再来查看该标签的上一级元素是li,li上一级元素是ui,那我们就可以来获取该节点

图片

var allNodes = htmlDoc.DocumentNode.SelectNodes("//ul[@id='starlist']//li[@class='menu']");

当然我们也可以使用Xpath来获取节点内容

   var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")

然后我们再来获取该特色专辑下的子菜单的的网址,经发现,a标签的href 属性规定链接的目标地址,那我们第一步肯定是要获取该子菜单下的所有链接!

图片

      var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")
                .ChildNodes.Where(o => o.Name=="li");

            List<string> lstUrl = new List<string>();
            foreach (var item in singNodes)
            {
                var aNodes = item.ChildNodes.Where(o => o.Name == "a").First();
                string url = aNodes.Attributes["href"].Value;
                lstUrl.Add(url);
            }

随意打开一个子菜单,可以看到相关的文章标题描述以及图片等!这就是我们想要的内容了!分析方法还是和刚才一样!代码如下

图片

   foreach (var item in lstUrl)
            {
                htmlDoc = web.Load("https://dotnet9.com"+item);
                var resultNodes = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='pics-list-box whitebg']//ul")
                    .ChildNodes.Where(o=>o.Name=="li");
                foreach (var itemResultNodes in resultNodes)
                {
                    WebData webData = new WebData();
                    var aNodes = itemResultNodes.ChildNodes.Where(o => o.Name == "a").First();
                    webData.Url= aNodes.Attributes["href"].Value;
                    webData.Title = aNodes.ChildNodes["h2"].InnerText;
                    webData.Desc = aNodes.ChildNodes["p"].InnerText;
                    webData.Img = aNodes.ChildNodes["i"].ChildNodes["img"].Attributes["src"].Value;
                    Console.WriteLine($"标题:{webData.Title}-描述:{webData.Desc}-Img:{webData.Img}-{webData.Url}\r\n");
                }
            }

这样我们就能够获取到我们想要的东西了!运行一下代码,我们的第一个爬虫就成功了。

图片

总结

即兴发挥写了第一个爬虫,大家要是有更好的方案,欢迎交流,独乐乐不如众乐乐,本篇就说到这里啦,希望对您有帮助。

最后声明一下: 总的来说,技术本无罪,但是你利用技术爬取别人隐私、商业数据,那你就是蔑视法律了,请各位守好各自的底线!

 

标签:初体验,webData,aNodes,C#,HtmlAgilityPack,爬虫,li,var,ChildNodes
来源: https://www.cnblogs.com/qpjlove/p/16359630.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有