ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

用HtmlParser 实现asp.net采集网分析网页,可直接用作采集

2021-04-25 19:03:02  阅读:236  来源: 互联网

标签:asp 静态 Text CDN 站点 采集 HtmlParser Azure


【实例简介】

主要实现了通过HtmlParser 实现网页源文件的抓取以及分析,示例中包含了常用的几种操作,更多内容须大家一起完善,虽然本项目是用winform编写,但是其中的代码可以直接copy到web项目中 使用(已做过测试)。

asp.net采集网分析网页用它即可。

另注:需要添加这些引用(项目文件中已包含Winista.HtmlParser.dll的引用)

using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Filters;
using Winista.Text.HtmlParser.Util;
using Winista.Text.HtmlParser.Tags;

文件:590m.com/f/25127180-493827991-e3792a(访问密码:551685)

【实例截图】

在这里插入图片描述

【核心代码】

string strHTML = GetUrl(this.textBox1.Text);
this.textBox2.Text = “”;
//this.textBox2.Text = strHTML;
string strTMP = “”;
Parser parser = Parser.CreateParser(strHTML, “gb2312”);
AndFilter andimg = new AndFilter();
andimg.Predicates = new NodeFilter[] { new NodeClassFilter(typeof(ImageTag)) };
NodeList imglist = parser.ExtractAllNodesThatMatch(andimg);
if (imglist.Count > 0)
{
for (int j = 0; j < imglist.Count; j )
{
ImageTag img = (ImageTag)imglist[j];
strTMP = (img.GetAttribute(“src”)).ToString() img.ToHtml() “\r\n”;
}
}
this.textBox2.Text = strTMP;

以下内容无关:

-------------------------------------------分割线---------------------------------------------

一,引言
最近刚刚接触 Edi.Wang 的 Moonglade 博客系统,正好这套系统中有使用到 Azure CND (内容分发网络),那就学习学习。那么今天就尝试利用 Azure CDN 来发布静态网站。当然了,我们可以选择Azure Storage Account 作为我们演示的静态网站的载体。

什么是 Azure CDN?

Azure CDN(内容分发网络):CDN 是服务器的分布式网络,可以有效的将Web内容传递给我们,同时CDN 可以将缓存的内容存储在记录我们比较近的POP(入网点位置)位置的边缘服务器,以便最大成都降低网络延迟。Azure 内容分发网络 (CDN) 可帮助减少延迟并提升高带宽内容的性能。

二,正文
1,部署静态网站
登陆到 Azure Portal 上,点击 “create a resource”,搜索 “Storage”,并且创建

输入相关参数

Resource group:“Web_Test_CDN_RG”(创建新的资源组)

Storage account name:“cdnstaticwebstorage”

Region:“East Asia”

performance:Standard

Redundancy:“Locally-redundant storage(LRS)”

点击 “Next:Advanced>”

其他选项卡页直接选择默认就可以了,等待验证完成后,点击 “Create”

创建完成后,点击 “Go to resource” 跳转到该资源

回到我们创建的Storage Account 页面后,选择 “Settings=》Static website”,开启静态站点

接下来,我们需要输入静态站点的相关参数

Index document name(静态站点的首页):“index.html”

Error document name(静态站点的错误页面):“404.html”

检查完输入的参数后,点击 “Save” 进行保存

创建完成后,我们可以看到 Azure 已经创建了我们静态站点寄存的 容器 “$web”

转到 “Blob service=》Containers”,Azure 已经自动为我们创建了两个容器 “logs”,“web”

选择 “Settings=》Properties” 找到静态站点的url 复制出来

我们尝试通过 web url 访问我们静态站点:https://cdnstaticwebstorage.z7.web.core.windows.net/

可以看到当前是没有任何请求的内容,那是因我们的静态站点是没有任何内容的

上传我们的演示静态页面

重新访问静态网站的 url

ok,静态网站部署完成

2,配置 Azure CDN 加速
继续在 Azure Portal 首页,搜索 “CDN”,并且创建

输入相关参数

Resource group:“Web_Test_CDN_RG”

Name:“cnbateblogweb-staticwebsite-cdn”

Region:“Global”

Pricing tier:“Standard Microsoft”

点击 “Review + create”

等待校验完成后,点击 “Create” 进行创建

创建完成后,跳转到 “cnbateblogweb-staticwebsite-cdn” 页面,点击 “+ Endpoint” 创建 CDN 的终结点

输入 Endpoint 的相关信息

Name:“cnbateblogweb-staticwebsite”

Orign type 选择:“Storage static website”

***这里注意一下,Origin type 是支持多种的,我们也可以选择 “Custom orgin”,然后把 Storage static website 的 URL 贴到 Origin hostname 和 Origin host header 这个位置上

点击 “Add” 添加操作

注意,终结点的设置可能需要差不多10分钟才会生效,当生效之后,我们复制当前CDN 终结点 URL在浏览器中尝试访问

访问后展示的效果

Bingo!!!成功

标签:asp,静态,Text,CDN,站点,采集,HtmlParser,Azure
来源: https://blog.csdn.net/weixin_43322764/article/details/116135765

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有