当前位置导航：炫浪网>>网络学院>>编程开发>>Visual C#教程

C#语言的构造一个爬虫程序

　　C#特别适合于构造蜘蛛程序，这是因为它已经内置了HTTP访问和多线程的能力，而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题：

　　⑴ HTML分析：需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。

　　⑵ 页面处理：需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘，或者进一步分析处理。

　　⑶ 多线程：只有拥有多线程能力，蜘蛛程序才能真正做到高效。

　　⑷ 确定何时完成：不要小看这个问题，确定任务是否已经完成并不简单，尤其是在多线程环境下。

　　一、HTML解析

　　本文提供的HTML解析器由ParseHTML类实现，使用非常方便：首先创建该类的一个实例，然后将它的Source属性设置为要解析的HTML文档：

以下是引用片段：
ParseHTML parse = new ParseHTML();
　　parse.Source = "Hello World ";

　　接下来就可以利用循环来检查HTML文档包含的所有文本和标记。通常，检查过程可以从一个测试Eof方法的while循环开始：

以下是引用片段：
while(!parse.Eof())
　　{
　　char ch = parse.Parse();

　　Parse方法将返回HTML文档包含的字符--它返回的内容只包含那些非HTML标记的字符，如果遇到了HTML标记，Parse方法将返回0值，表示现在遇到了一个HTML标记。遇到一个标记之后，我们可以用GetTag()方法来处理它。

以下是引用片段：
　if(ch==0)
　　{
　　HTMLTag tag = parse.GetTag();
　　}

　　一般地，蜘蛛程序最重要的任务之一就是找出各个HREF属性，这可以借助C#的索引功能完成。例如，下面的代码将提取出HREF属性的值(如果存在的话)。

以下是引用片段：
Attribute href = tag["HREF"];
　　string link = href.Value;

　　获得Attribute对象之后，通过Attribute.Value可以得到该属性的值。

共5页首页上一页 1 2 3 4 5 下一页尾页跳转到页

上一篇：C#制作的更换壁纸程序下一篇：C#中正则表达式进行忽略大小写的字符串替换

相关内容

[更多]

赞助商链接

【注意】炫浪网版权所有,未经书面授权禁止模仿风格或建立镜像网站.如有违反,追究法律责任.
【声明】本网站部分内容属社区网友发布，本网站仅提供网友交流平台，但有权在本网站范围内引用、发布、
转载来自社区网友发布的内容。网友发布内容纯属个人行为，与本网站立场无关。本网站对于网友发布的
内容所引发的版权、署名权的异议及纠纷，不承担任何责任。粤ICP备11064832号公安备案编号：4453023010550