Linux|系统管理|WEB开发

关注Linux,系统管理,WEB开发以及开源世界

Core Python Programming 2nd Chapter 20 Exercise

| Comments

这一章主要是网络客户端编程,讨论了包括SMTP,POP3,FTP,URL在内的一些编程技术。Python针对网络编程有一个非常强大的模块,那就是Twisted,这个工具太强大,以至于有专门的书籍来讲述如何使用。

后面的习题大部分都是写一些代码片段,比如获取一个页面,连接一个FTP服务器,连接你的邮箱。

我选取了修改这张描述的网页抓取代码修改作为练习。主要是做了两个工作:

  • 用新的一些模块替换即将过期的模块,比如HTMLParser
  • 加入了多线程功能,使得当网站很大的时候,下载速度加快了很多。

不过加入这个多线程后,暂时有一个问题我不能解决。就是如何保证线程是在所有的页面都下载完后才全退出。 目前的做法是一个无线循环,除非你杀死,否则不会退出。 另外,对于图片等资源目前还无法处理,我打算专门写一个脚本来镜像某一个网站的图片资源,嘿嘿,用处嘛,你懂的。 下面是简陋的代码

File /Users/wgzhao/Sites/blog.wgzhao.com/source/downloads/code/cpp2nd/e20.py could not be found

Comments