Display:
Sorted by Most Recent
-
06 DEC 06
在 Linux 上构建 Web spider SAVE
PEOPLE
Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。本文介绍了如何为 Linux 构建 spider 和 scraper,从而实现在 Web 站点上爬行并搜集信息。TAGS
-
24 NOV 06
Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻 SAVE
PEOPLE
机器人对HTTP 1.1支持到HTTP压缩还是有一定难度的,如果来自某个IP有大量的MSIE 访问,却是只支持HTTP 1.0请求或者支持HTTP 1.1但又不支持压缩那个就有可能是伪装spam了。TAGS