题记

之前对爬虫只是概念了解多,实战少。知道网上流行的有号称免费的八爪鱼等(实际导出数据收费)。
大致知道,所有爬虫要实现爬取网页信息,需要定义正则匹配规则。
这次,项目紧急,才知道“书到用时方恨少”,有限的理论知识是远远不够的。
首先,Google搜索了不同语言实现的开源爬虫,C++、Java、Python、Ruby等。由于C++写的过于庞大,Java代码不太熟。
Python虽也不熟悉,但看起来不费劲,并且,Python在爬虫领域有很大优势,值得深入研究。
其次,对比选型Python爬虫开源实现,主要包括:Scrapy、PyRailgun等。
最后,定选型。对比国内写的PyRailgun和Scrapy,不论从易用性、Git关注度、广泛性。Scrapy都有明显优势,研究的人非常多。
因此,本文从Scrapy爬取makepolo企业


收藏 打印