Open
Description
2017年有几个比较明确的目标。主要是针对框架本身的。
-
监控
爬虫下载效率如何?多少成功了,多少失败了,有没有被封禁?
对方网站是不是改版了?有多少规则成功了,多少失效了?
这块希望做一个简单的页面,不涉及到太多交互,但是够用。 -
代理
代理如何上线,如何下线,甚至如何自动获取?
这个建立在爬虫状态的分析上的,也是一个重点。 -
解析
XPath这块支持还不全,包括last(),[@Class=''][1]这样的都不支持,后面会完善语法的支持。
之前想的很多的分布式和一站化平台,现在看来第一个场景不多,第二个已经有人实现了。所以会放到更后面。