Skip to content

WebMagic 2017 RoadMap  #446

Open
Open
@code4craft

Description

@code4craft

2017年有几个比较明确的目标。主要是针对框架本身的。

  1. 监控

    爬虫下载效率如何?多少成功了,多少失败了,有没有被封禁?
    对方网站是不是改版了?有多少规则成功了,多少失效了?
    这块希望做一个简单的页面,不涉及到太多交互,但是够用。

  2. 代理

    代理如何上线,如何下线,甚至如何自动获取?
    这个建立在爬虫状态的分析上的,也是一个重点。

  3. 解析

    XPath这块支持还不全,包括last(),[@Class=''][1]这样的都不支持,后面会完善语法的支持。
    之前想的很多的分布式和一站化平台,现在看来第一个场景不多,第二个已经有人实现了。所以会放到更后面。

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions