分布式架构 Crawlab 的分布式架构让集群可以轻松横向扩展,利用 Redis 和 MongoDB 数据库,实现了节点的注册发现和相互通信,基于 RPC 的通信架构,避免了 IP 地址和端口的暴露。
分布式架构 Crawlab 的分布式架构让集群可以轻松横向扩展,利用 Redis 和 MongoDB 数据库,实现了节点的注册发现和相互通信,基于 RPC 的通信架构,避免了 IP 地址和端口的暴露。
爬虫集成 利用 Crawlab 自带的 SDK,可以很轻松的集成各种爬虫,例如将结果数据写入 Crawlab、界面操作 Scrapy 等,CLI 工具可以非常方便的上传操作本地爬虫,Crawlab 同时支持自动同步到各节点。
日志系统 Crawlab 有一个强大的日志系统,任务执行引擎将捕捉标准输出内容,并通过中间件将日志数据自动写入 MongoDB 数据库,实现了分布式日志集中管理,并且通过正则表达式匹配监测日志异常。
Crawlab 紧紧贴合时下优秀的技术,它详细的文档,活跃的开源社区和优秀的用户体验,都让我觉得非常便捷,非常高效!
平台整体简单易用,不仅满足了爬虫任务的调度需求,还应用于数据中心数据同步与清洗,相比于其他调度平台具有定制开发优势。
该项目在未来很可能会像 Scrapy 一样成为每个爬虫工程师必备的技能之一,因此现在及时掌握它,你已经领先了同行一大步。