功能介绍

Crawlab 是一个企业级的开箱即用的爬虫管理平台,包含很多针对爬虫调度监控的实用功能,例如节点注册发现、任务调度、文件编辑、结果查看、日志管理等。

这些功能帮助爬虫开发者专注于页面抓取,而不用担心生产环境中要求的调度、监控、储存等繁琐的逻辑,大幅提升开发者的工作效率。

节点管理

Crawlab 天然支持分布式爬虫,因此支持多节点管理,让爬虫程序能够在多个节点、多台服务器上运行,以便最大化利用带宽及计算资源。

在 Crawlab 上可以查看各节点与数据库的拓扑关系。

爬虫程序通常会有一些第三方依赖的包和库,也可以通过界面来安装。

爬虫管理

爬虫管理是 Crawlab 的核心功能,Crawlab 能帮助开发者们省去很多管理爬虫的繁琐工作。

开发者可以在线编辑爬虫文件,实时的调试爬虫程序直至生产可用。

Crawlab 还支持爬虫程序的数据统计功能,包括运行次数、抓取结果数、运行时长等等。

任务管理

任务指的是运行一次爬虫程序的过程,Crawlab 会将此过程管理起来,让开发者更加方便的了解自己编写的爬虫程序的可用性和有效性。

在 Crawlab 的任务管理界面,开发者可以查看爬虫任务各自的信息,包括任务状态、任务开始/结束时间、运行时长、分配节点等信息。

任务日志是排查爬虫程序异常的有效工具。在 Crawlab 中,开发者可以非常容易的查看任务的日志,并搜索自己想查看的内容。

另外,Crawlab 还会根据正则表达式检测异常的日志内容,并用醒目的红色标注出来。

Crawlab 还支持查看任务结果,开发者可以在界面上可视化浏览抓取到的数据,方便调试、检验任务的结果内容。

定时任务

定时任务也是 Crawlab 中的核心模块之一。开发者可以利用定时任务定期抓取目标网站。

Crawlab 提供了可视化编辑,让开发者能够快速定义定时任务的周期。并且,Crawlab 也提供了启用、禁用定时任务的功能。

消息通知

Crawlab 的消息通知功能支持邮件、钉钉、企业微信三个渠道,能在任务结束或出错的时候及时报警。

Scrapy 爬虫

Scrapy 是业界非常流行的爬虫框架,通用、易用、稳定性强。Crawlab 对 Scrapy 有很强的支持,能够让开发者在界面上查看、添加、编辑设置参数、爬虫、Items、Pipelines,将对 Scrapy 的操作进行了可视化优化,让开发者更轻松的集成 Scrapy 爬虫。

Git 同步

Crawlab 支持从 Git 仓库自动拉取代码,因此可以集成 CI/CD 的功能,每次发布代码到 Git 仓库,就可以同步代码到 Crawlab。

功能一览

上述介绍的是 Crawlab 的主要功能,但 Crawlab 其实还有很多其他功能,可以查看如下列表: