Crawlab(分布式爬虫管理平台)是一个支持Scrapy、Puppeteer、Selenium,支持Python、NodeJS等任何语言和框架的分布式爬虫管理平台,通过增加工作节点数量,Crawlab可以做到横向扩展,用户一看便知,相信使用起来也是非常顺手,欢迎有需要的用户前来获取winwin7分享的这款Crawlab中文版!
软件说明
Crawlab能够帮助用户实现多语言爬虫的目的,通过多种方式进行安装即可使用,软件采用主节点的形式来快速获取网站数据,从而保存到本地数据中,每当目标站点发生变化时即会更新数据,用户还可通过相关控件来设计前端展示效果,极大的提升了程序员开发的效率。
介绍
Crawlab架构
Crawlab的架构包括了一个主节点(Master Node)和多个工作节点(Worker Node),以及负责通信和数据储存的Redis和MongoDB数据库。
主节点
主节点是整个Crawlab架构的核心,属于Crawlab的中控系统。主节点负责与前端应用进行通信,并通过Redis将爬虫任务派发给工作节点。同时,主节点会同步(部署)爬虫给工作节点,通过Redis和MongoDB的GridFS。
工作节点
工作节点的关键作用是实行爬虫每日任务和储存爬取数据信息与日志,而且根据Redis的PubSub跟主节点通讯。根据提升工作节点总数,Crawlab能够保证横着拓展,不一样的爬虫每日任务能够分派到不一样的节点上实行。
MongoDB
MongoDB是Crawlab的运作数据库查询,储存有节点、爬虫、每日任务、计划任务等数据信息,此外GridFS文档储存方法是主节点储存爬虫文档并同歩到工作节点的正中间媒体。
Redis
Redis是十分受大家喜爱的Key-Value数据库查询,在Crawlab中关键完成节点间数据通讯的作用。比如,节点会将自身信息内容根据HSET储存在Redis的nodes哈希列表中,主节点依据哈希列表来分辨线上节点。
前面
前面是一个根据Vue-Element-Admin的单页应用。在其中器重了许多Element-UI的控制来适用相对应的展现。