最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

scrapyd和spiderkeeper实现scarpy项目的可视化操作

互联网 admin 0浏览 0评论

scrapyd和spiderkeeper实现scarpy项目的可视化操作

scrapy可视化管理工具

scrapyd

  • 什么是scrapyd?

    Scrapyd是一个服务,用来运行scrapy爬虫的

    它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫

  • scrapyd官方文档

    /
    
  • 安装scrapyd服务

$ pip install scrapyd
  • 如何部署爬虫项目到scrapyd中
# 官方文档
Deploying your project involves eggifying it and uploading the egg to Scrapyd via the addversion.json endpoint. You can do this manually, but the easiest way is to use the scrapyd-deploy tool provided by scrapyd-client which will do it all for you.# 即使用scrapyd-client 中提供的scrapyd-deploy tool来进行部署
  • scrapyd-client
Scrapyd-client is a client for Scrapyd. It provides the general scrapyd-client and the scrapyd-deploy utility which allows you to deploy your project to a Scrapyd server.
  • github网址

  • 安装scrapyd-client
$ pip install scrapyd-client
  • scrapyd-deploy的使用

首先进入scrapy.cfg进行配置

# scrapy.cfg# [deploy:example]可以给你的项目取别名
[deploy]
url = :端口号
# 用户名和密码可以不设置,如果设置访问服务器所需的用户名和密码
# username = scrapy
# password = secret
project = yourproject
  • 首先开启scrapyd服务
$ scrapyd
"http://127.0.0.1:6800/"
# 可以通过该网址进行访问,即该url就是项目部署的URL
  • 网站访问效果如下图所示

  • 进行部署

$ scrapyd-deploy example(这个是你部署取得别名) -p scrapyProject
  • 效果展示

  • list all available targets
$ scrapyd-deploy -l
  • list projects available on a specific target
$ scrapyd-deploy -L centos
  • 部署完毕可以看到可用的项目添加了进去

spiderKeeper

  • SpiderKeeper是什么?

    SpdierKeeper通过配合scrpyd管理爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.原理
    是: 对scrapyd的api进行封装,最大限度减少你跟命令行交互次数.

    简单来说是网页端的可视化界面,不用通过命令行来开始执行爬虫

  • 安装SpiderKeeper

$ pip install SpiderKeeper 
  • 连接服务端地址
# 查看命令
spiderkeep --help 
参数--server=SERVERS      servers, default: ['http://localhost:6800']
spiderkeeper --server=http://localhost:6800
  • spiderkeeper的开放端口是5000
# 通过127.0.0.1:5000来查看
# 默认的用户名和密码都是admin
  • 操作界面

  • 选择创建项目

  • 使用提示命令来打包项目
$ scrapyd-deploy --build-egg output.egg
  • 创建周期性任务爬虫

  • 至此可以完成爬虫项目的可视化

scrapyd和spiderkeeper实现scarpy项目的可视化操作

scrapy可视化管理工具

scrapyd

  • 什么是scrapyd?

    Scrapyd是一个服务,用来运行scrapy爬虫的

    它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫

  • scrapyd官方文档

    /
    
  • 安装scrapyd服务

$ pip install scrapyd
  • 如何部署爬虫项目到scrapyd中
# 官方文档
Deploying your project involves eggifying it and uploading the egg to Scrapyd via the addversion.json endpoint. You can do this manually, but the easiest way is to use the scrapyd-deploy tool provided by scrapyd-client which will do it all for you.# 即使用scrapyd-client 中提供的scrapyd-deploy tool来进行部署
  • scrapyd-client
Scrapyd-client is a client for Scrapyd. It provides the general scrapyd-client and the scrapyd-deploy utility which allows you to deploy your project to a Scrapyd server.
  • github网址

  • 安装scrapyd-client
$ pip install scrapyd-client
  • scrapyd-deploy的使用

首先进入scrapy.cfg进行配置

# scrapy.cfg# [deploy:example]可以给你的项目取别名
[deploy]
url = :端口号
# 用户名和密码可以不设置,如果设置访问服务器所需的用户名和密码
# username = scrapy
# password = secret
project = yourproject
  • 首先开启scrapyd服务
$ scrapyd
"http://127.0.0.1:6800/"
# 可以通过该网址进行访问,即该url就是项目部署的URL
  • 网站访问效果如下图所示

  • 进行部署

$ scrapyd-deploy example(这个是你部署取得别名) -p scrapyProject
  • 效果展示

  • list all available targets
$ scrapyd-deploy -l
  • list projects available on a specific target
$ scrapyd-deploy -L centos
  • 部署完毕可以看到可用的项目添加了进去

spiderKeeper

  • SpiderKeeper是什么?

    SpdierKeeper通过配合scrpyd管理爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.原理
    是: 对scrapyd的api进行封装,最大限度减少你跟命令行交互次数.

    简单来说是网页端的可视化界面,不用通过命令行来开始执行爬虫

  • 安装SpiderKeeper

$ pip install SpiderKeeper 
  • 连接服务端地址
# 查看命令
spiderkeep --help 
参数--server=SERVERS      servers, default: ['http://localhost:6800']
spiderkeeper --server=http://localhost:6800
  • spiderkeeper的开放端口是5000
# 通过127.0.0.1:5000来查看
# 默认的用户名和密码都是admin
  • 操作界面

  • 选择创建项目

  • 使用提示命令来打包项目
$ scrapyd-deploy --build-egg output.egg
  • 创建周期性任务爬虫

  • 至此可以完成爬虫项目的可视化
发布评论

评论列表 (0)

  1. 暂无评论