最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

爬虫的原理及过程

互联网 admin 11浏览 0评论

爬虫的原理及过程

通用网络爬虫
一、实现过程如下图所示

二、实现原理如下

  1. 获取初始的URL。初始的URL地址可以人为的指定,也可以由用户指定的某几个或者某个初始爬取网页决定。
  2. 根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后,解析网页信息内容将网页信息内容存储到原始数据库中,并且在当前获得的网页信息里面发现新的URL地址,存放到一个URL队列里面。
  3. 从URL队列中读取新的URL,从而获得新的网页信息,同时在新网页中获取新的URL,并重复上述的爬取过程。
  4. 满足爬虫系统设置的停止条件时,停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示

二、实现原理如下

  1. 制定爬取的方案。
  2. 设定初始的URL。
  3. 根据初始的URL抓取页面,并获得新的URL。
  4. 从新的URL中过滤掉与需求无关的URL,将过滤后URL放到URL队列中。
  5. 在URL队列中,根据搜索算法确定URL的优先级,并确定下一步要爬取的URL地址。
  6. 得到新的URL,将新的URL重现上述爬取过程。
  7. 满足爬虫系统设置的停止条件或者无法获取新的URL地址时,停止爬取。

爬虫的原理及过程

通用网络爬虫
一、实现过程如下图所示

二、实现原理如下

  1. 获取初始的URL。初始的URL地址可以人为的指定,也可以由用户指定的某几个或者某个初始爬取网页决定。
  2. 根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后,解析网页信息内容将网页信息内容存储到原始数据库中,并且在当前获得的网页信息里面发现新的URL地址,存放到一个URL队列里面。
  3. 从URL队列中读取新的URL,从而获得新的网页信息,同时在新网页中获取新的URL,并重复上述的爬取过程。
  4. 满足爬虫系统设置的停止条件时,停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示

二、实现原理如下

  1. 制定爬取的方案。
  2. 设定初始的URL。
  3. 根据初始的URL抓取页面,并获得新的URL。
  4. 从新的URL中过滤掉与需求无关的URL,将过滤后URL放到URL队列中。
  5. 在URL队列中,根据搜索算法确定URL的优先级,并确定下一步要爬取的URL地址。
  6. 得到新的URL,将新的URL重现上述爬取过程。
  7. 满足爬虫系统设置的停止条件或者无法获取新的URL地址时,停止爬取。

与本文相关的文章

发布评论

评论列表 (0)

  1. 暂无评论