Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件-巨人网络通讯

主页 > 知识库 > Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

Ruby：多线程下载博客文章到本地的完整代码

复制代码代码如下:

#encoding:utf-8
require 'net/http'
require 'thread'
require 'open-uri'
require 'nokogiri'
require 'date'

$queue = Queue.new
#文章列表页数
page_nums = 8
page_nums.times do |num|
$queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

threads = []
#获取网页源码
def get_html(url)
html = ""
open(url) do |f|
html = f.read
end
return html
end

def fetch_links(html)
doc = Nokogiri::HTML(html)
#提取文章链接
doc.xpath('//div[@class="postTitle"]/a').each do |link|
    href = link['href'].to_s
    if href.include?"html"
      #add work to the queue
      $queue.push(link['href'])
    end
end
end

def save_to(save_to,content)
f = File.new("./"+save_to+".html","w+")
f.write(content)
f.close()
end

#程序开始的时间
$total_time_begin = Time.now.to_i

#开辟的线程数
threadNums = 10
threadNums.times do
threadsThread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(/\//,""),html) if url.include?".html"
      end
    end
end
end
threads.each{|t| t.join}

#程序结束的时间
$total_time_end = Time.now.to_i
puts "线程数：" + threadNums.to_s
puts "执行时间：" + ($total_time_end - $total_time_begin).to_s + "秒"

多线程部分讲解

复制代码代码如下:

$queue = Queue.new

#文章列表页数

page_nums = 8

page_nums.times do |num|

  $queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)

end

首先声明一个Queue队列，然后往队列中添加文章列表页，以便后面可以从这些列表页中提取文章链接,另外queue声明成全局变量($)，以便在函数中也可以访问到。

我的曾是土木人博客文章列表总共有8页，所以需要实现给page_nums赋值为8

复制代码代码如下:

#开辟的线程数

threadNums = 10

threadNums.times do

  threadsThread.new do

    until $queue.empty?

      url = $queue.pop(true) rescue nil

      html = get_html(url)

      fetch_links(html)

      if !url.include?"?page"

        title = Nokogiri::HTML(html).css('title').text

        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url

        save_to("pages/" + title.gsub(/\//,""),html) if url.include?".html"

      end

    end

  end

end

threads.each{|t| t.join}

通过Thread.new来创建线程

创建线程后，会进入until $queue.empty?循环，直到任务队列为空（即：没有要采集的网址了）
开辟的线程，每次都会从任务队列（queue）取到一个url,并通过get_html函数获取网页源码
由于任务队列中的url有分页url和文章url两种，所以要进行区分。
如果是分页url（url中含有“?page”），就直接提取文章链接。
如果是文章url，就保存到本地（save_to()，文件名为文章title）
在循环体外，创建线程完毕后，需要将创建的线程执行Thread#join方法，以便让主线程等待，
直到所有的线程执行完毕才结束主线程

代码执行时间统计

复制代码代码如下:

#程序开始的时间
$total_time_begin = Time.now.to_i
#执行过程

#程序结束的时间
$total_time_end = Time.now.to_i
puts "执行时间：" + ($total_time_end - $total_time_begin).to_s + "秒"

TIme模块的#now方法可以获取当前时间，然后使用to_i，可以将当前时间转换成从1970年1月1日00:00:00 UTC开始所经过的秒数。

获取网页源码

复制代码代码如下:

#获取网页源码

def get_html(url)

  html = ""

  open(url) do |f|

    html = f.read

  end

  return html

end

ruby中，获取网页的方法用Net::HTTP模块和OpenURI模块。OpenURI模块最简单，可以直径将指定网页当成普通文件一样进行操作。

执行结果：使用多线程采集130多篇文章，耗时15秒（单线程：47s左右）

您可能感兴趣的文章:

Ruby中使用mechanize批量下载校内网相册照片
ruby实现的一个异步文件下载HttpServer实例
比较不错的关于ruby的电子书下载地址集合
windows和linux下Ruby的下载与安装
Ruby使用eventmachine为HTTP服务器添加文件下载功能

标签：张家界永州辽宁梧州普洱公主岭三沙荆门

巨人网络通讯声明：本文标题《Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件》，本文关键词 Ruby,中,使用,多,线程,队列,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件》相关的同类信息！

Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

Ruby：多线程下载博客文章到本地的完整代码复制代码代码如下: #encoding:utf-8 require 'net/http' require 'thread' require 'open-uri' require 'nokogiri' require 'date' $queue = Queue.new #文章列表页数 page_nums...

10-18

信用卡电销退保险话术（简单的信用卡电销话术语音）

本文目录一览：1、信用卡推销保险怎么拒绝2、保险电话销售话术3、史上最齐全的电销技巧及话术4、...打电话卖保险,当时自...

07-10

400如何分类？400电话有哪些？

截止目前，以400电话开头的电话，总共分为以下几种：4006电话，是中国联通（原中国网通）运营的400电话，从4006000000到400...

12-22

拼多多上的流量卡是真的吗，拼多多上的流量卡能买来用吗

有一分的流量卡，有的几块钱流量、有的十几块，拼多多上的流量卡是真的吗？值的入手吗？接下来，我们一块来看看吧。...

10-13

电销专用卡渠道-防封电销卡价格

电销专用卡渠道-防封电销卡价格巨人网络通讯主营企业通信业务，重点销售电销卡、电销防封卡、不封号电话、外呼系统、...

06-24

电话机器人飞鸟软件(机器人打电话软件)

今晚电话机器人飞鸟软件，也就是北京时间7月11日凌晨2点电话机器人飞鸟软件，本届俄罗斯世界杯半决赛电话机器人飞鸟软...

11-07

如何成为一个优秀的jsp程序员

在网上看到很多问题是关于如何学习jsp的，正好网上看到一篇关于学习jsp的文章，就摘了一部分翻译过来，希望能对大家学习...

10-18

成都电销语音机器人如何（电销机器人电话机器人）

本文目录一览： 1、用语音机器人做销售好不好？2、电销机器人使用效果怎么样3、电销机器人效果怎么样？4、电销机器人怎...

11-27

诺基亚将大幅裁员本部将遇历史最大变动

在宣布与微软达成合作伙伴关系，公司启动新的战略发展后，诺基亚首席执行官表示，将大规模裁员。诺基亚首席执行官史...

01-16

AI营销精准抓取意向客户。

AI营销精准抓取意向客户。深圳市数心科技有限公司历经多年的技术积累和研发实践，融合互联网、云计算及人工智能、通信...

10-24

南京电话电销机器人哪家好（代理电销机器人电话）

本文目录一览： 1、电销机器人哪里有2、电销机器人哪家做得好一些？3、南京硅基智能的电话机器人产品有哪些优势？4、南...

04-22

贵州银行智能外呼系统产品介绍（贵州银行服务）

今天给各位分享贵州银行智能外呼系统产品介绍的知识，其中也会对贵州银行服务进行解释，如果能碰巧解决你现在面临的问...

05-16

Windows Powershell方法（对象能做什么）

方法定义了一个对象可以做什么事情。当你把一个对象输出在控制台时，它的属性可能会被转换成可视的文本。但是它的方法...

10-18

中山鹿聆外呼系统的简单介绍

本文目录一览： 1、有没有对照业余的外呼体系推荐？ 2、哪家的外呼体系接通率对照高呢？求推荐！ 3、九鹿林外呼体系怎样...

11-26

苏州防封电销网络线路在哪可以办理-原来是这样

苏州防封电销网络线路在哪可以办理对于后期的决策以及一些推广的策划都非常有帮助，而智能电销机器人也可以很好的实时...

01-16

天津crm外呼系统稳定吗（自动外呼系统怎么样）

本文目次一览： 1、外呼体系怎样样？ 2、电销体系外呼不平稳是什么起因必修 3、此刻外呼体系行情怎样？为什么还是一贯不...

11-25

好用的电话机器人使用方法（好用的电话机器人

本文目录一览：1、智能电销机器人,怎样正确的运用?2、怎样用智能电销机器人进行电销?3、电销机器人怎样用？智能电销...

11-29

河东区外呼系统哪里买

使用外呼系统会有什么好处，快来看看巨人网络通讯的外呼系统有哪些优势呢！1、外呼系统提供，员工管理，客户管理，外...

11-27

文件夹隐藏属性不能修改被锁定问题的解决方法

症状： U盘在中毒了的电脑上使用后，里面的文件夹均消失了，这是因为里面的文件夹属性被改为隐藏属性。通过查看显示隐...

10-20

400电话办理需要交哪些费用？

400电话办理需要交哪些费用呢？很多人都听说办理400电话是免费的，然而办理过400电话的企业都知道，400电话办理只是免开户...

05-09

售电公司销售使用介绍

然后，需要选择这次的呼叫模板。一台机器人可以放置多个话术模板，也可以多个机器人使用相同的话术模板。【售电公司...

10-30

Win10 Mobile/PC怎么使用随机无线网卡MAC地址防止跟踪?

当我们的手机/平板等设备连接无线网络时，设备会发送信号来搜索区域中的无线网络，帮助获取连接。该信号中包含设备的...

10-20

中国400电话套餐（400电话资费套餐）

【中国400电话套餐】中国400电话套餐，中国400电话套餐有600-15000的套餐选择，而畅听商机出现以后，中国400电话套餐种类更多...

11-07

电话机器人外呼系统西安（电销智能外呼机器人系统）

本文目录一览： 1、网络电话外呼琐细哪个好？ 2、电话板滞人有效吗？ 3、抉择智能电话板滞人的话，哪家的对照好？ 4、西...

11-25

地铁客服热线——实现呼叫中心优质化服务

南昌地铁自2015年12月21日开通以来，为南昌市民的出行带来了极大的便利。南昌轨道交通集团96999客服热线也于同日开通，市...

10-21

这款知识变现工具获天使轮融资 6000老师在用复购率30%

◆精神抖擞的孙大伟文|铅笔道记者连然 ►导语今日，“知识圈”创始人向铅笔道记者透露项目已于本年 6 月完成天使轮融...

10-16

400电话怎么申请现在还有优惠!400电话套餐怎么选择

现在很多企业都会使用400电话，但现在有很多400电话平台，包装类型无数，这让很多人头疼，不知道如何选择包装。事实上，...

01-13

江津区电销外呼系统定制找哪家（电销外呼系统多少钱一个月）

本文目录一览： 1、外呼体系哪家好用？2、电话出售体系呼叫体系的厂家哪家好？详细功用？3、外呼体系哪家好？4、手机外...

04-22

企业百家号服务商有哪些

可能很多人都知道，百度对于百家号也是确实非常的重视，而且也是一直在对外招收服务商，但是对于百度官方来讲招募服务...

03-01

宜宾小型外呼系统平台（宜宾平台公司）

本篇文章给咱们谈谈宜宾小型外呼体系渠道，以及宜宾渠道公司对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。...

11-06

长春企业外呼系统价钱（企业外呼软件）

本文目录一览： 1、外呼体系装置需求哪些费用？2、外呼体系多少钱一个月？3、做电话营销。一套一键外呼体系多少钱？4、...

04-22

400电话办理是可以异地办理的

400电话办理是可以异地办理的，我们的生活这些年的进步其实都是非常明显的，而尤其是网络出现以后很多地方都是有了非常...

05-09

潍坊百应电销机器人（潍坊百应电销机器人怎么样）

本篇文章给大家谈谈潍坊百应电销机器人，以及潍坊百应电销机器人怎么样对应的知识点，希望对各位有所帮助，不要忘了收...

05-16

400电话办理正规流程详解

400电话办理正规流程详解随着企业快速发展，拓展业务范围，提高客户满意度，建立一个全面的客户服务体系变得越来越重...

08-14

江西教育智能外呼系统（智能语音外呼系统方案）

今天给各位分享江西教育智能外呼系统的知识，其中也会对智能语音外呼系统方案进行解释，如果能碰巧解决你现在面临的问...

05-16

如何申请400之类的服务电话（怎么申请400电话）

如何申请400之类的服务电话（怎么申请400电话）申请一条400电话可以为企业带来更高的信誉度和更好的客户体验，那么该怎...

08-14

由于自动化程度不高，印尼的外包禁令挽救工作不成功

专业外包报道，印尼政府的禁令外包- 鼓动在2012年停止本地作业移居海外-因为许多这些低级别的工作现在都通过机器人自动...

10-22

云南省招聘专用电销机器人办理多少钱-详情报价

云南省招聘专用电销机器人办理多少钱支持在线编辑客户的信息，这些信息也会自动存储在系统库中形成专属的客户档案。同...

05-17

高频呼叫电话机器人（高频呼叫电话机器人设置）

今天给各位分享高频呼叫电话机器人的知识，其中也会对高频呼叫电话机器人设置进行解释，如果能碰巧解决你现在面临的问...

11-06

揭秘小扎日常生活：每天穿相同衣服晚上抱着女儿做祷告

现年33岁的马克·扎克伯格（Mark Zuckerberg）每天有很多事情要做，终究他需要办理市值高达4332.5亿美元的社交媒体巨头Faceboo...

10-16

400电话办理有免费的代办服务吗？代办公司会给企业带来高质量服务吗？400电话是免费的吗，

每个企业都需要使用客户服务电话，一旦申请成功，几乎每天都需要使用，因为企业每天都需要与外部世界联系，包括企业客...

01-13

客户体验如何为你的企业增强竞争力？

CTI论坛(ctiforum.com)（编译/老秦）: 你有没有遇到过傲慢无礼的公司？要知道，如果一家公司深信他们的产品是不可替代的，那...

10-21

电销公司长城电销卡（电销卡是什么意思啊）

本篇文章给我们谈谈电销公司长城电销卡，以及电销卡是什么意思啊对应的知识点，期望对各位有所协助，不要忘了保藏本站...

05-18

跟进对客户的服务来推动再次购买

对于那些客户购买频率很高的产品，应该如何找到敲门砖，进而在建立信任关系之后，展开交叉销售，但是这里有个问题，就...

10-20

北京电话电销机器人哪家好（机器人电话营销多少钱）

本文目次一览： 1、抉择智能德律风呆板人的话，哪家的对照好？ 2、哪家的ai智能德律风发卖呆板人对照好？ 3、电销呆板人...

11-26

沈阳电商专用外呼机器人办理服务商-服务周到！

沈阳电商专用外呼机器人办理服务商这些数据有一部分是无效的，通过设定好的规则，电话销售系统可以对数据进行筛选，将...

05-18

企业主要当心“您的商标即将到期”骗局

当然，您的知识产权（IP）对您的业务很有价值，并且您可能已采取了适当的步骤来最大限度地保护这些资产的法律保护。保...

10-23

常州稳定电话系统费用,外呼线路-价格靠谱

常州稳定电话系统费用,外呼线路它不仅将电销工作人员从繁琐机械的外呼工作中解放出来，而且优化企业运营成本，建构高...

12-17

福州市稳定零月租电销卡靠谱

5G时代的到来，让XR拥有了无限福州市稳定零月租电销卡的想象空间，为XR深入整个社会、改变人类生活提供了契机。HTC中国区...

03-10

机器人打响产业升级战开启下一个十年的超级风口

海关机器人、法院机器人、医疗机器人、教育机器人…… 8 月 23 日至 27 日，一个全行业绝无仅有的“机器人办事军团”在...

10-16

电话机器人是怎么来的（机器人接电话怎么回事）

本篇文章给大家谈谈电话机器人是怎么来的，以及机器人接电话怎么回事对应的知识点，希望对各位有所帮助，不要忘了收藏...

05-16

Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

10-18

本页收集关于Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件的相关信息资讯供网民参考！

推荐文章

上一篇：Ruby中使用mechanize批量下载校内网相册照片

下一篇：Ruby中用线程实现经典的生产者消费者问题代码实例

一起分享吧