python 爬取哔哩哔哩up主信息和投稿视频-巨人网络通讯

主页 > 知识库 > python 爬取哔哩哔哩up主信息和投稿视频

python 爬取哔哩哔哩up主信息和投稿视频

项目地址：

https://github.com/cgDeepLearn/BilibiliCrawler

项目特点

采取了一定的反反爬策略。
Bilibili更改了用户页面的api, 用户抓取解析程序需要重构。

快速开始

拉取项目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git
进入项目主目录，安装虚拟环境crawlenv(请参考使用说明里的虚拟环境安装)。
激活环境并在主目录运行crawl,爬取结果将保存在data目录csv文件中。

ource activate crawlenv
python initial.py file  # 初始化file模式
python crawl_user.py file 1 100  # file模式，1 100是开始、结束bilibili的uid

进入data目录查看抓取的数据，是不是很简单！

如果需要使用数据库保存和一些其他的设置，请看下面的使用说明

使用说明

1.拉取项目

git clone https://github.com/cgDeepLearn/BilibiliCrawler.git

2.进入项目主目录，安装虚拟环境

若已安装anaconda

conda create -n crawlenv python=3.6
source activate crawlenv  # 激活虚拟环境
pip install -r requirements.txt

若使用virtualenv

virtualenv crawlenv
source crawlenv/bin/activate  # 激活虚拟环境，windows下不用source
pip install -r requirements.txt  # 安装项目依赖

3. 修改配置文件

进入config目录，修改config.ini配置文件(默认使用的是postgresql数据库，如果你是使用的是postgresql，只需要将其中的参数替换成你的，下面其他的步骤可以忽略) 数据库配置选择其中一个你本地安装的即可，将参数更换成你的如果你需要更自动化的数据库配置，请移步我的DB_ORM项目

[db_mysql]
user = test
password = test
host = localhost
port = 3306
dbname = testdb

[db_postgresql]
user = test
password = test
host = localhost
port = 5432
dbname = testdb

然后修改conf.py中获取配置文件的函数

def get_db_args():
    """
    获取数据库配置信息
    """
    return dict(CONFIG.items('db_postgresql'))  # 如果安装的是mysql,请将参数替换为db_mysql

进入db目录，修改basic.py的连接数据库的DSN

# connect_str = "postgresql+psycopg2://{}:{}@{}:{}/{}".format(kwargs['user'], kwargs['password'], kwargs['host'], kwargs['port'], kwargs['dbname'])
# 若使用的是mysql，请将上面的connect_str替换成下面的
connect_str = "mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8".format(kwargs['user'], kwargs['password'], kwargs['host'], kwargs['port'], kwargs['dbname'])
# sqlite3，mongo等请移步我的DB_ORM项目，其他一些数据库也将添加支持

4. 运行爬虫

python initial.py db # db模式，file模式请将db换成file
# file模式会将抓取结果保存在data目录
# db模式会将数据保存在设置好的数据库中
# 若再次以db模式运行将会drop所有表后再create，初次运行后请慎重再次使用!!!
# 如果修改添加了表，并不想清空数据，请运行 python create_all.py

开始抓取示例

python crawl_user.py db 1 10000 # crawl_user 抓取用户数据，db 保存在数据库中， 1 10000为抓取起止id
python crawl_video_ajax.py db 1 100 # crawl_video_ajax 抓取视频ajax信息保存到数据库中,
python crawl_user_video.py db 1 10000 #同时抓取user 和videoinfo
# 示例为uid从1到100的user如果有投稿视频则抓取其投稿视频的信息，
# 若想通过视频id逐个抓取请运行python crawl_video_by_aid.py db 1 1000

爬取速率控制

程序内已进行了一些抓取速率的设置，但各机器cpu、mem不同抓取速率也不同，请酌情修改
太快太慢请修改各crawl中的sleepsec参数,ip会被限制访问频率，overspeed会导致爬取数据不全，
之后会添加运行参数speed(high, low),不用再手动配置速率

日志

爬取日志在logs目录
user, video分别为用户和视频的爬取日志
storage为数据库日志如需更换log格式，请修改logger模块

后台运行

linux下运行python ......前面加上nohup，例如:

nohup python crawl_user db 1 10000

程序输出保存文件，默认会包存在主目录额nohup.out文件中，添加 > fielname就会保存在设置的文件中:

nohup python crawl_video_ajax.py db 1 1000 > video_ajaxup_1_1000.out  # 输出将保存在video_ajaxup_1_1000.out中

程序多线程使用的生产者消费者模式中产生了程序运行的状况的打印信息，类似如下

produce 1_1
consumed 1_1
...

如想运行更快，请在程序各项设置好后注释掉其中的打印程序

# utils/pcModels.py
print('[+] produce %s_%s' % (index, pitem))  # 请注释掉

print('[-] consumed %s_%s\n' % (index, data))  # 请注释掉

项目是单机多线程，若想使用分布式爬取，请参考Crawler-Celery

以上就是python 爬取哔哩哔哩up主信息和投稿视频的详细内容，更多关于python 爬取哔哩哔哩的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python b站视频下载的五种版本
基于python对B站收藏夹按照视频发布时间进行排序的问题
教你如何使用Python下载B站视频的详细教程
利用python+ffmpeg合并B站视频及格式转换的实例代码
ffmpeg+Python实现B站MP4格式音频与视频的合并示例代码
python 爬取B站原视频的实例代码
Python如何爬取b站热门视频并导入Excel
Python如何实现爬取B站视频
python3写爬取B站视频弹幕功能

标签：迪庆抚州牡丹江杨凌南宁聊城扬州六盘水

巨人网络通讯声明：本文标题《python 爬取哔哩哔哩up主信息和投稿视频》，本文关键词 python,爬取,哔哩,主,信息,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《python 爬取哔哩哔哩up主信息和投稿视频》相关的同类信息！

python 爬取哔哩哔哩up主信息和投稿视频

项目地址： https://github.com/cgDeepLearn/BilibiliCrawler 项目特点采取了一定的反反爬策略。 Bilibili更改了用户页面的api, 用户抓取解析程序需要重构。快速开始拉取项目, git clone https://githu...

10-18

太仓服务外包依托区位优势

【新民网·独家报道】“与上海接壤，市区距离上海虹桥机场只有35公里，好多服务外包企业都是看中了太仓的这些区位优势...

10-22

福建电销网络电话系统安装（福建电销网络电话系统安装要求）

本篇文章给大家谈谈福建电销网络电话系统安装，以及福建电销网络电话系统安装要求对应的知识点，希望对各位有所帮助，...

08-28

怎么办理朗玛电销卡（怎么办理朗玛电销卡呢）

本文目录一览：1、电销卡怎么办理2、电销卡怎么买,有哪些注意事项?3、电销卡在哪里办理4、朗玛移动手机卡,怎么注销?电销...

07-10

温州财税呼叫中心系统供应商,电话营销线路多少钱一张-图文

温州财税呼叫中心系统供应商,电话营销线路多少钱一张人工不管多快，机器的速度都有差异。在电销系统中，客户接到电话...

12-17

电子地图-殡葬服务一目了然

本报讯记者周其俊）昨天，全国首张殡葬服务电子地图在市民政局官方网站亮相。市民只要轻轻点击上海殡葬网，然后点击...

04-13

南宁地铁电话机器人（南宁地铁报站语音）

本文目录一览：1、南宁什么时候有地铁2、南宁轨道交通1号线的铺轨3、南宁5号线地铁口哪里最热闹南宁什么时候有地铁年...

07-06

客服中心也“智能” 揭秘国网客服中心南中心的“黑科技”

724服务，14个省（市）的用户，一天90000部电话接入，7种语言（方言）服务，满意度99.58%，一组组数据印证着国家电网有限公...

10-19

高德地图如何增加公司位置？高德如何增加公司位置？

如何高德地图增加地标？长按标记点，然后点收藏，还可以命名，以后都可以查到了。电脑高德地图如何增加多个景点？...

11-26

从全球最好的2G网络到全球最好的物联网网络，NB-IoT需求有哪些改变？

在近期举办的全球终端峰会上，我国移动发布了《5G终端产品指引》在业界产生了不小反响，但首要焦点并不在5G上，而是在...

10-13

广州网络电话外呼系统（网络电话外呼系统平台）

本文目次一览： 1、广州外呼零碎公司哪家好？ 2、咱们公司在广州，做存款电销的，有合适的外呼零碎吗？ 3、广州有没有做...

11-25

徐州办电话卡做电销封号咋办

徐州办电话卡做电销封号咋办电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，...

12-16

南通外呼系统排名（南京外呼系统哪家公司做得

本文目录一览：1、智能电话外呼体系哪家的比较好用？2、外呼体系哪家好？3、电销外呼体系品牌排名，哪家好4、电销外呼...

11-29

win10家庭版激活提示0x803fa067错误代码怎么解决?

大家可能也会遇到这种情况，win10系统激活失败提示错误代码0x803fa067，有的朋友在将win10家庭版升级到win10专业版的时候遇到...

10-19

win7系统怎么用硬盘安装ubuntu kylin 14.10？

相信不少ubuntu爱好者都想装个ubuntu kylin系统自己过过瘾，但最新的几个版本里都没有了wubi.exe 没法直接安装了，所以这里就告...

10-20

开通400电话的流程是什么

最近，很多企业了解了400电话的好处后，为了能够不落后与竞争对手，扩展自己企业业务，也想开通400电话服务，那么开通...

05-09

天津呼叫中心外呼系统（天津今晚网络呼叫中心）

本文目录一览： 1、呼叫易呼叫中心体系怎么样？2、外呼体系哪家公司做得好？？？3、天津呼叫中心哪家服务好？4、哪些电...

11-28

Win8系统如何打开cda文件的方法

最近有Win8系统用户询问，cda文件是什么格式文件，又要如何打开。其实cda文件是一种音频格式文件，就是我们常说的CD音轨，...

10-19

北京电销公司

1、什么是智能语音电话机器人？【北京电销公司】 2.可视化和数字化管理，所有的外呼名单全部做好分类，哪些接了哪些没...

10-24

商标提交以后还可以修改吗

提交以后再想修改商标图样是不可能了，不过有些情况是例外的。商标法第二十三条规定：商标局认为商标注册申请内容需要...

10-23

400电话号码申请400电话是申请

400电话号码申请400电话是申请以下内容由巨人小编整理发布。提交实名认证材料：400电话是针对企业用户办理，需要营业执...

02-12

电信400电话业务，电信400号码怎么办理

电信400电话业务，电信400号码怎么办理400电话代理商为你解答。打开电脑浏览器，百度搜索【400办理】选择任意办理方，如...

07-20

金华移动电话营销系统办理公司,电销线路怎么办理-关于

金华移动电话营销系统办理公司,电销线路怎么办理自动识别客户意向并准确的分类，帮你锁定准确客户。经验丰富，拥有通...

12-17

上海通讯外呼系统资费（上海呼叫中心外包公司有哪些）

今天给各位分享上海通讯外呼系统资费的知识，其中也会对上海呼叫中心外包公司有哪些进行解释，如果能碰巧解决你现在面...

05-17

400电话多少钱400的电话是怎么收费的

(400电话多少钱)(400的电话是怎么收费的)以下内容由巨人小编整理发布。 400电话400电话分为4006（中国联通），4007（中国移动...

01-12

江苏大数据外呼管理系统（互联网化外呼管理系统）

本篇文章给大家谈谈江苏大数据外呼管理系统，以及互联网化外呼管理系统对应的知识点，希望对各位有所帮助，不要忘了收...

05-16

新都电话机器人公司有哪些（新都机械有限公司）

本文目录一览：1、电话销售机器人哪个好2、重庆有几家电话机器人3、电话机器人怎么样？电话销售机器人哪个好电话销售...

06-30

保定极信通信电销卡（极信通信手机卡办理）

本文目录一览：1、怎样使用电销电话卡不会被封?这些技巧需要掌握!2、电销卡可以在手机上注销吗3、电销卡为什么不容易被...

07-10

Win10 Mobile一周年预览版中Edge浏览器将新增滑动翻页手势

滑动翻页手势曾是IE浏览器中非常受欢迎的操作方式，用户在触摸屏设备上用手左右滑动，就可以实现前进和后退的翻页操作...

10-20

VBS教程：函数-Int、Fix 函数

Int、Fix 函数返回数字的整数部分。 Int( number ) Fix( number ) number 参数可以是任意有效的数值表达式。如果 number 参数包含 Nul...

10-18

香港电话外呼系统（网络电话外呼系统）

本篇文章给大家谈谈香港电话外呼系统，以及网络电话外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

11-06

服务外包“新宠”难以快速成长

光明教育讯服务外包是以现代网络技术和高层次人才为支撑的新型知识产业，属于高端的现代服务业。随着我国产业转移的...

10-22

电销团队制度薪资（电销团队制度薪资结构）

本文目录一览： 1、请问有人在我国安全做过车险电销吗里边待遇怎样样？是不是压力很大？常常加班吗？根本的每月能拿多...

04-22

天津房地产电话软件办理费用,电话销售线路哪家好-欢迎洽谈

天津房地产电话软件办理费用,电话销售线路哪家好功能上可以分为普通坐席和班长坐席。·普通坐席完成的功能主要有：人员...

12-16

广东外呼系统电销（广东外呼系统电销招聘）

本篇文章给咱们谈谈广东外呼体系电销，以及广东外呼体系电销招聘对应的知识点，期望对各位有所协助，不要忘了保藏本站...

11-06

400元免费彩铃，400彩铃内容

400元免费彩铃，400彩铃内容400电话代理商为你解答。办理400电话的彩铃功能是可选功能，在不同的套餐中如果选择了彩铃功...

07-20

ai电话销售系统

在疫情之下，鼓励全民在家不出户，很多员工回不来无法恢复生产，企业将会出现巨大损失，而这时很多工作都靠人工智能...

10-26

洛阳电销外呼系统供应商（郑州电销外呼系统）

本篇文章给大家谈谈洛阳电销外呼系统供应商，以及郑州电销外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本...

02-23

武威电话机器人厂家（电话机器人招聘）

本文目录一览：1、武威市火车站查询电话?2、有谁用过电销机器人?哪个公司的比较好?3、那么多电话机器人,我们怎么测试谁...

06-20

天津自动电销机器人系统（天津自动电销机器人系统有限公司）

今日给各位共享天津主动电销机器人体系的常识，其间也会对天津主动电销机器人体系有限公司进行解说，如果能可巧处理你...

11-07

惠州代理外呼系统（广东外呼公司）

今日给各位共享惠州署理外呼体系的常识，其间也会对广东外呼公司进行解说，如果能可巧处理你现在面对的问题，别忘了重...

05-17

电销卡真的不会封号吗？看完这老销售经验分享

电销卡真的不会封号吗？但是不封号的电话卡又到哪里去可以办呢？现在就是想寻找那种不封号的电销卡，因为现在打电话封...

11-23

vivoX30系列搭载的FuntouchOS10电销外呼程序会带来哪些不一样的体验？

感谢您的阅读！前两天去vivo的体验店，感受了下vivo X30这款手机系统，也确实觉得有些惊喜，在这款手机中，使用了全新的...

12-14

和平区电话机器人店铺地址（和平区家电维修电话）

本文目录一览：1、听说沈阳中街附近开了一家乐高机器人,想带孩子去上课,有人知道环境怎么...2、中瑞福宁机器人(沈阳)有限...

06-20

400开头电话怎么开通（400开头的电话如何申请）

400开头电话怎么开通（400开头的电话如何申请） 400开头电话，是企业、机构或个人为了提升企业形象、服务客户而开通的电...

08-14

针对不同的客户用不同的销售技巧

我们在从事销售的过程中,通过初次打交道后,对客户的跟进非常重要,每个客户至少跟踪三次以上才有效,有的甚至跟单十多年...

10-19

如何衡量呼叫中心的性能

不能否认如何呼叫中心行业已经非常不论成功当今世界的一部分。当然许多企业认识到需要设置呼叫中心，使他们能够更好地...

10-22

长春电销卡外呼系统（电销外呼线路联通）

本文目录一览：1、外呼系统是怎么用的?2、电销外呼系统谁家的好用?3、电销的手机号被封了怎么办?外呼系统管用吗?4、电销...

07-10

移动CRM正在改变业务管理方式

2014年绝对是中国的4G元年，也很可能开启移动办公系统应用的新纪元。在去年12月4日，工信部向中国联通、中国移动、中国电...

10-19

物联卡合法吗(物联卡封卡)

大多数人对物联卡有疑虑，物联卡流量是否虚标？网速怎么样？信号好吗？我就结合自己前段时间办理物联卡使经历，谈谈...

11-07

电销不封号老被封

电销不封号老被封电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，所以这样也...

12-16

python 爬取哔哩哔哩up主信息和投稿视频

10-18

本页收集关于python 爬取哔哩哔哩up主信息和投稿视频的相关信息资讯供网民参考！

四合一精品企业网站建设

多一个网站就为企业多增加一条营销渠道

¥888元限时抢购

立即咨询 快速购买

企业400电话

智能AI客服机器人
￥15000

在线订购

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

推荐文章

上一篇：OpenCV-Python直方图均衡化实现图像去雾

下一篇：Python中json.load()和json.loads()有哪些区别

一起分享吧

python 爬取哔哩哔哩up主信息和投稿视频

项目地址：

项目特点

快速开始

使用说明

1.拉取项目

2.进入项目主目录， 安装虚拟环境

3. 修改配置文件

4. 运行爬虫

更多

四合一精品企业网站建设

¥888元限时抢购

立即咨询快速购买

企业400电话

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

在线咨询

2.进入项目主目录，安装虚拟环境