用python写个博客迁移工具-巨人网络通讯

主页 > 知识库 > 用python写个博客迁移工具

用python写个博客迁移工具

前言

最近不少写博客的朋友跟我反馈博客园的一些文章下架了，这让我联想到去年简书一样，我之前写的博客都被下架不可见了。

我最开始接触的博客网址是 csdn、思否、简书还有博客园等，但是后期发现，单论博客的生态感觉做的越来越不行，干货虽然很多，但是垃圾、标题党很严重，我自己也有一些博文被莫名的搬走直接标为原创。

虽然搜问题在上面还是能搜到很多解决方案，但写作的欲望降低了很多。

综上我从去年入驻掘金，并以掘金作为博客的主平台。个人感觉掘金团队对个人原创的保护是非常好的，同时也在不断的听取用户的建议而去改进。有问题与建议能随时与掘金的同学讨论、沟通，非常方便。

掘金的成长

最开始的时候，掘金也是面试、标题党满天飞，但是掘金的运营大佬逐步整顿起来之后，文章的质量有了显著的提高，并且也不断推出有利于新手作者、高质量博文的各种活动，鼓励新人创作、老人分享。

同样在我入驻掘金之后，作为一个长期用户，新人作者，也是见证了这段时间以来掘金为了社区活跃，博客质量而做的种种努力。

而最开始使用掘金的 markdown，能吐槽的地方还是很多，但掘金的研发也非常给力，吸纳了用户的建议后，最新升级的 markdown 编辑器也是广受好评，使用过你就知道真相定律是什么了。

掘金在使用的时候，一直有种特殊的感觉，是一种很纯粹的 coding 情怀。并不仅仅只是一个单纯的博客平台，而是一直致力于社区共建、开源项目、掘金翻译计划等等的建设，为技术社区打造一片纯粹干净的后花园。

搬家命令行工具

那么作为程序员，手动搬文章显然是略 low 的

所以写了一个简单的 python 脚本，有兴趣的同学可以使用它将 cnblogs 上面已有或者创作中的草稿转移到掘金来。

如果有兴趣可以试试改造的更完美点，但不建议泄露自己的隐私信息

环境配置

脚本跑起来需要 python3 环境，所以先安装一下 python 环境

请在 cookie.json 中补充博客园与掘金的 cookie

使用 python3 main.py -h 查看使用说明

作为程序员应该都了解 cookie 是啥，也知道从哪里捞出来吧

使用方法

还是上个获取 cookie 的图吧，哈哈

请先在 cookie.json 中替换 cookie_cnblogs 与 cookie_juejin 为自己在对应站点上的 cookie

请自行替换user_name与blog_id
// 下载单篇文章到默认目录'./cnblogs' 并输出日志到'./log'
python3 main.py -m download -a https://www.cnblogs.com/{{user_name}}/p/{{blog_id}}.html --enable_log 

// 下载用户所有文章到目录'/Users/cnblogs_t'
python3 main.py -m download -u https://www.cnblogs.com/{{username}} -p /Users/cnblogs_t

// 上传单篇文章到掘金草稿箱
python3 main.py -m upload -f ./cnblogs/{{blog_id}}.html

// 上传'./test_blogs'下所有的html文件到掘金草稿箱
python3 main.py -m upload -d ./test_blogs

main.py

新建 main.py 文件，将下述 python 代码复制进去

# coding=utf-8
import requests
import os
import argparse
import sys
import json
from lxml import etree
from urllib.parse import urlparse
import logging
reload(sys)
sys.setdefaultencoding('utf-8')

parser = argparse.ArgumentParser()
args_dict = {}
list_url_tpl = 'https://www.cnblogs.com/%s/default.html?page=%d'
draft_url = 'https://api.juejin.cn/content_api/v1/article_draft/create_offline'
jj_draft_url_tpl = 'https://juejin.cn/editor/drafts/%s'
cnblog_headers = {}
log_path = './log'

def myget(d, k, v):
 if d.get(k) is None:
  return v
 return d.get(k)

def init_parser():
 parser.description = 'blog move for cnblogs'
 parser.add_argument('-m', '--method', type=str, dest='method', help='使用方式: download下载 upload上传到草稿箱', choices=['upload', 'download'])
 parser.add_argument('-p', '--path', type=str, dest='path', help='博客html下载的路径')
 parser.add_argument('-d', '--dir', type=str, dest='rec_dir', help='制定要上传的博客所在文件夹')
 parser.add_argument('-f', '--file', type=str, dest='file', help='指定上传的博客html')
 parser.add_argument('-u', '--url', type=str, dest='url', help='个人主页地址')
 parser.add_argument('-a', '--article', type=str, dest='article_url', help='单篇文章地址')
 parser.add_argument('--enable_log', dest='enable_log', help='是否输出日志到./log', action='store_true')
 parser.set_defaults(enable_log=False)

def init_log():
 root_logger = logging.getLogger()
 log_formatter = logging.Formatter('%(asctime)s [%(levelname)s] %(pathname)s:%(lineno)s %(message)s')
 console_handler = logging.StreamHandler(sys.stdout)
 console_handler.setFormatter(log_formatter)
 root_logger.addHandler(console_handler)
 if myget(args_dict, 'enable_log', False):
  if not os.path.exists(log_path):
   os.mkdir(log_path)
  file_handler = logging.FileHandler('./log/debug.log')
  file_handler.setFormatter(log_formatter)
  root_logger.addHandler(file_handler)
 root_logger.setLevel(logging.INFO)
 
def download():
 cookies = json.load(open('cookie.json'))
 headers = {'cookie': cookies.get('cookie_cnblogs', '')}

 dir_path = myget(args_dict, 'path', './cnblogs')
 if dir_path[len(dir_path)-1] == '/':
  dir_path = dir_path[:len(dir_path)-1]
 if not os.path.exists(dir_path):
  os.mkdir(dir_path)
 
 article_url = myget(args_dict, 'article_url', '-1')
 if article_url != '-1':
  logging.info('article_url=%s', article_url)
  try:
   resp = requests.get(article_url, headers=headers)
   if resp.status_code != 200:
    logging.error('fail to get blog \'%s', resp=%s', article_url, resp)
    return
   tmp_list = article_url.split('/')
   blog_id_str = tmp_list[len(tmp_list)-1]
   with open(dir_path+'/'+blog_id_str, 'w') as f:
    f.write(resp.text)
   logging.info('get blog \'%s' success.', article_url)
  except Exception as e:
   logging.error('exception raised, fail to get blog \'%s', exception=%s.', list_url, e)
  finally:
   return

 raw_url = args_dict.get('url')
 rurl = urlparse(raw_url)
 username = (rurl.path.split("/", 1))[1]
 page_no = 1
 while True:
  list_url = list_url_tpl%(username, page_no)
  logging.info('list_url = %s', list_url)
  try:
   resp = requests.get(list_url, headers=headers)
   if resp.status_code != 200:
    break
  except Exception as e:
   logging.error('exception raised, fail to get list \'%s', exception=%s.', list_url, e)
   return
  html = etree.HTML(resp.text)
  blog_list = html.xpath('//div[@class=\'postTitle']/a/@href')
  if len(blog_list) == 0:
   break
  for blog_url in blog_list:
   tmp_list = blog_url.split('/')
   blog_id_str = tmp_list[len(tmp_list)-1]
   blog_resp = requests.get(blog_url, headers=headers)
   if resp.status_code != 200:
    logging.error('fail to get blog \'%s', resp=%s, skip.', blog_url, resp)
    continue
   with open(dir_path+'/'+blog_id_str, 'w') as f:
    f.write(blog_resp.text)
   logging.info('get blog \'%s' success.', blog_url)
  page_no += 1

def upload_request(headers, content, filename):
 body = {
  "edit_type": 0,
  "origin_type": 2,
  "content": content
 }
 data = json.dumps(body)
 try:
  resp = requests.post(draft_url, data=data, headers=headers)
  if resp.status_code != 200:
   logging.error('fail to upload blog, filename=%s, resp=%s', filename, resp)
   return
  ret = resp.json()
  draft_id = ret.get('data', {}).get('draft_id', '-1')
  logging.info('upload success, filename=%s, jj_draft_id=%s, jj_draft_url=%s', filename, draft_id, jj_draft_url_tpl%draft_id)
 except Exception as e:
  logging.error('exception raised, fail to upload blog, filename=%s, exception=%s', filename, e)
  return
 

def upload():
 cookies = json.load(open('cookie.json'))
 headers = {
  'cookie': cookies.get('cookie_juejin', ''),
  'content-type': 'application/json'
 }
 filename = myget(args_dict, 'file', '-1')
 if filename != '-1':
  logging.info('upload_filename=%s', filename)
  try:
   with open(filename, 'r') as f:
    content = f.read()
    upload_request(headers, content, filename)
   return
  except Exception as e:
   logging.error('exception raised, exception=%s', e)
 
 rec_dir = myget(args_dict, 'rec_dir', '-1')
 if rec_dir != '-1':
  logging.info('upload_dir=%s', filename)
  try:
   g = os.walk(rec_dir)
   for path, dir_list, file_list in g:
    for filename in file_list:
     if filename.endswith('.html'):
      filename = os.path.join(path, filename)
      with open(filename, 'r') as f:
       content = f.read()
       upload_request(headers, content, filename)
  except Exception as e:
   logging.error('exception raised, exception=%s', e)
  return


if __name__ == '__main__':
 init_parser()
 args = parser.parse_args()
 args_dict = args.__dict__
 init_log()

 empty_flag = True
 for k, v in args_dict.items():
  if k != 'enable_log' and v is not None:
   empty_flag = False
 if empty_flag:
  parser.print_help()
  exit(0)

 if args_dict.get('method') == 'upload':
  upload()
 else:
  download()
 pass

cookie.json

本地新建 cookie.json 文件，与 main.py 同级

{
 "cookie_cnblogs": "请替换为博客园cookie",
 "cookie_juejin": "请替换为掘金cookie"
}

github 地址

最后附上 github 地址，里面除了 demo 的源码之外也有录制好的一个视频，有兴趣的同学可以下载使用或者研究研究，脚本有问题或者写的不好改进的地方也可以互相探讨下。有意见也可以随时留言反馈

以上就是用python写个博客迁移工具的详细内容，更多关于python 博客迁移的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

使用python和Django完成博客数据库的迁移方法
Python依赖包迁移到断网环境操作
如何把外网python虚拟环境迁移到内网
如何将你的应用迁移到Python3的三个步骤
详解Python3迁移接口变化采坑记
python 动态迁移solr数据过程解析
python django生成迁移文件的实例
Python依赖包整体迁移方法详解
pycharm使用正则表达式批量添加print括号完美从python2迁移到python3
python虚拟环境迁移方法
python实现数据库跨服务器迁移

标签：股票安庆西安锦州随州白城日照天水

巨人网络通讯声明：本文标题《用python写个博客迁移工具》，本文关键词用,python,写个,博客,迁移,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《用python写个博客迁移工具》相关的同类信息！

用python写个博客迁移工具

目录前言掘金的成长搬家命令行工具环境配置 main.py cookie.json github 地址前言最近不少写博客的朋友跟我反馈博客园的一些文章下架了，这让我联想到去年简书一样，我之前写的博客...

10-18

南京华翔云语app

南京华翔云语app，办理南京华翔云语app，南京华翔云语app办理云语app 自带黑名单过滤系统呼出不限归属地齐全需要的老板...

11-23

周乔亮：政采IT项目如何选择服务外包供应商

在政府采购活动中，与IT有关的采购项目较多，频率也较高。这是因为政府机关、吃财政饭的公共事业机构以及为社会提供公...

10-22

佛山人工外呼系统怎么样（广州外呼系统哪里有）

今天给各位分享佛山人工外呼系统怎么样的知识，其中也会对广州外呼系统哪里有进行解释，如果能碰巧解决你现在面临的问...

11-06

录音外呼系统怎么删录音（呼呼收音机怎么删除录音）

今天给各位分享录音外呼系统怎么删录音的知识，其中也会对呼呼收音机怎么删除录音进行解释，如果能碰巧解决你现在面临...

11-06

Centos系统用户密码字符串生成命令-shadow

这两天在看puppet，准备用这个管理我手下系统的用户添加分配与删除工作，不过每次要是都用系统的passwd命令生成用户密码那...

10-20

苏州电销防封app代理

苏州电销防封app代理电销app：操作简单便捷！手机下载APP就可直接在线拨打！不封号、强大CRM管理系统！也可以通过API接...

12-03

WinXP系统提示werfault.exe应用程序错误该怎么办?

电脑总是提示werfault.exe应用程序错误该怎么办？请问图片中是什么原因？截图是程序错误（内存不能读）。首先要知道werf...

10-20

如何成为一名客服“神枪手”

“我们都是神枪手，每一颗子弹消灭一个敌人”，这是经典红色歌曲《游击队之歌》当中的一句歌词。作为客服行业从业者，...

10-22

如何在百度地图注册多个店面？如何在百度地图注册多个店面入驻？

如何在百度地图上标注多个地点？地理法：举例来说：的地理位置 1、点内右上角的容第2个图标（如图），确认“收藏点”...

11-27

正规物联卡公司排行，谁第一？（物联卡公司排行榜）

随着社会、科技、经济全面发展，物联网发展、物联卡广泛已成为必不可当的趋势。市面上物联卡公司更是层出不穷。究竟哪...

11-07

Win10 Build 10125测试版修复了斯巴达项目存在的大问题

Windows 10 Build 10125测试版刚刚在互联网上泄露，感兴趣的可以下载安装（Win10 Build 10125 86/64位ios镜像下载），它可能没有的新功...

10-20

400号怎样申请

申请400号码，需要根据具体需求选择相应的运营商和服务商，按照要求填写相关申请表格，并缴纳相应的费用。下面详细介绍...

07-21

哪里有羿智云外呼系统（智云呼官网）

本文目次一览： 1、成都那家外呼体系对照好， 2、外呼软件有哪些？ 3、电销外呼体系哪个好了？市道上的太多了！有可能推...

11-26

微信公众号代运营公司如何吸粉？有哪些技巧？

微信公众号代运营本身的吸粉的具体办法就有很多，所以这也是威海市呢么会有很多企业和商家挑选公众号代运营的主要原因...

03-01

400电话有哪些智能转接模式

每个企业的400电话都需要绑定多个固话和手机，当用户的拨打咨询时，怎么转接绑定的电话，这就是400电话的智能转接模式。...

05-09

无锡联通电销线路办理多少钱,呼叫中心系统哪家好-大家都知道

无锡联通电销线路办理多少钱,呼叫中心系统哪家好怎样去了解呼叫中心是最快的途径？这个其实都不我们说，您就会知道，...

12-16

电销卡为什么要收费用？

相信很多没有用过电销卡的朋友，第一次买卡都会有这个疑问，就是电销卡为什么要收取一个额外的费用呢？有这个疑问也不...

05-30

德阳电话机器人（德阳电话机器人系统）

本文目录一览：1、阿里斯顿太阳能24小时官网电话热线-(全国各网点)24小时400服务热线_百...2、ai问答机器人在线3、315之后,骚...

08-28

2013十大网络流行用语 2013十大最新网络语言 2013十大最火网络语言

由国家语言资源监测与研究网络媒体中心、商务印书馆、中国网络电视台联合主办的汉语盘点2013近日在京揭晓。经过专家评...

10-19

金华稳定电话呼叫软件多少钱,呼叫中心系统办理多少钱-了解详情

金华稳定电话呼叫软件多少钱,呼叫中心系统办理多少钱大家知道一个电子商务企业建立呼叫中心。第一个就是客服，有些客...

12-16

史上最“给力”的机器人——FANUCM-2000iA机器人

在过去的生产模式中，要搬运重量级物品的时候一般都需要输送带或者有类似功能的机器。虽然很多厂家仍然在使用这种机器...

10-30

包含催收外呼系统联系方式的词条

本篇文章给我们谈谈催收外呼体系联络方法，以及对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。本文目录一...

05-18

贵阳不封卡电销卡办理（贵阳办电话卡）

本篇文章给大家谈谈贵阳不封卡电销卡办理，以及贵阳办电话卡对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

05-18

人工客服机器人云呼ai_电话机器人

比人工销售电话机器人更容易使用。电话机器人一天可以打800-1000通电话，不受环境、感情、身体状况等的影响，经常进行稳...

10-31

电销免封号好用吗

电销免封号好用吗电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，所以这样也...

12-16

电销卡是什么样的卡号（电销卡是什么卡?谁知道?）

本文目录一览：1、电销卡到底是什么卡呢?2、电销卡和电话卡的区别有哪些?3、电销卡是什么?为什么电销卡也会封号?电销卡...

07-10

电销卡代理商湛江店（销售电销卡）

本文目录一览： 1、湛江哪里有沟通100营业厅，我想办全球通卡。2、电销卡不封号卡哪里有卖3、电销卡在哪里办理4、长江电...

04-22

常州客服外呼系统开发（常州呼叫中心）

本文目录一览： 1、外呼系统怎么办理？2、哪些电话外呼系统及电话销售系统好使？而且功能完善？3、外呼系统哪家公司做...

11-27

成都语音外呼系统线路（成都电话外呼系统）

本文目录一览： 1、外呼线路供给(电话发售公用) 2、成都那家外呼体系对照好， 3、外呼线路供给是什么？ 4、外呼体系什么...

11-25

语音外呼系统平台软件价格（语音营销外呼系统）

本文目录一览： 1、呼叫中心或外呼系统哪种又便宜又好的啊2、外呼系统安装需要哪些费用？3、外呼系统一个多少钱，有哪...

11-27

郑州自动外呼系统价钱（智能外呼系统费用）

本文目录一览： 1、外呼体系什么价格？2、外呼体系装置需求哪些费用？3、外呼体系多少钱一个月？4、外呼体系一个多少钱...

04-23

石家庄电话机器人如何（大连电话机器人）

本篇文章给大家谈谈石家庄电话机器人如何，以及大连电话机器人对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

05-03

南阳市稳定不封号电销卡便宜

早期，三大运营商各分配了3000万码号资源，空留1704号段无人认领。不过，随着联通合作虚拟运营商飞速发展用户，联通不仅...

02-23

电话机器人在自来水客服中心的应用

随着技术的进步，人工智能已经开始走入我们的生活，而且正以一种磁悬浮般的速度向我们奔来。人工智能将会为我们带来哪...

10-24

400电话对企业的好处用代理商安装400电话怎样？怎样选择代理商？

400电话不会占线，这样可以有效的增加用户的体验，也可以直接提升企业的业务量，所以400电话的优势对于企业来说有着极大...

01-12

金华房地产电销软件公司,电话营销线路-价格靠谱

金华房地产电销软件公司,电话营销线路不会受到情绪的影响，流畅的与客户进行沟通，回答专业性的问题，提高成交率。依...

今天给各位分享兰州企业外呼系统公司的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，...

05-17

安阳ai电话机器人加盟（安阳ai电话机器人加盟店）

本篇文章给咱们谈谈安阳AI电话机器人加盟，以及安阳ai电话机器人加盟店对应的知识点，希望对各位有所协助，不要忘了保...

06-12

携程商户怎么显示到高德地图？携程地图商户位置服务？

请问：携程的酒店定位？您好您可以致电酒店问一下具体位置使用百度地图查询会更加准确手机携程如何连接百度地图？...

11-26

移动蓝星卡9元套餐怎么样?

现在有很多的流量卡月租非常便宜，但是像移动蓝星卡这样只要9元月租的卡也是很少的，接下来我们来看下移动蓝星卡9元套...

10-20

怎么申请一个400的电话（怎样申请400电话号码）

怎么申请一个400的电话（怎样申请400电话号码）近年来，越来越多的企业开始使用400电话，它可以提高客服效率、降低客户...

08-14

丽江语音电销机器人（电销机器人电话机器人）

本文目录一览： 1、电销板滞人运用成就怎样样 2、电销板滞人是什么？ 3、电销板滞人怎样样？ 4、电销板滞人有什么听命...

11-25

400电话办理怎样选择适合套餐企业400电话申请的套餐选择

选择合适的400电话套餐，不仅可以为企业节省成本，避免浪费，还可以满足企业的所有需求。面对10多个400电话套餐，我该如...

01-12

ofo新增用户远超摩拜成行业第一品牌增速连续8个月第一

共享单车在近年来的快速普及，为在城市生活的用户带来了极大的便当，同时也让城市的生活环境变得更加绿色。进入 2017...

10-16

呼叫中心客服系统-企蜂-企蜂云

客户关系管理的实施重在员工的参与，让员工充分的认识到其中的价值尤为重要。要实施新的客户管理模式，还要适应一个相...

10-25

诚信可靠的电销外呼系统（电话销售外呼系统软件电销网）

本文目录一览： 1、电销外呼体系哪个好了？市面上的太多了！有能够引荐的吗？2、有靠谱的外呼体系吗，别让我再办卡，公...

11-28

金华稳定群呼线路办理公司,呼叫中心软件-原创

金华稳定群呼线路办理公司,呼叫中心软件但实际意图客户很少，不是电动推销员能力不好，不是销售员技能不够，但在电话...

12-16

电信400客服电话是多少电信打400电话要钱吗

400电话是运营商专门为企业设计的呼叫管理中心。它有20多种功能，不仅可以提高企业的通信效率和服务水平，还可以提升企...

01-13

ai电话机器人讯飞（ai语音电话机器人）

本篇文章给咱们谈谈ai电话机器人讯飞，以及ai语音电话机器人对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。...

05-17

用python写个博客迁移工具

10-18

本页收集关于用python写个博客迁移工具的相关信息资讯供网民参考！

四合一精品企业网站建设

多一个网站就为企业多增加一条营销渠道

¥888元限时抢购

立即咨询 快速购买

企业400电话

智能AI客服机器人
￥15000

在线订购

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

推荐文章

上一篇：python 合并列表的八种方法

下一篇：Python基于SMTP发送邮件的方法

一起分享吧

用python写个博客迁移工具

目录

前言

掘金的成长

搬家命令行工具

环境配置

main.py

cookie.json

github 地址

四合一精品企业网站建设

¥888元限时抢购

立即咨询快速购买

企业400电话

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

在线咨询