Can
Be Better

基于Golang+Scrapy版本的微信公众号爬虫

前言

今日因为工作的需要,需要对微信公众号进行文章爬取。我尝试过三种方式分别为:

  • 1.调取微信公众号获取文章接口
  • 2.抓取搜狗微信网页版
  • 3.微信客户端中间人截取

前两种方案确定不可取,但是依旧简单说一下吧。

微信公众号抓取

首先这个需要申请一个微信公众号。原理就是微信公众号开发平台有一个文章编辑,有一个通过搜索其他微信公众号昵称获取文章列表的API进行抓取。经过我的试验,一个公众号一天最多抓取100~500篇不等的文章。其实按照这个数量还能使满足需求,但是不是很稳定,有时候抓取几十篇就会失败,还要面临封号的风险。(微信公众号一个身份证只能申请3个?)

搜狗微信抓取

其实去搜狗微信,搜索微信公众号昵称就可以预览最近的文章,不过要输入验证码。用Scrapy写了一个爬虫操作了一下,遇到了很迷的问题(忘记什么问题了),遂放弃。

中间人截取抓取

中间人其实就类似于一个中间件,访问微信公众号首先通过Go程序写的中间人,所以我们很容易获取到公众号的文章。配合bot自动点击,很容易实现大批量的文章抓取。所以本文着重介绍这种方法,包括go程序的中间人截取程序,自动点击bot程序,如何快速获取微信公众号biz的方法,scrapy的python脚本,以及如何搭建自己的代理IP池。

未经允许不得转载:最长的路 » 基于Golang+Scrapy版本的微信公众号爬虫

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址