使用mitmproxy批量获取公众号文章以及点赞、评论等数据
前言
一、目标分析
获取以下数据,以某个公众号为例:
二、逻辑分析
其实这些字段出现在不同的接口,单纯的获取文章信息毕竟容易,但是阅读数、点赞和在读等等获取的就比较麻烦。
主要涉及以下接口:
- 文章URL、概要、链接
/cgi-bin/appmsg
- 阅读数、在看数、点赞
/mp/getappmsgext
- 评论数
/mp/appmsg_comment
到了这里,分析以下几个问题。
首先文章链接这个可以通过访问公众号后台,通过引用的方式搜索到公众号下的文章列表,那么该如何批量获取呢?
![image-20231201175610600](/Users/medivh/Library/Application Support/typora-user-images/image-20231201175610600.png)
![image-20231201175626070](/Users/medivh/Library/Application Support/typora-user-images/image-20231201175626070.png)
三、使用mitmproxy
1 | pip install mitmproxy |
mitmproxy 有两种使用方式:
- 命令行
$ mitmdump -p 端口 -s 插件.py
- Web
$ mitmweb -p 端口 -s 插件.py
安装证书
启动后访问 http://mitm.it/,根据平台和系统选择并安装。
检查数据
- https://blog.csdn.net/qq_35787848/article/details/120999398
- https://blog.csdn.net/a854596855/article/details/114899871?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-5-114899871-blog-112464389.235^v39^pc_relevant_anti_t3_base&spm=1001.2101.3001.4242.4&utm_relevant_index=8
- https://blog.csdn.net/weixin_45081575/article/details/128354469
- https://blog.csdn.net/qq_38977435/article/details/118547990
- https://blog.csdn.net/weixin_48923393/article/details/107194727?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-107194727-blog-118547990.235%5Ev39%5Epc_relevant_anti_t3_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-107194727-blog-118547990.235%5Ev39%5Epc_relevant_anti_t3_base&utm_relevant_index=2
- https://www.jianshu.com/p/123dab22a2e0