【爬虫实战】使用Python和JS逆向抖音X-Bogus参数获取N条视频

前言

之前学习了一些JS逆向的知识点,但是都比较初级,基本上只能算是补补JS函数。这次以抖音为例,尝试一下补环境和开发者工具调试断点的新方法。

一、目标分析

1. 筛选接口

首先随机选择一个用户的主页,可以看到有若干作品,目标就是根据用户获取其所有的作品链接,然后下载。

某位UP主的主页

请求的接口有很多,最终筛查出来目标接口:

搜索关键字video可以看到一些URL地址

下载链接

然后访问一下,看看是不是真正的下载链接。

的确,就是这么回事。

2.检查请求头

这里就不再截图了,其实里面没有多少特殊的字段,也就Cookie有点特别。

3. 载荷

这部分有三个字段是密文

至于哪个是决定性的还不知道,也可能是都是必须的,也可能只有某一个。

二、逻辑分析

1. 找到请求入口

肯定先用简单的方式——搜索关键字,不行的话再考虑别的方式。但是这个网站上可以搜索一下X-Bogus,虽然能搜到,但是打过断点后发现并没有走那里。这里不再演示。其他的两个密文字段也一样。

所以最稳妥的方式就是从启动器里查找定位。

发现这里是一个ajax请求,但是可以看到有很多个请求都是从这里发出去的,所以不太好追踪目标接口。但是我们可以使用新的方式来只追踪这个接口:

在这里添加一条,输入目标URL即可,但是要记得先把之前的所有断点都取消。

可以看到自动停在了这里,显示的就是目标URL。

断点

其实在这里的时候,在控制台上输入this,就可以看到XB值已经生成了,在最后面:

1
"/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAqwlfqpCgGCpMAxMEQm_evPUupsTBamwkG5-s6LWqqOgBTv9tniP-7P6QrjK4-m1N&max_cursor=0&locate_query=false&show_live_replay_strategy=1&need_time_list=1&time_list_query=0&whale_cut_token=&cut_version=1&count=18&publish_video_strategy_type=2&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=MacIntel&browser_name=Chrome&browser_version=116.0.0.0&browser_online=true&engine_name=Blink&engine_version=116.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=8&device_memory=8&platform=PC&downlink=10&effective_type=4g&round_trip_time=150&webid=7304127941348312585&msToken=m481D4fH-oOr3yUt_GMWxmhIvvFhjoWXQnWK8AK0ZaKuEwbkp-goBkCM5C6N4u03IiMM2JGF064qCIXQjKgQm-SOnXG3OSDbTLhDezOjda_r4pzEL3Fl9MWytJ904EJI&X-Bogus=DFSzswVOcYsANSTItmLIGMm4pIDg"

所以可以检查前一步调用。

进一步追踪

到了这里可以可以确定就是这行生成的密文,但是会发现_0xc26b5e, _0x1f1790这俩值是一直变化的。简单聊一下这里的语法。

1
_0x2458f0['y']++) : _0xcc6308[++_0x2e1055] = _0x2458f0['apply'](_0xc26b5e, _0x1f1790);

apply 是 JavaScript 中的函数方法,用于调用函数,并且可以指定函数执行时的上下文(this 值),以及传递一个数组或类数组对象作为函数的参数。

这行代码中,_0x2458f0['apply'] 表示调用 _0x2458f0 对象的 apply 方法。这个方法的作用是调用一个函数,并且可以将一个数组或类数组对象的元素作为参数传递给这个函数。

具体来说:

  • _0x2458f0: 这是一个对象,可能是一个函数对象。
  • .apply: 这是 JavaScript 函数对象的一个方法,用于调用该函数。
  • _0xc26b5e: 这是一个函数,它将作为 apply 方法的第一个参数传递给 _0x2458f0
  • _0x1f1790: 这是一个数组,它将作为 apply 方法的第二个参数传递给 _0x2458f0 中的函数。

这一行的目的是将 _0x2458f0 对象中的某个函数(可能是函数数组中的某个元素)以 _0xc26b5e 为上下文调用,同时传递 _0x1f1790 数组作为参数,然后将结果赋值给 _0xcc6308[++_0x2e1055]

但是还是不好定位,我们有以下两种方式继续追踪,日志断点和条件断点,首先在_0x2458f0['apply'](_0xc26b5e, _0x1f1790)打断点:日志断点:console.log(_0x2458f0['apply'](_0xc26b5e, _0x1f1790))。输出有很多,但是可以过滤一下关键字,比如URL或者XB的前面的几个字母:

可以看到XB值的确出现了,URL也出现了。接下来可以使用条件断点,当输出XB值的时候断住,再去追踪函数,_0x2458f0['apply'](_0xc26b5e, _0x1f1790).length==28。因为XB值的长度是28位,可以根据这个来判断。

2. 找到加密函数

刷新,然后就被断住了,检查值

然后跟踪函数,可以看到XB值出现了:

返回值

定位结束。

三、代码实现

3.1 JS部分

实现方式有两种,第一种就是补函数,第二种就是补环境。

3.1.1 补函数

首先看第一种,先复制整个文件,然后直接运行。

ReferenceError: window is not defined

增加`window = global``

**ReferenceError: Request is not defined **

定位到代码:

1
2
var _0x2aa7e4 = Request && Request instanceof Object
, _0x2b58b8 = Headers && Headers instanceof Object;

可以看到是两个布尔类型的值,在控制台运行后发现都是true,修改代码:

1
2
var _0x2aa7e4 =true
, _0x2b58b8 = true;

ReferenceError: document is not defined

其实这里提示的是document['referrer'],在控制台或者请求头那里复制一个就行

1
2
3
document = {
"referer":'https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s',
}

TypeError: document.addEventListener is not a function

和referer一样,补上即可:

1
2
3
4
document = {
"referer":'https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s',
'addEventListener': function addEventListener(){}
}

这时候就会发现不再报错了,那么就可以使用一个全局变量获取XB值了,找到之前加密的函数_0x5a8f25那里。

1
2
3
4
function _0x5a8f25(_0x48914f, _0xa771aa) {
return ('undefined' == typeof window ? global : window)['_$webrt_1668687510']('', [, , void (-0x1afd + 0x22 * 0x25 + 0x1613), void (-0x1 * 0x71e + 0x726 + -0x2 * 0x4) !== _0x38ba41 ? _0x38ba41 : void (0x1 * 0x247f + -0x584 * -0x1 + -0x2a03), void (0x216d + -0x1 * -0x5ba + -0x303 * 0xd) !== _0x3dbe20 ? _0x3dbe20 : void (-0x325 * -0x2 + 0xb1b + -0x49 * 0x3d), void (-0x27 * 0xe9 + -0x19e2 + 0x3d61) !== _0xeb6638 ? _0xeb6638 : void (-0x211a + -0x3d * -0x88 + 0xb2 * 0x1), void (-0x1 * 0x61f + -0x65 * 0x1f + 0x125a) !== _0x2bd2cf ? _0x2bd2cf : void (-0x71e * -0x5 + 0x42b + 0x1 * -0x27c1), void (-0x7 * -0x481 + 0xc49 + -0x2bd0) !== _0x45636f ? _0x45636f : void (-0x1 * 0x1072 + -0x9e4 + 0x1a56 * 0x1), void (0x569 + 0x20ae + 0x571 * -0x7) !== _0x2cee6c ? _0x2cee6c : void (0x6 * 0x10f + -0xac * -0x3a + -0x2d52 * 0x1), void (0x58 * 0x26 + -0x17f6 * 0x1 + -0xa * -0x117) !== _0x402a35 ? _0x402a35 : void (-0x13d4 + 0x1dbd + 0x9e9 * -0x1), void (0x10fb + 0x2332 + -0x342d) !== _0x5cf87b ? _0x5cf87b : void (-0xa * 0x1ed + 0x1713 + 0x3d1 * -0x1), 'undefined' != typeof String ? String : void (-0x1131 + -0x24e8 + 0x1 * 0x3619), 'undefined' != typeof navigator ? navigator : void (0x1 * 0xbdf + -0x173e + 0xb5f), void (-0x3 * 0x166 + -0x584 + 0x9b6) !== _0x5caed2 ? _0x5caed2 : void (-0x10e * -0xf + 0x12b6 + -0x2288), void (0x272 * -0x6 + -0xcf * -0x2f + -0x21 * 0xb5) !== _0x25788b ? _0x25788b : void (-0x9 * -0x37b + -0x1 * 0x143b + -0xb18), void (0x1a77 + -0x53 * -0x16 + -0x2199) !== _0x2642b3 ? _0x2642b3 : void (0x264d + -0x11 * 0x1a + 0x2493 * -0x1), 'undefined' != typeof Date ? Date : void (0x14f * 0x3 + -0x2ff * 0xd + -0x1183 * -0x2), void (-0x1 * 0xb81 + 0x1c8c + -0x110b) !== _0x17dd8c ? _0x17dd8c : void (-0x1 * 0xf01 + -0x466 * -0x5 + 0x6fd * -0x1), void (-0x1 * -0x141b + -0x1 * -0x15ee + -0x2a09) !== _0x398111 ? _0x398111 : void (-0x16bd + 0x1690 + 0x2d), void (0x706 * 0x1 + -0x116 * 0x13 + 0x86 * 0x1a) !== _0x86cb82 ? _0x86cb82 : void (-0x121 + 0x22 * -0xa3 + 0x1 * 0x16c7), void (-0x1 * 0x599 + -0x98a + 0xf23) !== _0x94582 ? _0x94582 : void (-0xa0d + -0x1253 + 0x1c60), void (-0x348 + 0x959 * -0x2 + -0x1d * -0xc2) !== _0x38c772 ? _0x38c772 : void (0x8 * -0x4a2 + -0x6 * 0x340 + -0x10 * -0x389), , _0x5a8f25, _0x48914f, _0xa771aa]);
}
window.xb = _0x5a8f25

最后再输出一下:

1
console.log(window.xb())

TypeError: Cannot read property ‘userAgent’ of undefined

继续补:

1
2
3
navigator = {
"userAgent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
}

再次执行,输出了正常结果,警告部分可以忽视。

输出

3.1.2 补环境

其实这里的补环境,严格意义上还不太算。

首先需要安装vm2:

1
npm install vm2@3.9.3

基础使用

1
2
3
4
5
var vm = require("vm2") // 新的虚拟环境
const {VM, VMScript} = vm
var myvm = new VM() // 新的实例对象
ret = myvm.run("1+2") // 输出 3
ret1 = myvm.run("process") // 会报错,因为在node里是能识别的,但是在vm2这种纯v8环境中是没有的

使用vm2的基本思路如下:

  1. 创建新的虚拟环境,然后实例化
  2. 加载环境相关的JS文件
  3. 加载源码JS文件
  4. 加载特殊函数
  5. 运行并输出返回值。

整体步骤如下:

  1. 首先复制全部的JS代码到一个新文件01,不再重复该步骤具体操作。
  2. 然后创建一个专门用来补环境的JS文件02,之后缺失的东西都写入到这个文件。
  3. 创建运行vm2的JS文件03。

03.js写入以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
var fs = require("fs")
var vm = require("vm2")
// 初始化vm对象
const {VM, VMScript} = vm
var myvm = new VM()

jsCode = ""
// (1)添加补环境的代码
code01 = fs.readFileSync("./补环境.js")
// console.log(code01.toString())
jsCode += code01
jsCode += "\n"
// (2)添加源码
code02 = fs.readFileSync("./源码.js")
// console.log(code01.toString())
jsCode += code02
jsCode += "\n"

ReferenceError [Error]: window is not defined

补window到补环境.js,window = global;

ReferenceError [Error]: Request is not defined

补环境.js,

1
2
3
4
Request = function Request() {
}
Headers = function Headers() {
}

ReferenceError [Error]: document is not defined

1
document = {}

ReferenceError [Error]: setTimeout is not defined

1
2
setTimeout = function setTimeout(code, time) {
}

这时候就不再报错了,可以将XB值赋给全局变量了,修改源码,添加window.xb = _0x5a8f25。但是要在源码最后加上一个调用,否则会提示foo不是个函数:

1
window.xb

修改vm环境.js,增加

1
2
3
4
5
6
7
8
9
// (3)执行源码函数
function get_X_B(data) {
var foo = myvm.run(jsCode)
return foo(data)
}

// 测试
data = '123456'
console.log(get_X_B(data))

TypeError [Error]: Cannot read property ‘userAgent’ of undefined

1
2
3
navigator = {
userAgent: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36",
}

再次运行就会输出XB值了DFSzs5VOoM2ANSzCtmFkOdsNhy8H

3.2 Python部分

Python部分需要调用返回的XB值发出请求,然后下载文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import execjs
import requests

headers = {
# UA 要和JS代码里的UA保持一致
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36",
"Referer": "https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s",
"Cookie": "xxxxxxxx"
}


def start():
with open('xxx.js') as f:
js_code = f.read()
js_compile = execjs.compile(js_code)
params = f'device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id={user_id}&max_cursor=0&locate_query=false&show_live_replay_strategy=1&need_time_list=1&time_list_query=0&whale_cut_token=&cut_version=1&count=18&publish_video_strategy_type=2&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1512&screen_height=982&browser_language=zh-CN&browser_platform=MacIntel&browser_name=Chrome&browser_version=116.0.0.0&browser_online=true&engine_name=Blink&engine_version=116.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=8&device_memory=8&platform=PC&downlink=10&effective_type=4g&round_trip_time=250&webid=7304127941348312585&msToken=cuOiVLmw388t-pv_8HmGuvMpvRPH70MzpRJrPHOLxp9d8hP4_G08a9mxgOg37OJFtjmrh1tGi763daipLCOjS3JKutS9LmM5K6HfiF1tCHYir31g4Up9rOP-F6BQyR_n&X-Bogus=DFSzswVutpbANSBUtmbP4lm4pIdL'
xb = js_compile.call("window.xb", params)
print(xb)
url = 'https://www.douyin.com/aweme/v1/web/aweme/post/?'
new_url = url + params + "&X-Bogus=" + xb
resp = requests.get(new_url, headers=headers)
print(resp.json())


if __name__ == '__main__':
# user_id = 'MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s'
user_id = 'MS4wLjABAAAAMbqnWxzUfZegt9vrNBDz7zyqwhvG6vXiKTDxVm2wUD0'
start()

这样就实现了视频地址的获取,如果想要下载也很简单,直接requests请求即可,没啥难度。这里只是展示了获取单个用户的作品,稍微修改一下就可以获取更多用户的作品。

此外还有个翻页的问题,之前的代码只能获取第一页。是否有下一页取决于响应数据中的has_more的值是否为1,和之前的小红书是一样的,如果为1就继续循环。

首次请求

首次请求max_cursor为0,响应数据为1698056089000。

响应数据

那么下次的max_cursor就是刚才数据里的1698056089000。规律就是首次请求值为0,下次请求的值为上一次的返回的max_cursor。

就是这么回事。

以上代码较为简陋,后来又解决了一系列的问题:

  1. 翻页
  2. 获取多个用户的视频
  3. 批量下载

如果有更多问题,可以联系我。

四、总结

首先逆向了XB值,使用了基础版的补环境方式,学习了打断点的另外两种方式。之后分析了视频列表翻页的问题。