前言 之前学习了一些JS逆向的知识点,但是都比较初级,基本上只能算是补补JS函数。这次以抖音为例,尝试一下补环境和开发者工具调试断点的新方法。
一、目标分析 1. 筛选接口 首先随机选择一个用户的主页,可以看到有若干作品,目标就是根据用户获取其所有的作品链接,然后下载。
请求的接口有很多,最终筛查出来目标接口:
搜索关键字video
可以看到一些URL地址
然后访问一下,看看是不是真正的下载链接。
的确,就是这么回事。
2.检查请求头 这里就不再截图了,其实里面没有多少特殊的字段,也就Cookie有点特别。
3. 载荷 这部分有三个字段是密文
至于哪个是决定性的还不知道,也可能是都是必须的,也可能只有某一个。
二、逻辑分析 1. 找到请求入口 肯定先用简单的方式——搜索关键字,不行的话再考虑别的方式。但是这个网站上可以搜索一下X-Bogus ,虽然能搜到,但是打过断点后发现并没有走那里。这里不再演示。其他的两个密文字段也一样。
所以最稳妥的方式就是从启动器里查找定位。
发现这里是一个ajax请求,但是可以看到有很多个请求都是从这里发出去的,所以不太好追踪目标接口。但是我们可以使用新的方式来只追踪这个接口:
在这里添加一条,输入目标URL即可,但是要记得先把之前的所有断点都取消。
可以看到自动停在了这里,显示的就是目标URL。
其实在这里的时候,在控制台上输入this
,就可以看到XB值已经生成了,在最后面:
1 "/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAqwlfqpCgGCpMAxMEQm_evPUupsTBamwkG5-s6LWqqOgBTv9tniP-7P6QrjK4-m1N&max_cursor=0&locate_query=false&show_live_replay_strategy=1&need_time_list=1&time_list_query=0&whale_cut_token=&cut_version=1&count=18&publish_video_strategy_type=2&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=MacIntel&browser_name=Chrome&browser_version=116.0.0.0&browser_online=true&engine_name=Blink&engine_version=116.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=8&device_memory=8&platform=PC&downlink=10&effective_type=4g&round_trip_time=150&webid=7304127941348312585&msToken=m481D4fH-oOr3yUt_GMWxmhIvvFhjoWXQnWK8AK0ZaKuEwbkp-goBkCM5C6N4u03IiMM2JGF064qCIXQjKgQm-SOnXG3OSDbTLhDezOjda_r4pzEL3Fl9MWytJ904EJI&X-Bogus=DFSzswVOcYsANSTItmLIGMm4pIDg"
所以可以检查前一步调用。
到了这里可以可以确定就是这行生成的密文,但是会发现_0xc26b5e, _0x1f1790
这俩值是一直变化的。简单聊一下这里的语法。
1 _0x2458f0['y' ]++) : _0xcc6308[++_0x2e1055] = _0x2458f0['apply' ](_0xc26b5e, _0x1f1790);
apply
是 JavaScript 中的函数方法,用于调用函数,并且可以指定函数执行时的上下文(this
值),以及传递一个数组或类数组对象作为函数的参数。
这行代码中,_0x2458f0['apply']
表示调用 _0x2458f0
对象的 apply
方法。这个方法的作用是调用一个函数,并且可以将一个数组或类数组对象的元素作为参数传递给这个函数。
具体来说:
_0x2458f0
: 这是一个对象,可能是一个函数对象。.apply
: 这是 JavaScript 函数对象的一个方法,用于调用该函数。_0xc26b5e
: 这是一个函数,它将作为 apply
方法的第一个参数传递给 _0x2458f0
。_0x1f1790
: 这是一个数组,它将作为 apply
方法的第二个参数传递给 _0x2458f0
中的函数。这一行的目的是将 _0x2458f0
对象中的某个函数(可能是函数数组中的某个元素)以 _0xc26b5e
为上下文调用,同时传递 _0x1f1790
数组作为参数,然后将结果赋值给 _0xcc6308[++_0x2e1055]
。
但是还是不好定位,我们有以下两种方式继续追踪,日志断点和条件断点,首先在_0x2458f0['apply'](_0xc26b5e, _0x1f1790)
打断点:日志断点:console.log(_0x2458f0['apply'](_0xc26b5e, _0x1f1790))
。输出有很多,但是可以过滤一下关键字,比如URL或者XB的前面的几个字母:
可以看到XB值的确出现了,URL也出现了。接下来可以使用条件断点,当输出XB值的时候断住,再去追踪函数,_0x2458f0['apply'](_0xc26b5e, _0x1f1790).length==28
。因为XB值的长度是28位,可以根据这个来判断。
2. 找到加密函数 刷新,然后就被断住了,检查值
然后跟踪函数,可以看到XB值出现了:
定位结束。
三、代码实现 3.1 JS部分 实现方式有两种,第一种就是补函数,第二种就是补环境。
3.1.1 补函数 首先看第一种,先复制整个文件,然后直接运行。
ReferenceError: window is not defined
增加`window = global``
**ReferenceError: Request is not defined
**
定位到代码:
1 2 var _0x2aa7e4 = Request && Request instanceof Object , _0x2b58b8 = Headers && Headers instanceof Object ;
可以看到是两个布尔类型的值,在控制台运行后发现都是true,修改代码:
1 2 var _0x2aa7e4 =true , _0x2b58b8 = true ;
ReferenceError: document is not defined
其实这里提示的是document['referrer']
,在控制台或者请求头那里复制一个就行
1 2 3 document = { "referer" :'https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s' , }
TypeError: document.addEventListener is not a function
和referer一样,补上即可:
1 2 3 4 document = { "referer" :'https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s' , 'addEventListener' : function addEventListener ( ){} }
这时候就会发现不再报错了,那么就可以使用一个全局变量获取XB值了,找到之前加密的函数_0x5a8f25
那里。
1 2 3 4 function _0x5a8f25 (_0x48914f, _0xa771aa ) { return ('undefined' == typeof window ? global : window )['_$webrt_1668687510' ]('' , [, , void (-0x1afd + 0x22 * 0x25 + 0x1613 ), void (-0x1 * 0x71e + 0x726 + -0x2 * 0x4 ) !== _0x38ba41 ? _0x38ba41 : void (0x1 * 0x247f + -0x584 * -0x1 + -0x2a03 ), void (0x216d + -0x1 * -0x5ba + -0x303 * 0xd ) !== _0x3dbe20 ? _0x3dbe20 : void (-0x325 * -0x2 + 0xb1b + -0x49 * 0x3d ), void (-0x27 * 0xe9 + -0x19e2 + 0x3d61 ) !== _0xeb6638 ? _0xeb6638 : void (-0x211a + -0x3d * -0x88 + 0xb2 * 0x1 ), void (-0x1 * 0x61f + -0x65 * 0x1f + 0x125a ) !== _0x2bd2cf ? _0x2bd2cf : void (-0x71e * -0x5 + 0x42b + 0x1 * -0x27c1 ), void (-0x7 * -0x481 + 0xc49 + -0x2bd0 ) !== _0x45636f ? _0x45636f : void (-0x1 * 0x1072 + -0x9e4 + 0x1a56 * 0x1 ), void (0x569 + 0x20ae + 0x571 * -0x7 ) !== _0x2cee6c ? _0x2cee6c : void (0x6 * 0x10f + -0xac * -0x3a + -0x2d52 * 0x1 ), void (0x58 * 0x26 + -0x17f6 * 0x1 + -0xa * -0x117 ) !== _0x402a35 ? _0x402a35 : void (-0x13d4 + 0x1dbd + 0x9e9 * -0x1 ), void (0x10fb + 0x2332 + -0x342d ) !== _0x5cf87b ? _0x5cf87b : void (-0xa * 0x1ed + 0x1713 + 0x3d1 * -0x1 ), 'undefined' != typeof String ? String : void (-0x1131 + -0x24e8 + 0x1 * 0x3619 ), 'undefined' != typeof navigator ? navigator : void (0x1 * 0xbdf + -0x173e + 0xb5f ), void (-0x3 * 0x166 + -0x584 + 0x9b6 ) !== _0x5caed2 ? _0x5caed2 : void (-0x10e * -0xf + 0x12b6 + -0x2288 ), void (0x272 * -0x6 + -0xcf * -0x2f + -0x21 * 0xb5 ) !== _0x25788b ? _0x25788b : void (-0x9 * -0x37b + -0x1 * 0x143b + -0xb18 ), void (0x1a77 + -0x53 * -0x16 + -0x2199 ) !== _0x2642b3 ? _0x2642b3 : void (0x264d + -0x11 * 0x1a + 0x2493 * -0x1 ), 'undefined' != typeof Date ? Date : void (0x14f * 0x3 + -0x2ff * 0xd + -0x1183 * -0x2 ), void (-0x1 * 0xb81 + 0x1c8c + -0x110b ) !== _0x17dd8c ? _0x17dd8c : void (-0x1 * 0xf01 + -0x466 * -0x5 + 0x6fd * -0x1 ), void (-0x1 * -0x141b + -0x1 * -0x15ee + -0x2a09 ) !== _0x398111 ? _0x398111 : void (-0x16bd + 0x1690 + 0x2d ), void (0x706 * 0x1 + -0x116 * 0x13 + 0x86 * 0x1a ) !== _0x86cb82 ? _0x86cb82 : void (-0x121 + 0x22 * -0xa3 + 0x1 * 0x16c7 ), void (-0x1 * 0x599 + -0x98a + 0xf23 ) !== _0x94582 ? _0x94582 : void (-0xa0d + -0x1253 + 0x1c60 ), void (-0x348 + 0x959 * -0x2 + -0x1d * -0xc2 ) !== _0x38c772 ? _0x38c772 : void (0x8 * -0x4a2 + -0x6 * 0x340 + -0x10 * -0x389 ), , _0x5a8f25, _0x48914f, _0xa771aa]); } window .xb = _0x5a8f25
最后再输出一下:
1 console .log (window .xb ())
TypeError: Cannot read property ‘userAgent’ of undefined
继续补:
1 2 3 navigator = { "userAgent" :'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36' }
再次执行,输出了正常结果,警告部分可以忽视。
3.1.2 补环境 其实这里的补环境,严格意义上还不太算。
首先需要安装vm2:
基础使用
1 2 3 4 5 var vm = require ("vm2" ) const {VM , VMScript } = vmvar myvm = new VM () ret = myvm.run ("1+2" ) ret1 = myvm.run ("process" )
使用vm2的基本思路如下:
创建新的虚拟环境,然后实例化 加载环境相关的JS文件 加载源码JS文件 加载特殊函数 运行并输出返回值。 整体步骤如下:
首先复制全部的JS代码到一个新文件01,不再重复该步骤具体操作。 然后创建一个专门用来补环境的JS文件02,之后缺失的东西都写入到这个文件。 创建运行vm2的JS文件03。 03.js写入以下内容:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 var fs = require ("fs" )var vm = require ("vm2" )const {VM , VMScript } = vmvar myvm = new VM ()jsCode = "" code01 = fs.readFileSync ("./补环境.js" ) jsCode += code01 jsCode += "\n" code02 = fs.readFileSync ("./源码.js" ) jsCode += code02 jsCode += "\n"
ReferenceError [Error]: window is not defined
补window到补环境.js,window = global;
ReferenceError [Error]: Request is not defined
补环境.js,
1 2 3 4 Request = function Request ( ) {} Headers = function Headers ( ) {}
ReferenceError [Error]: document is not defined
ReferenceError [Error]: setTimeout is not defined
1 2 setTimeout = function setTimeout (code, time ) {}
这时候就不再报错了,可以将XB值赋给全局变量了,修改源码,添加window.xb = _0x5a8f25
。但是要在源码最后加上一个调用,否则会提示foo不是个函数:
修改vm环境.js,增加
1 2 3 4 5 6 7 8 9 function get_X_B (data ) { var foo = myvm.run (jsCode) return foo (data) } data = '123456' console .log (get_X_B (data))
TypeError [Error]: Cannot read property ‘userAgent’ of undefined
1 2 3 navigator = { userAgent : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36" , }
再次运行就会输出XB值了DFSzs5VOoM2ANSzCtmFkOdsNhy8H
。
3.2 Python部分 Python部分需要调用返回的XB值发出请求,然后下载文件。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 import execjsimport requestsheaders = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36" , "Referer" : "https://www.douyin.com/user/MS4wLjABAAAAjemOgh7N4uocHHEMmnTrewBlqxuGnVMPr4kVZv6h12s" , "Cookie" : "xxxxxxxx" } def start (): with open ('xxx.js' ) as f: js_code = f.read() js_compile = execjs.compile (js_code) params = f'device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id={user_id} &max_cursor=0&locate_query=false&show_live_replay_strategy=1&need_time_list=1&time_list_query=0&whale_cut_token=&cut_version=1&count=18&publish_video_strategy_type=2&pc_client_type=1&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1512&screen_height=982&browser_language=zh-CN&browser_platform=MacIntel&browser_name=Chrome&browser_version=116.0.0.0&browser_online=true&engine_name=Blink&engine_version=116.0.0.0&os_name=Mac+OS&os_version=10.15.7&cpu_core_num=8&device_memory=8&platform=PC&downlink=10&effective_type=4g&round_trip_time=250&webid=7304127941348312585&msToken=cuOiVLmw388t-pv_8HmGuvMpvRPH70MzpRJrPHOLxp9d8hP4_G08a9mxgOg37OJFtjmrh1tGi763daipLCOjS3JKutS9LmM5K6HfiF1tCHYir31g4Up9rOP-F6BQyR_n&X-Bogus=DFSzswVutpbANSBUtmbP4lm4pIdL' xb = js_compile.call("window.xb" , params) print (xb) url = 'https://www.douyin.com/aweme/v1/web/aweme/post/?' new_url = url + params + "&X-Bogus=" + xb resp = requests.get(new_url, headers=headers) print (resp.json()) if __name__ == '__main__' : user_id = 'MS4wLjABAAAAMbqnWxzUfZegt9vrNBDz7zyqwhvG6vXiKTDxVm2wUD0' start()
这样就实现了视频地址的获取,如果想要下载也很简单,直接requests请求即可,没啥难度。这里只是展示了获取单个用户的作品,稍微修改一下就可以获取更多用户的作品。
此外还有个翻页的问题,之前的代码只能获取第一页。是否有下一页取决于响应数据中的has_more的值是否为1,和之前的小红书是一样的,如果为1就继续循环。
首次请求max_cursor为0,响应数据为1698056089000。
那么下次的max_cursor就是刚才数据里的1698056089000。规律就是首次请求值为0,下次请求的值为上一次的返回的max_cursor。
就是这么回事。
以上代码较为简陋,后来又解决了一系列的问题:
翻页 获取多个用户的视频 批量下载 如果有更多问题,可以联系我。
四、总结 首先逆向了XB值,使用了基础版的补环境方式,学习了打断点的另外两种方式。之后分析了视频列表翻页的问题。