Python爬虫:通过js逆向获取某视频平台上的视频的m3u8链接

2023-09-08 09:13:41

Python爬虫:通过js逆向获取某视频平台上的视频的m3u8链接

1. 前言

现在我们在网页端看的视频,其前端实现原理就小编目前知道的而言,总的有两点:其一,直接就是一个mp4(或其他类似的)视频链接,如果我们能得到这个视频链接,直接用这个链接就能下载到这个视频;其二,和第一点差不多吧!但是直接用链接下载,获取不到视频文件,而是一个其他类型的文件(比如m3u8文件),虽然不能直接下载到视频,但是通过进一步处理,最后还是能得到视频文件的。最近,看到了一个视频平台,觉得这个平台挺好的,没有广告,想得到在这个平台的视频文件,但是其原理属于第二种情况,且网站进行相对复杂的加密处理,怎样才能得到这个平台上的视频的m3u8文件呢?
请添加图片描述

2. js逆向分析

通过一些分析,可以发现,要想得到这个m3u8文件,首先需要得到m3u8链接,要想得到m3u8链接,前提是明白这个链接中的一些参数的来源,然而这些参数来源却是一个请求接口链接的结果数据,为此,需要得到这个接口链接,可是这个接口链接的一些请求参数却做了严格的加密处理,如下:
请添加图片描述
主要是上述图片中画上红框的两个参数值,通过一些js逆向分析,最后可以定位到这里。
请添加图片描述
因为其中做了较为复杂的加密处理,如果要详细讲解,可能本篇博文很长,为此,只是简化讲解而已。这两个参数值用Python模拟加密之后,进行链接组合,最后可以得到这个接口链接,请求这个接口链接,可以得到如下数据:
请添加图片描述
在上述json数据找到一些在m3u8链接中需要用到的参数值,通过Python模拟加密,然后再进行组合,最后便可以得到最终想要的m3u8链接。请添加图片描述
Python模拟
请添加图片描述
因为其中一些参数进行随机化处理,所以上述两张图片中m3u8链接并不是相同的,但是都是可以正常访问的。

3. 参考代码和运行结果
import execjs
import requests
from crawlers.userAgent import useragent
import json
from lxml import etree


obj = {
    "webSite": "ppVideo_PC_site",
    "queryParams": "&o=0&contCoprChl=pptv.web",
    "username": "",
    "token": "",
    "startPosition": 0,
    "resLiveFormat": "flv",
    "resVodFormat": "m3u8",
    "skipMovieTitle": True,
    "autoPlay": False,
    "useP2P": False,
    "environment": "prd",
    "useOnePlay": True,
    "ppi": "302c3532",
    "o": "0",
    "playerVersion": "4.1.18",
    "vvid": "c2834d35-1a50-3790-5568-30f2c2a0ce1b",
    "playApiConfig": {
        "appid": "pptv.web.h5",
        "channel": "sn.cultural",
        "type": "mhpptv"
    },
    "useOnePlayPreview": False,
    "playParamsShow": False,
    "previewKey": ""
}
u = useragent()

html_url = input('输入:')
rsp2 = requests.get(url=html_url,headers={
    'user-agent':u.getUserAgent()
})
html = etree.HTML(rsp2.text)
_json_data = html.xpath('//script/text()')[-1]
_json_data = _json_data[_json_data.find('=')+1:_json_data.rfind(';')].strip()
_map_data = json.loads(_json_data)
cid = _map_data['cid']
with open(file='./test.js',mode='r',encoding='utf-8') as f:
    _js_str = f.read()
ctx = execjs.compile(_js_str)
url = ctx.call('getWebPlayInfoAddr',cid,obj)

rsp = requests.get(url=f'https:{url}',headers = {
    'user-agent':u.getUserAgent()
})
_res_str = rsp.text
_res_str = _res_str[_res_str.find('(')+1:_res_str.rfind(')')]
_map = json.loads(_res_str)
items = _map['data']['program']['media']['resource']['vod2']['item']
with open(file='./test2.js',mode='r',encoding='utf-8') as f:
    _js_str2 = f.read()
ctx2 = execjs.compile(_js_str2)
for e in items:
    rid = e['rid']
    v_id = rid[:rid.rfind('.')]
    e_obj = e['dt']
    flag,bh,id,sh,iv,st,key = e_obj['flag'],e_obj['bh'],e_obj['id'],e_obj['sh'],e_obj['iv'],e_obj['st'],e_obj['key']['content']
    params = ctx2.call('buildOnePlayVodSubStreamDetails',flag,bh,id,sh,iv,st,key)
    print(e['bitrate'],'https://ksyun.vod.pptv.com/{}.m3u8?fpp.ver=1.0.0&{}'.format(v_id,params))

【注】其中有两个js文件,因为代码量实在是太大了,所以就没有粘贴出来了。上述代码最终能得到视频的m3u8链接,如果读者想用这个m3u8链接最终得到视频文件,可以去看看小编这篇文章,文章链接为:Python爬虫:通过js逆向我发现了斗鱼视频请求参数的加密原理,当然,读者也可以考虑直接使用PotPlayer这个软件来播放这个m3u8链接。

代码运行结果:

Python爬虫:通过js逆向获取pp视频平台上的视频的m3u8链接

更多推荐

【专业课130分】重邮801上岸经验分享

这个系列会邀请往届学长学姐进行经验分享~经验贴征集:前人栽树,后人乘凉,上岸同学也是看着经验贴一点一点过来的,有偿征集各位同学的经验分享,以此来帮助更多的学弟学妹们!经验不限,形式不限,各科经验均可,没有上岸也可以有失败经验。文章一经采用就会得到稿费,快来投稿吧!!!一、学长经验分享本篇是来自重庆邮电大学801专业课1

如何选择一只股票,待完善。

目录ROE(盈利能力)增长率(成长能力)收现比(营收质量)总资产周转率(经营能力)增长率(成长能力)商誉净资产比(排雷)流动比率(排雷)ROE(盈利能力)什么是ROE?ROE全名叫ReturnofEquity,翻成中文叫“股东回报率”,也叫"净资产收益率"。净资产收益率反映了一个公司的盈利能力,以及企业为股东创造价值的

简单理解事件冒泡和事件捕获

事件冒泡和事件捕获DOM事件流会依次经历3个阶段(事件也会依次触发):(1)捕获阶段:事件从文档的根节点流向目标对象。(2)当前目标阶段:在目标对象上被触发。(3)冒泡阶段:从目标对象回溯到文档的根节点。默认事件是冒泡阶段发生,如果设置了事件,那么会依次触发,内层事件执行完成,才会冒泡触发上一层。1、事件冒泡如图是3个

Vue路由与node.js环境搭建

目录前言一.Vue路由1.什么是spa1.1简介1.2spa的特点1.3spa的优势以及未来的挑战2.路由的使用2.1导入JS依赖2.2定义两个组件2.3定义组件与路径对应关系2.4通过路由关系获取路由对象2.5将对象挂载到vue实例中2.6定义触发路由事件的按钮2.7定义锚点和路由内容2.8测试效果小结二.node.

linux-gic中断分析

linux-gic中断分析这里主要分析linuxkernel中GICv3中断控制器的代码(drivers/irqchip/irq-gic-v3.c)。一、设备树先来看下中断控制器的设备树信息:gic:interrupt-controller@3400000{compatible="arm,gic-v3";#interr

Git分布式版本控制工具

概念Git是一个分布式版本控制工具,主要用于管理开发过程中的源代码文件(Java类、xml文件、html页面等),在软件开发过程中被广泛使用。开发中的实际场景1.备份2.代码还原3.协同开发4.追溯问题代码的编写人和编写时间版本控制器的方式1.集中式版本控制工具版本库是集中存放在中央服务器的,team里每个人work时

Qt(day1)

思维导图Qt实现第一个web的基础页面#include"mywnd.h"#include"ui_mywnd.h"#include<QLabel>#include<QLineEdit>#include<qpushbutton.h>MyWnd::MyWnd(QWidget*parent):QMainWindow(paren

kafka生产者异步发送、同步发送、回调异步发送,是什么情况?

目录标题一、异步发送二、同步发送三、回调异步发送Kafka是一种分布式流处理平台,它是一种高吞吐量、可扩展、可持久化的消息队列系统,用于处理和存储实时流式数据。Kafka基于发布-订阅模式,采用了分布式、多副本、分区的架构。它允许生产者将数据以消息的形式发送到Kafka集群的一个或多个主题(topic)中,而消费者可以

(五)kafka从入门到精通之topic介绍

1、kafka简介Kafka是一个流行的分布式消息系统,它的核心是一个由多个节点组成的分布式集群。在Kafka中,数据被分割成多个小块,并通过一些复杂的算法在节点之间传递。这些小块被称为KafkaTopic。2、topic知识一个Topic是一组具有相同主题的消息。可以将Topic看作是一个数据仓库,在这个仓库中存储着

【Hash表】判断有没有重复元素-力扣 217

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kaf

ETHERCAT转ETHERCAT协议网关

JM-ECAT-ECAT产品介绍JM-ECAT-ECAT是自主研发的一款ETHERCAT从站功能的通讯网关。该产品主要功能是将2个ETHERCAT网络连接起来。本网关连接到ETHERCAT总线中做为从站使用。产品参数技术参数l网关做为ETHERCAT网络的从站,可以连接倍福、欧姆龙、基恩士等厂家的PLC。l带2个RJ4

热文推荐