python爬虫爬取电影数据并做可视化

2023-09-18 13:26:31

思路:

1、发送请求,解析html里面的数据

2、保存到csv文件

3、数据处理

4、数据可视化

需要用到的库:

import requests,csv  #请求库和保存库
import pandas as pd  #读取csv文件以及操作数据
from lxml import etree #解析html库
from pyecharts.charts import *  #可视化库

注意:后续用到分词库jieba以及词频统计库nltk 

 

环境:

解释器: python  3.10.5

编辑器:VsCode -jupyter-notebook

使用ipynb文件的扩展名 vscode会提示安装jupyter插件

 

一、发送请求、获取html

#请求的网址
url='https://ssr1.scrape.center/page/1'

#请求头
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}

#发起请求,获取文本数据  
reponse=requests.get(url,url,headers=headers)
print(reponse)

二、使用xpath提取html里面的数据并存到csv

#创建csv文件
with open('电影数据.csv',mode='w',encoding='utf-8',newline='') as f:
    #创建csv对象
    csv_save=csv.writer(f)

    #创建标题
    csv_save.writerow(['电影名','电影上映地','电影时长','上映时间','电影评分'])



    for page in range(1,11):  #传播关键1到10页的页数

        #请求的网址
        url='https://ssr1.scrape.center/page/{}'.format(page)
        print('当前请求页数:',page)

        #请求头
        headers={
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
        }


        response=requests.get(url,url,headers=headers,verify=False)
        print(response)

        html_data=etree.HTML(response.text)



        #获取电影名
        title=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/a/h2/text()')


        #获取电影制作地
        gbs=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[2]/span[1]/text()')

        #获取电影时长
        time=html_data.xpath('//div[@class="m-v-sm info"]/span[3]/text()')

        #获取电影上映时间
        move_time=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[3]/span/text()')

        #电影评分
        numder=html_data.xpath('//p[@class="score m-t-md m-b-n-sm"]/text()')



        for name,move_gbs,times,move_times,numders in zip(title,gbs,time,move_time,numder):
            print('电影名:',name,'  电影上映地址:',move_gbs,'   电影时长:',times,'   电影上映时间:',move_times,'   电影评分:',numders)
            #name,move_gbs,times,move_times,numders


            #写入csv文件
            csv_save.writerow([name,move_gbs,times,move_times,numders])

效果:

093e20cf4ab3450a83a8ec45f38febd5.png

 

三、使用pandas打开爬取的csv文件

data=pd.read_csv('电影数据.csv',encoding='utf-8')
print(data)

 

四、对电影名进行分词以及词频统计

注意:使用jieba分词,nltk分词  

这里的停用此表可以自己创建一个  里面放无意义的字,比如:的、不是、不然这些

每个字独占一行即可

import jieba

title_list=[]

for name in data['电影名']:

    #进行精准分词
    lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)
    
    for i in lcut :
#         print(i)
        
        
        #去除无意义的词

        #打开停用词表文件
        file_path=open('停用词表.txt',encoding='utf-8')

        #将读取的数据赋值给stop_words变量
        stop_words=file_path.read()
        
        
        #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
        if i not in stop_words:
            title_list.append(i)
# print(title_list)


#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能

#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 

#该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('The这个词',出现185次)

效果:612049265753401d8a3c1e58397d2688.png

 

五、词云可视化


  # 创建一个 WordCloud类(词云) 实例  
word_cloud = WordCloud()  
  
# 添加数据和词云大小范围    add('标题', 数据, word_size_range=将出现频率最高的单词添加到词云图中,并设置单词的大小范围为 20 到 100。)  
word_cloud.add('词云图', most_common_words, word_size_range=[20, 100])  
  
# 设置全局选项,包括标题  
word_cloud.set_global_opts(title_opts=opts.TitleOpts(title='电影数据词云图'))  
  
# 在 Jupyter Notebook 中渲染词云图  
word_cloud.render_notebook()

#也可以生成html文件观看
word_cloud.render('result.html')

运行效果:

a3aafd61393a4f82ad03e0b8e05d49cc.png

 

六、对电影时长进行统计并做柱形图可视化

#电影时长   去除分钟和,号这个 转为int  然后再转为列表  只提取20条数据,总共100条
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:20]
# print(move_time)

#电影名   只提取20条数据
move_name=data['电影名'].tolist()[0:20]
# print(move_name)

#创建Bar实例
Bar_obj=Bar()

#添加x轴数据标题
Bar_obj.add_xaxis(move_name)
    
#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)

#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据柱形图可视化'})


# 显示图表
Bar_obj.render_notebook()

效果:

24582af6f53d40f3888733789baa25da.png

 

七、电影时长折线图可视化


#去除分钟和,号这个 转为int  然后再转为列表  只提取25条数据
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:25]
# print(move_time)
 
#电影名   只提取25条数据
move_name=data['电影名'].tolist()[0:25]
# print(move_name)

#创建Bar实例
Bar_obj=Line()

#添加x轴数据标题
Bar_obj.add_xaxis(move_name)
    
#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)

#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据折线图可视化'})


# 显示图表
Bar_obj.render_notebook()

效果:

4ebb097fd6a84456a9f2512a34f4cf10.png

 

八、统计每个国家电影上映的数量

import jieba

title_list=[]

#遍历电影上映地这一列
for name in data['电影上映地']:

    #进行精准分词
    lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)
    
    for i in lcut :
#         print(i)
        
        
        #去除无意义的词

        #打开停用词表文件
        file_path=open('停用词表.txt',encoding='utf-8')

        #将读取的数据赋值给stop_words变量
        stop_words=file_path.read()
        
        
        #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
        if i not in stop_words:
            title_list.append(i)
# print(title_list)



#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能

#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 

#该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('单人这个词',出现185次)


#电影名 使用列表推导式来提取most_common_words中每个元素中的第一个元素,即出现次数,然后将它们存储在一个新的列表中
map_data_title = [count[0] for count in most_common_words]  
print(map_data_title)

#电影数
map_data=[count[1] for count in most_common_words]  
print(map_data)

效果:

223284609b074173895d500e641637b3.png

 

九、对每个国家电影上映数量饼图可视化

#获取map_data_title的长度,决定循环次数,赋值给遍历i 在通过下标取值 
result = [[map_data_title[i], map_data[i]] for i in range(len(map_data_title))]
print(result)

# 创建Pie实例
chart=Pie()

#添加标题和数据   radius=['圆形空白处百分比','色块百分比(大小)'] 可不写
chart.add('电影上映数饼图(单位:个)',result,radius=['50%','60%'])

#显示
chart.render_notebook()

效果:

04b17f4c7f0c49299ed9a142a0374ec8.png

 

觉得有帮助的话,点个赞!

 

更多推荐

深度学习编译器关键组件

1高层中间代码为了克服传统编译器中采用的IR限制DL模型中复杂计算的表达的局限性,现有的DL编译器利用高层IR(称为图IR)进行高效的代码优化设计。1.1图表示基于DAG的IR:基于DAG的IR是编译器构建计算图的最传统方法之一,它将节点和边组织为有向无环图(DAG)。在DL编译器中,DAG的节点表示原子DL运算符(卷

git使用详解

目录一,什么是git?二,如何安装git三,git的基本操作1.创建git本地仓库2.配置本地仓库3.认识工作区,暂存区,版本库。4.基本操作-添加文件5.基本操作-查看文件6.基本操作-修改文件7.版本回退8.撤销修改四.分支管理1.创建分支2.删除分支3.合并冲突4.分支管理策略5.bug分支6.强制删除分支五,远

网络爬虫-----初识爬虫

目录1.什么是爬虫?1.1初识网络爬虫1.1.1百度新闻案例说明1.1.2网站排名(访问权重pv)2.爬虫的领域(为什么学习爬虫?)2.1数据的来源2.2爬虫等于黑客吗?2.3大数据和爬虫又有啥关系?2.4爬虫的领域,前景3.总结什么是爬虫?爬虫能抓取拿些数据?1.什么是爬虫?本节课程的内容是介绍什么是爬虫?爬虫有什么

【内网穿透】Python一行代码实现文件共享,并实现公网访问

目录1.前言2.本地文件服务器搭建2.1.python的安装和设置2.2.cpolar的安装和注册3.本地文件服务器的发布3.1.Cpolar云端设置3.2.Cpolar本地设置4.公网访问测试5.结语1.前言数据共享作为和连接作为互联网的基础应用,不仅在商业和办公场景有广泛的应用,对于个人用户也有很强的实用意义。也正

前端--HTML

文章目录HTML结构快速生成代码框架HTML常见标签表格标签编写简历信息填写简历信息Emmet快捷键HTML特殊字符一、HTML结构1.认识HTML标签HTML代码是由"标签"构成的.形如:<body>hello</body>标签名(body)放到<>中大部分标签成对出现.<body>为开始标签,</body>为结束标

机器学习实战:Python基于NN神经网络进行分类(十一)

文章目录1前言1.1神经网络的介绍1.2神经网络的应用2.Tensorflow实战演示2.1导入函数2.2导入数据2.3数据预处理2.4建立神经网络2.5训练模型2.6评估模型2.7预测3.讨论1前言神经网络(Neuralnetwork,NN)机器学习是一种基于人工神经网络的机器学习方法,它模拟了人类神经系统的工作原理

Go expvar包

介绍与使用expvar是exposedvariable的简写expvar包[1]是Golang官方为暴露Go应用内部指标数据所提供的标准对外接口,可以辅助获取和调试全局变量。其通过init函数将内置的expvarHandler(一个标准httpHandlerFunc)注册到http包ListenAndServe创建的默

学Python的漫画漫步进阶 -- 第十五步.访问数据库

学Python的漫画漫步进阶--第十五步.访问数据库十五、访问数据库15.1SQLite数据库15.1.1SQLite数据类型15.1.2Python数据类型与SQLite数据类型的映射15.1.3使用GUI管理工具管理SQLite数据库15.2数据库编程的基本操作过程15.3sqlite3模块API15.3.1数据库

MyBatis获取参数值的两种方式#{}和${} 以及 获取参数值的各种情况

一、参数值的两种方式#{}和${}在MyBatis中,可以使用两种方式来获取参数值:#{}和${}。1.#{}:这是MyBatis推荐使用的方式。在SQL语句中使用#{},MyBatis会自动将参数值进行预编译处理,防止SQL注入攻击,并且可以处理各种类型的参数(如字符串、数字、日期等)。例如:<selectid="g

【音视频原理】音视频 “ 采样 - 编码 - 封装 过程 “ 和 “ 解封装 - 解码 - 播放 过程 “ 分析 ( 视频采集处理流程 | 音频采集处理流程 | 音视频文件解封装播放流程 )

文章目录一、视频采集处理流程二、音频采集处理流程三、音视频文件解封装播放流程本篇文件主要分析音视频文件是怎么产生的,以及音视频文件是如何播放的;一、视频采集处理流程视频文件从录像到生成文件的全过程:采集图像帧:摄像头硬件负责采集画面,采集的初始画面称为"图像帧",一秒钟采集的图像帧数量称为"帧率",如:60帧就是一秒钟

网络安全(黑客)自学

目录:一、什么是网络安全二、怎样规划网络安全三、网络安全的知识多而杂,怎么科学合理安排?1、基础阶段2、渗透阶段3、安全管理(提升)这一阶段主要针对已经从事网络安全相关工作需要提升进阶成管理层的岗位。如果你只学习参加工程师方面的岗位,这一阶段可学可不学。4、提升阶段(提升)1、Web安全相关概念(2周)2、熟悉渗透相关

热文推荐