【Python爬虫】批量爬取豆瓣电影排行Top250

今天给大家分享下我刚开始接触Python时学习的爬虫程序，代码部分很简单，不过当时刚开始学习时还是走了不少弯路的。这个爬虫程序应该是很多书里面的入门练手程序，主要就是去豆瓣爬取电影评分排行前250。

本篇文章只做学习交流使用，不涉及任何商业用途。如果有侵权请联系作者删除。大家在使用Python爬取信息时，请遵守该网站的相关守则和法律规定！！！

一、导入所需的库

import requests
import time
from bs4 import BeautifulSoup
# 导入requests,BeautifulSoup模块

二、完整代码

由于代码过于简单，我这里就不分步去讲解了。如果大家对Python爬虫有兴趣可以自己去找一下资料或视频去学习。

# -*- coding: utf-8 -*-
"""
@Time ： 2023/4/12 17:03
@Auth ： RS迷途小书童
@File ：短信轰炸.py
@IDE ：PyCharm
"""
import requests
import time
from bs4 import BeautifulSoup
# 导入requests,BeautifulSoup模块
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0',
           'Host': 'movie.douban.com'}  # window10,火狐点击F12中的网络性能获取
print("\n")
for i in range(0, 10):
    # 爬取前10页电影列表
    url = 'https://movie.douban.com/top250?start='+str(i*25)
    # 实现翻页功能
    request = requests.get(url, headers=headers, timeout=10)  # timeout实现网页未返回值的情况
    soup = BeautifulSoup(request.text, "html.parser")  # 转换成BeautifulSoup类型
    title_lists = soup.find_all("div", class_="hd")  # 一页电影所有名字的代码（find_all输出的是列表）
    # print(title_lists)
    # div,class为标题的网页代码
    print('正在获取第%s页......' % (i+1))
    print("\n")
    for x in range(0, 25):  # 解析一页电影的名字，一页中有25个电影。(或者使用for title in range(len(title_list)))
        time.sleep(1)
        title_list = title_lists[x].a.text  # 解析find_all的列表数据，a表示标签<a>中的文字输出
        print("第%s部电影名字是：%s\n" % (x+1, title_list))
    print("第%s页已获取成功......\n\n" % (i+1))
    time.sleep(2)

三、总结

一般在我们需要爬取网页时，第一件事就是去找到自己需要的信息对应网站的哪个标签以及网页的请求方式。然后就是爬虫的固定格式，请求头、解析啥的。上面的代码其实就很简单，不同的页码只是网址的最后发生了变化，所以套个循环就能用，而且我们需要的信息也只要通过F12就能直接查到。但有些网页可能会复杂一点，不能直接找到我们需要的信息或者需要验证什么的。这个大家就需要深入去学习一下爬虫的知识了，如反爬机制、多线程等。我平时用爬虫比较少，所以就不说太多了，以免误人子弟。

【Python爬虫】批量爬取豆瓣电影排行Top250

一、导入所需的库

二、完整代码

三、总结

更多推荐

git详细教程

如何使用Java语言判断出geek是字符串参数类型，888是整数参数类型，[hello,world]是数组参数类型，2.5是双精度浮点数类型？

Confidential Compute Architecture - Arm构架的TEE新模式

C++——string的模拟实现+详细讲解

【数据结构】二叉树链式结构的实现（三）

CFimagehost私人图床本地部署结合cpolar内网穿透实现公网访问

STC单片机定时器0手动状态脉冲定时器2自动状态脉冲加减速控制

C++学习（1）

CPP-Templates-2nd--第十一章泛型库

NK试剂盒使用注意事项及NK细胞培养攻略

MongoDB性能分析

热文推荐

Ubuntu下Nginx配置ModSecurity详细思路及过程

LeetCode: 数组峰值与谷值问题总结 - Python

linux拨号上网

Linux 常用命令练习二实验二

Spring实例化源码解析之ConfigurationClassParser(三)

为什么伦敦金获得连续盈利这么难

微服务下怎么做权限管理

CSV 与 Excel（.xls）-有什么区别？

YashanDB混合存储揭秘：行式存储如何为高效TP业务保驾护航（下）