22级大数据二班 03 穆俊.zip
资源文件列表:

03 穆俊.docx 705.13KB
源代码.txt 1.27KB
资源介绍:
22级大数据二班 03 穆俊.zip
1
天津农学院 课内实验任
务书
2023 ——2024 学年第 二 学期
课 程 名 称: 大数据采集与清洗
课内实践学时: 24 学时
专 业 班 级: 22 大数据 1 班、2 班
主 讲 教 师: 王育欣

2
课内实验任务书
实验一
爬取豆瓣电影 TOP 榜单
(22 级大数据 2 班,穆俊,03)
实验要求:
根据实验题目三人一组设计具体要爬取的 TOP 榜单内容,重新设计具体实验内容和组内
同学不同分工,要求既要有分工又要有配合(如调试代码及三人调试中遇到的不同问题)。
格式要求:
(1)题目用“四号黑体字”,居中处理。
(2)在题目下方写清个人信息,包含“年级、专业、班级、姓名、学号”。个人信息
用“小括号”括起来,如“(22 级大数据 1 班,XX,03)”。个人信息用“五号黑体
字”,居中处理。
(3)正文使用小四号宋体字。
(4)字间距为标准字间距,行距为 1.5 倍行距;页码置于页面底端右侧。
上传提交注意事项:
请同学们将电子版文档命名格式为“学号后两位+姓名”,如“03 XX”。将实验报告和
源程序文件的电子版放入自建的文件夹中,文件夹的名称按“22 级大数据 1 班+学号后两位
+姓名”的格式命名。

3
实验方案设计
一、实验目的:
通过爬取豆瓣电影 TOP 榜单的案例掌握分析请求地址、爬虫代码的实现。
二、实验重难点:
requests 模块与 lxml 模块中的 XPath 解析器的使用。
三、软件运行环境:
PyCharm Community Edition2024.1.1
Python3.6
三、实验步骤:
1.安装所需要的库
2.在浏览器中找到爬取的豆瓣网页