首页下载资源行业研究22级大数据二班 03 穆俊.zip

ZIP22级大数据二班 03 穆俊.zip

2401_85830799631.07KB需要积分:1

资源文件列表:

22级大数据二班 03 穆俊.zip 大约有2个文件
  1. 03 穆俊.docx 705.13KB
  2. 源代码.txt 1.27KB

资源介绍:

22级大数据二班 03 穆俊.zip
1
天津农学院 课内实验任
务书
2023 ——2024 学年第 学期
大数据采集与清洗
课内实践学时 24 学时
22 大数据 1 班、2
王育欣
2
课内实验任务书
实验一
爬取豆瓣电影 TOP 榜单
22 级大数据 2 班,穆俊,03
实验要求:
根据实验题目三人一组设计具体要爬取的 TOP 单内容,重新设计具体实验内容和组内
同学不同分工,要求既要有分工又要有配合(如调试代码及三人调试中遇到的不同问题)。
格式要求:
1)题目用“四号黑体字”,居中处理。
2题目方写人信,包年级专业班级名、人信
22 1 XX03
字”,居中处理。
3)正文使用小四号宋体字。
4)字间距为标准字间距,行距为 1.5 倍行距;页码置于页面底端右侧。
上传提交注意事项:
请同学们将电子版文档命名格式为学号后两+姓名,如“03 XX”。将实验报告和
源程序文件的电子版放入自建的文件夹中,文件夹的名称按“22 级大数据 1 +学号后两位
+姓名”的格式命名。
3
实验方案设
一、实验目的:
通过爬取豆瓣电影 TOP 榜单的案例掌握分析请求地址、爬虫代码的实现。
二、实验重难点:
requests 模块与 lxml 模块中的 XPath 解析器的使用。
三、软件运行环境:
PyCharm Community Edition2024.1.1
Python3.6
三、实验步骤:
1.安装所需要的库
2.在浏览器中找到爬取的豆瓣网页
100+评论
captcha