6-华为云-05 综合实验三:离线分析.zip
资源文件列表:

6-华为云-05 综合实验三:离线分析/
__MACOSX/._6-华为云-05 综合实验三:离线分析 176B
6-华为云-05 综合实验三:离线分析/代码及数据/
__MACOSX/6-华为云-05 综合实验三:离线分析/._代码及数据 176B
6-华为云-05 综合实验三:离线分析/代码及数据.zip 25.94MB
__MACOSX/6-华为云-05 综合实验三:离线分析/._代码及数据.zip 176B
6-华为云-05 综合实验三:离线分析/离线版本说明.txt 859B
__MACOSX/6-华为云-05 综合实验三:离线分析/._离线版本说明.txt 176B
6-华为云-05 综合实验三:离线分析/实验三-大数据离线分析实验手册.docx 9.19MB
__MACOSX/6-华为云-05 综合实验三:离线分析/._实验三-大数据离线分析实验手册.docx 176B
6-华为云-05 综合实验三:离线分析/代码及数据/日志数据/
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/._日志数据 176B
6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/._业务数据库数据 176B
6-华为云-05 综合实验三:离线分析/代码及数据/spring-boot-echarts-0.0.1-SNAPSHOT.jar 28.3MB
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/._spring-boot-echarts-0.0.1-SNAPSHOT.jar 176B
6-华为云-05 综合实验三:离线分析/代码及数据/日志数据/logs.zip 397.08KB
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/日志数据/._logs.zip 176B
6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/sql/
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/._sql 176B
6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/sql/订单表.sql 447.43KB
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/sql/._订单表.sql 176B
6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/sql/支付表.sql 127.29KB
__MACOSX/6-华为云-05 综合实验三:离线分析/代码及数据/业务数据库数据/sql/._支付表.sql 176B
资源介绍:
6-华为云-05 综合实验三:离线分析.zip
大数据离线分析
实验手册
华为技术有限公司

大数据离线分析实验手册
第 1 页
目录
1 离线分析实验介绍 ...............................................................................3
1.1 场景说明..................................................................................................................................3
1.2 实验介绍..................................................................................................................................3
1.3 实验数据解释 ...........................................................................................................................4
1.3.1 事件日志数据基本格式............................................................................................................4
1.3.2 商品点击...............................................................................................................................4
1.3.3 商品详情...............................................................................................................................5
1.3.4 商品收藏...............................................................................................................................6
1.3.5 商品评论...............................................................................................................................6
1.3.6 启动日志数据基本格式............................................................................................................7
1.3.7 启动事件...............................................................................................................................8
1.3.8 数据库表及字段解释 ...............................................................................................................8
2 实验环境搭建 ..................................................................................10
2.1 实验介绍................................................................................................................................10
2.2 华为云资源开通 ......................................................................................................................10
2.2.1 登录华为云控制台 ................................................................................................................10
2.2.2 申请弹性公网 IP ...................................................................................................................12
2.2.3 开通 MRS 集群 ....................................................................................................................14
2.2.4 开通并配置 RDS ..................................................................................................................21
2.2.5 开通 OBS 服务.....................................................................................................................26
3 大数据离线分析开发...........................................................................28
3.1 实验介绍................................................................................................................................28
3.1.1 关于本实验..........................................................................................................................28
3.1.2 实验目的.............................................................................................................................28
3.1.3 实验规划.............................................................................................................................28
3.2 实验流程................................................................................................................................28
3.3 分析逻辑................................................................................................................................29

大数据离线分析实验手册
第 2 页
3.4 实验步骤概览 .........................................................................................................................30
3.5 实验步骤................................................................................................................................30
3.5.1 日志数据准备 ......................................................................................................................30
3.5.2 业务数据准备 ......................................................................................................................35
3.5.3 日志数据分层统计 ................................................................................................................39
3.5.4 业务数据库数据分层统计.......................................................................................................65
3.5.5 业务宽表.............................................................................................................................80
3.5.6 ADS 层结果统计...................................................................................................................83
3.5.7 数仓结果数据导出到关系型数据库 ..........................................................................................87
3.5.8 可视化................................................................................................................................92
3.6 思考题...................................................................................................................................95
4 云服务资源释放 ................................................................................96
4.1 释放大数据服务 MRS...............................................................................................................96
4.2 释放云数据库 RDS ..................................................................................................................96
4.3 释放对象存储服务 OBS............................................................................................................96
4.4 释放网络资源 VPC ..................................................................................................................97
5 附录 .............................................................................................99
5.1 Hive 自定义函数开发 ...............................................................................................................99
5.2 常用 Linux 命令....................................................................................................................107
5.2.1 命令概述...........................................................................................................................107
5.2.2 vi/vim ..............................................................................................................................107
5.2.3 cd ....................................................................................................................................108
5.2.4 mv ...................................................................................................................................109
5.2.5 curl ..................................................................................................................................109
5.2.6 yum .................................................................................................................................110
5.2.7 wget ................................................................................................................................111
5.2.8 ln .....................................................................................................................................111
5.2.9 mkdir...............................................................................................................................112
5.2.10 chmod ...........................................................................................................................112
5.2.11 chown............................................................................................................................113
5.2.12 ls ...................................................................................................................................114
5.2.13 cp ..................................................................................................................................115
5.2.14 rm..................................................................................................................................115
5.2.15 cat .................................................................................................................................116
5.2.16 unzip .............................................................................................................................116

大数据离线分析实验手册
第 3 页
5.2.17 source ...........................................................................................................................117
5.2.18 more..............................................................................................................................118
5.2.19 tar .................................................................................................................................118

大数据离线分析实验手册
第 4 页
1 离线分析实验介绍
1.1 场景说明
离线分析是大数据五大应用场景中比较重要的场景,一般处理时间要求不高,但处理数据量巨
大(PB 级)、处理数据格式多样化,像日志采集分析就是离线分析的重要应用之一。离线分
析不仅本身的分析结果就可以对状况、原因及预测等直接产生意义,而且也可以对实时分析提
供前期的分析基础。
1.2 实验介绍
随着技术和行业的发展,电子商务越来越依赖于大数据分析技术,大数据能力也成为了电商的
核心能力。运营情况、用户价值、网站流量等都是电商行业所关注的分析指标,这些指标能够
让平台和商家精细化的运作,节约成本提升效果。本实验通过对于电商网站的相关数据(日志
数据、业务数据)进行分析,从而得到活跃、转化率、GMV 等相关指标。
本实验提供已经采集的日志数据(启动日志、行为日志)存入 HDFS 中,业务数据在 MySQL
中,使用 Hive 按照数据仓库分层标准进行分析,分析后的结果存入 MySQL 中,最后通过
Java 程序和 ECharts 完成可视化(此部分已经封装为 jar 包)。