- 课程概览
- 授课讲师
- 课程大纲
- 课程概览
- 授课讲师
- 课程大纲
本门课程内容包含Spark简介、集群安装配置、架构原理介绍、Spark Shell应用、Spark开发编程环境的配置和使用以及Spark SQL的配置和应用。本门课程由浅入深,全程以任务为导向,紧扣任务的需求展开,将详细的知识点介绍与充分的练习实战相结合,既不堆积知识点,又着重于解决问题时思路的启发与方案的实施。
课程概览
章节 |
教学内容 |
基本要求 |
第1章 Spark入门 |
(1) Spark概述 |
(1) 掌握Spark的基本介绍及其特点 |
第2章 Spark集群的安装配置 |
(1) Spark集群拓扑 (2) Spark安装配置 (3) 运行第一个Spark程序 |
(1) 掌握Spark集群拓扑结构 (2) 了解Spark集群安装配置步骤及注意点,了解必要的监控信息 (3) 了解Spark程序并运行 |
第3章 Spark架构及原理 |
(1) Spark架构 (2) Spark RDD概述 |
(1) 掌握Spark核心架构 (2) 了解Spark RDD知识 |
第4章 Spark Shell应用 |
(1) Spark Shell的启动 (2) RDD的创建 (3) map与flatMap算子应用 (4) sortBy与filter算子应用 (5) 交集与并集计算的算子应用 (6) 键值对RDD常用算子介绍和应用 |
(1) 学会在Spark Shell中创建RDD (2) 掌握常用算子的基本知识点 (3) 掌握map与flatMap、sortBy与filter、交集与并集计算的算子应用 (4) 了解键值对RDD常用算子并掌握应用方法 |
第5章 Spark开发环境配置 |
(1) 配置Spark开发环境 (2) Spark实现单词计数 (3) 使用本地或集群模式运行Spark程序 (4) 设置应用程序使用的集群资源 |
(1) 学生对单词计数实现原理要有一定了解,掌握不同方式实现单词计数 (2) 掌握Spark开发环境的配置 (3) 掌握通过本地和集群两种模式运行Spark程序 |
第6章 Spark SQL应用 |
(1) Spark SQL简介和环境配置 (2) 通过多种读取方式创建DataFrame (3) 读取Hive表数据创建RDD (4) 常见DataFrame API应用 (5) 保存DataFrame的多种格式和途径 (6) 创建DataSet |
(1) 了解Spark SQL简介并掌握Spark SQL环境配置 (2) 掌握创建DataFrame的多种读取方式 (3) 熟悉常见DataFrame API应用 (4) 掌握保存DataFrame的多种格式和途径 (5) 掌握RDD和DataSet的创建 |
课程大纲
- 第1章Spark入门
-     第1节 Spark入门
- 第2章Spark集群的安装配置
-     第1节Spark集群拓扑
-     第2节Spark安装配置
-     第3节运行第一个Spark程序
- 第3章Spark架构及原理
-     第1节Spark架构
-     第2节Spark RDD
- 第4章Spark编程基础
-     第1节启动Spark Shell
-     第2节创建RDD
-     第3节读取学生成绩创建RDD
-     第4节map与flatMap算子应用
-     第5节sortBy与filter算子应用
-     第6节取出成绩排名前5的学生信息
-     第7节节交集与并集计算的算子应用
-     第8节获取成绩100分的学生信息
-     第9节键值对RDD常用算子
-     第10节计算学生成绩总分和平均分
-     第11节存储RDD
-     第12节统计用户停留时间最长的基站
- 第5章配置Spark IDEA开发环境
-     第1节配置Spark开发环境
-     第2节Spark实现单词计数
-     第3节本地模式运行Spark程序
-     第4节使用集群模式运行Spark程序
-     第5节设置应用程序使用的集群资源
- 第6章Spark SQL应用
-     第1节Spark SQL简介与环境配置
-     第2节读取结构化文件创建DataFrame
-     第3节读取外部数据库数据创建DataFrame
-     第4节读取RDD创建DataFrame
-     第5节读取Hive表数据创建DataFrame
-     第6节读取学生成绩创建DataFrame
-     第7节常见DataFrame API应用
-     第8节通过DataFrame API计算学生总分和平均分
-     第9节保存DataFrame为结构化文件
-     第10节保存DataFrame到外部数据库和Hive数据库
-     第11节保存学生成绩分析结果到Hive
-     第12节创建DataSet
-     第13节通过商品销售数据创建DataSet
-     第14节统计商品销量
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件
-
pptx
第9章 项目案例——广告检测的流量作弊识别
大小:4.52MB
2023-05-26
-
pptx
第8章 Spark MLlib——功能强大的算法库
大小:1.64MB
2023-05-26
-
pptx
第7章 Spark GraphX——图计算框架
大小:4.29MB
2023-05-26
-
pptx
第6章 Spark Streaming——实时计算框架
大小:2.66MB
2023-05-26
-
pptx
第5章 Spark SQL——结构化数据文件处理
大小:3.53MB
2023-05-26
-
pptx
第4章 Spark编程进阶
大小:2.86MB
2023-05-26