广州松田职业学院 首页 课程

全部课程> Spark 技术与应用

Spark 技术与应用

来源:广州松田职业学院

  • 2022-09-01  -  2023-01-10 64课时(建议每周学习12小时)
  • 1. 了解Spark基本概念和架构原理。 2. 学会安装配置Spark集群。 3. 熟练使用Spark Shell和应用常用算子。
  • 自主模式

已有191人报名学习

  • 课程概览
  • 授课讲师
  • 课程大纲
  • 课程概览
  • 授课讲师
  • 课程大纲

本门课程内容包含Spark简介、集群安装配置、架构原理介绍、Spark Shell应用、Spark开发编程环境的配置和使用以及Spark SQL的配置和应用。本门课程由浅入深,全程以任务为导向,紧扣任务的需求展开,将详细的知识点介绍与充分的练习实战相结合,既不堆积知识点,又着重于解决问题时思路的启发与方案的实施。

课程概览

章节

教学内容

基本要求

第1章 Spark入门

(1) Spark概述

(1) 掌握Spark的基本介绍及其特点

第2章 Spark集群的安装配置

(1) Spark集群拓扑

(2) Spark安装配置

(3) 运行第一个Spark程序

(1) 掌握Spark集群拓扑结构

(2) 了解Spark集群安装配置步骤及注意点,了解必要的监控信息

(3) 了解Spark程序并运行

第3章 Spark架构及原理

(1) Spark架构

(2) Spark RDD概述

(1) 掌握Spark核心架构

(2) 了解Spark RDD知识

第4章 Spark Shell应用

(1) Spark Shell的启动

(2) RDD的创建

(3) mapflatMap算子应用

(4) sortByfilter算子应用

(5) 交集与并集计算的算子应用

(6) 键值对RDD常用算子介绍和应用

(1) 学会在Spark Shell中创建RDD

(2) 掌握常用算子的基本知识点

(3) 掌握mapflatMapsortByfilter、交集与并集计算的算子应用

(4) 了解键值对RDD常用算子并掌握应用方法

第5章 Spark开发环境配置

(1) 配置Spark开发环境

(2) Spark实现单词计数

(3) 使用本地或集群模式运行Spark程序

(4) 设置应用程序使用的集群资源

(1) 学生对单词计数实现原理要有一定了解,掌握不同方式实现单词计数

(2) 掌握Spark开发环境的配置

(3) 掌握通过本地和集群两种模式运行Spark程序

第6章 Spark SQL应用

(1) Spark SQL简介和环境配置

(2) 通过多种读取方式创建DataFrame

(3) 读取Hive表数据创建RDD

(4) 常见DataFrame API应用

(5) 保存DataFrame的多种格式和途径

(6) 创建DataSet

(1) 了解Spark SQL简介并掌握Spark SQL环境配置

(2) 掌握创建DataFrame的多种读取方式

(3) 熟悉常见DataFrame API应用

(4) 掌握保存DataFrame的多种格式和途径

(5) 掌握RDDDataSet的创建


授课讲师

杨新远

杨新远,男,汉族,1992年10月生,学士学位,教学和研究方向为计算机软件及大数据方向。

课程大纲
  • 第1章Spark入门
  •     第1节 Spark入门
  • 第2章Spark集群的安装配置
  •     第1节Spark集群拓扑
  •     第2节Spark安装配置
  •     第3节运行第一个Spark程序
  • 第3章Spark架构及原理
  •     第1节Spark架构
  •     第2节Spark RDD
  • 第4章Spark编程基础
  •     第1节启动Spark Shell
  •     第2节创建RDD
  •     第3节读取学生成绩创建RDD
  •     第4节map与flatMap算子应用
  •     第5节sortBy与filter算子应用
  •     第6节取出成绩排名前5的学生信息
  •     第7节节交集与并集计算的算子应用
  •     第8节获取成绩100分的学生信息
  •     第9节键值对RDD常用算子
  •     第10节计算学生成绩总分和平均分
  •     第11节存储RDD
  •     第12节统计用户停留时间最长的基站
  • 第5章配置Spark IDEA开发环境
  •     第1节配置Spark开发环境
  •     第2节Spark实现单词计数
  •     第3节本地模式运行Spark程序
  •     第4节使用集群模式运行Spark程序
  •     第5节设置应用程序使用的集群资源
  • 第6章Spark SQL应用
  •     第1节Spark SQL简介与环境配置
  •     第2节读取结构化文件创建DataFrame
  •     第3节读取外部数据库数据创建DataFrame
  •     第4节读取RDD创建DataFrame
  •     第5节读取Hive表数据创建DataFrame
  •     第6节读取学生成绩创建DataFrame
  •     第7节常见DataFrame API应用
  •     第8节通过DataFrame API计算学生总分和平均分
  •     第9节保存DataFrame为结构化文件
  •     第10节保存DataFrame到外部数据库和Hive数据库
  •     第11节保存学生成绩分析结果到Hive
  •     第12节创建DataSet
  •     第13节通过商品销售数据创建DataSet
  •     第14节统计商品销量
节数上课时间星期一 星期二星期三星期四 星期五星期六星期天
第1节08:00 - 08:40
第2节09:00 - 09:40
第3节10:00 - 10:40
第4节11:00 - 11:40
第5节14:00 - 14:40
第6节15:00 - 15:40
第7节16:00 - 16:40
第8节17:00 - 17:40
天数上课日期上课时间内容
相关课件
  • pptx

    第9章 项目案例——广告检测的流量作弊识别

    大小:4.52MB

    2023-05-26

  • pptx

    第8章 Spark MLlib——功能强大的算法库

    大小:1.64MB

    2023-05-26

  • pptx

    第7章 Spark GraphX——图计算框架

    大小:4.29MB

    2023-05-26

  • pptx

    第6章 Spark Streaming——实时计算框架

    大小:2.66MB

    2023-05-26

  • pptx

    第5章 Spark SQL——结构化数据文件处理

    大小:3.53MB

    2023-05-26

  • pptx

    第4章 Spark编程进阶

    大小:2.86MB

    2023-05-26