了解认证
使用Python 或 R 语言在单台计算机上处理较小数据集的数据科学家而设计,他们需要将分析和机器学习模型扩展到分布式集群上的大型数据集。具备一定数据科学和机器学习知识的数据工程师和开发人员可能发现此讲习班对他们也很有帮助。
建议掌握的知识
(1)大规模数据科学和机器学习概述
(2)Hadoop 生态系统概述
(3)使用 Hue 处理 HDFS 数据和 Hive 表
(4)Cloudera Data Science Workbench 入门
(5)Apache Spark 2 概述
(6)读写数据
(7)检查数据质量
(8)清理和转换数据
(9)汇总和分组数据
(10)组合、拆分和重塑数据
(11)探索数据
(12)配置、监控和诊断 Spark 应用程序
(13)Spark MLlib 中的机器学习概述
(14)提取、转换和选择功能
(15)建立和评估回归模型
(16)建立和评估分类模型
(17)构建和评估聚类模型
(18)交叉验证模型和调整超参数
(19)构建机器学习管道
(20)部署机器学习模型
面向对象
参加该讲习班的培训学员应基本了解Python 或 R 语言,并且具备一定的探索和分析数据以及开发统计或机器学习模型的经验。
考试科目
考试代码
|
认证考试
|
CCA175
|
CCA Spark and Hadoop Developer
开发者认证
|
考试内容
数据摄取
具备在外部系统和集群之间传输数据的技能。包括以下内容:
使用Sqoop 将数据从 MySQL 数据库导入 HDFS 中
使用Sqoop 从 HDFS 导出数据到 MySQL 数据库中
在数据导入期间使用Sqoop 更改数据的分隔符和文件格式
摄取实时和近实时流数据到HDFS 中
在将数据加载到集群时处理流数据
使用Hadoop 文件系统命令将数据加载到 HDFS 中和从 HDFS 加载数据
转换、暂存和存储
将存储在HDFS 中的给定格式的一组数据值转换为新的数据值或新的数据格式,并将它们写入到 HDFS 中。
从HDFS 加载 RDD 数据以用于 Spark 应用程序
使用Spark 将 RDD 的结果写回到 HDFS 中
以各种文件格式读取和写入文件
对数据执行标准提取、转换、加载(ETL)过程
数据分析
使用Spark SQL 在应用程序中以编程方式与元数据进行交互针对加载的数据使用查询来生成报告。
将元数据表用作Spark 应用程序的输入源或输出接收器
了解Spark 中查询数据集的基础知识
使用Spark 过滤数据
编写查询以计算汇总统计信息
使用Spark 连接不同的数据集
生成排名或排序的数据
配置
这是一项实操考试,考生应该熟悉获得优秀成绩的所有方面,而不仅仅是编写代码。
提供命令行选项以更改应用程序配置,例如增加可用内存
考题格式
考题数量:针对Cloudera Enterprise 集群的 8–12 个基于性能的(实际操作)任务。请参阅下面的完整集群配置。
考试时长:120分钟
合格分数:70%
语言:英语
每一个CCA问题都要求考生解决特定的场景。在某些情况下,考生可以使用诸如 Impala 或 Hive 之类的工具。在其他情况下,考生需要编写代码完成任务。为了加快 Spark 问题的开发时间,一个包含解决方案框架的模板将会被提供,要求考生用功能代码填写缺失的行。此模板将使用 Scala 语言或 Python 语言编写,但不一定两者都是。
考生不要求一定使用此模板,可以使用考生喜欢的语言来解决该场景问题。但请注意,从头开始编写代码来解决每个问题可能会超出考试规定时长。
认证有效期
CCA认证的有效期为两年。CCP认证的有效期为三年。
课程大纲
课程日期
|
课程章节
|
课程内容
|
第一天
|
Hadoop 及生态系统介绍
|
• Apache Hadoop 概述
• 数据存储和摄取
• 数据处理
• 数据分析和探索
• 其他生态系统工具
• 练习环境及分析应用场景介绍
|
Apache Hadoop 文件存储
|
• Apache Hadoop 文件系统组件
• HDFS 体系结构
• 使用 HDFS
|
Apache Hadoop 机群上的分布式数据处理
|
• YARN 体系结构
• 使用 YARN
|
Apache Spark 基础
|
• 什么是 Apache Spark
• 启动 SparkShell
• 使用 Spark Shell
• Dataset 和 DataFrame
• DataFrame 操作
|
DataFrame 和 Schema
|
• 从数据源创建 DataFrame
• 保存 DataFrame
• DataFrame Schema
• 积极执行/懒惰执行
|
第二天
|
使用 DataFrame 查询对数据进行分析
|
• 使用列表达式查询 DataFrame
• 分组/聚合查询
• DataFrame 连接
|
RDD概述
|
• RDD 概述
• 创建和保存 RDD
• RDD 操作
|
使用 RDD 转换数据
|
• 编写和调用转换函数
• 执行转换操作
• RDD 和 DataFrame 互换
|
使用键值对 RDD
|
• 键值对 RDD
• MapReduce
• 其他键值对 RDD 操作
|
使用 Apache Spark SQL 查询表和视图
|
• 使用 SQL 查询表
• 查询文件和视图
• Catalog API
• 比较 Spark SQL,Apache Impala 以 及 Apache Hive-on-Spark
|
第三天
|
使用 Scala 编程操作 Dataset
|
• Dataset 和 DataFrame
• 创建 Dataset
• 加载和保存 Dataset
• Dataset 操作
|
编写、配置和运行 Apache Spark 应用
|
• 编写 Spark 应用
• 创建打包和运行 Spark 应用
• Spark 应用部署模式
• Spark 应用 Web UI
• 配置 Spark 应用属性
|
Apache Spark 的分布式处理
|
• 回顾:机群环境里的 Spark
• RDD 分区
• 例子:查询和分区
• 执行阶段及任务
• 作业执行计划
• 例子:Catalyst 执行计划
• 例子:RDD 执行计划
|
第四天
|
分布式数据持久化
|
• DataFrame 和 Dataset 持久化
• 持久化存储级别
• 查看 RDD 持久化
|
Apache Spark 数据处理的常见模式
|
• 常见 Spark 应用案例
• 迭代式算法
• 机器学习
• 例子:K-Means
|
第五天
|
Apache Spark Streaming:DStreams 介绍
|
• Apache Spark Streaming 概述
• 例子:Streaming 访问计数
• DStreams
• 开发 Streaming 应用
|
Apache Spark Streaming:多批次处理
|
• 多批次处理操作
• 时间分片
• 状态操作
• 滑动窗口操作
• 预览:结构化 Streaming
|
第六天
|
Apache Spark Streaming:数据源
|
• Streaming 数据源概述
• Apache Flume 和 Apache Kafka 数据源
• 例子: 使用 Direct 模式连接 Kafka 数据 源
|