本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。不仅面向项目开发人员,甚至对于研究Spark的学员,此部分都是非常有学习指引意义的课程。
1) Spark介绍2) Spark应用场景
3) Spark和Hadoop MR、Storm的比较和优势
4) RDD5) Transformation6) Action7) Spark计算PageRank8) Lineage9) Spark模型简介10) Spark缓存策略和容错处理11) 宽依赖与窄依赖12) Spark配置讲解13) Spark集群搭建14) 集群搭建常见问题解决15) Spark原理核心组件和常用RDD16) 数据本地性17) 任务调度18) DAGScheduler19) TaskScheduler20) Spark源码解读21) 性能调优22) Spark和Hadoop2.x整合:Spark on Yarn原理
|