spark大数据实例开发教程 王家林pdf扫描版下载

分类:电子阅读 大小:125.52M 更新日期:2024年11月10日
本站评级:★★★★☆ 语言:简体中文 授权版本:免费 运行环境:Windows 11,Windows 10,Windows 8,Windows 7

spark大数据实例开发教程 王家林pdf扫描版


spark大数据实例开发教程是面向Spark开发者的一本实用参考书,是大数据资深培训师王家林最新作品。本书内容广度和深度兼顾,书中内容全面覆盖了Spark技术的核心知识点,全程注重从架构的底层到上层,由宏观到微观的讲解。全书都秉承“实战”类图书特色,解析大量案例和代码的编写操作,具有较强的可操作性,便于读者学习和理解,非常刚接触Spark或对Spark分布式计算的开发不熟悉的初学者。对于熟悉函数式开发或面向对象开发,并有一定经验的开发者。

spark大数据实例开发教程

内容介绍

《spark大数据实例开发教程》中首先通过介绍Spark的生态系统和RDD编程模型,使读者能够快速的对Spark技术的生态环境以及对Spark的RDD编程模型有个非常直观的了解。

首先介绍了Spark软件程序的两种部署模式;然后在软件程序部署模式基础上,开始Spark实战的案例与解析,通过提供一个完整的基础案例,使读者了解一个Spark软件程序的大致处理流程;接着对实战中的重点部分,结合源码分析、监控日志分析等深入解析了Spark运行机制、DAG图等关键内容;后给出Spark开发者常用的软件程序程序构建案例与分析,以及调试环境搭建的案例与软件程序调试的案例。

spark大数据实例开发教程章节目录

第1章Spark简介

1.1什么是Spark

1.2Spark生态圈

1.2.1伯克利数据分析协议栈

1.2.2Spark开源社区发展

1.3RDD编程模型

1.3.1RDD抽象概念

1.3.2RDD的操作

1.3.3RDD的依赖关系

1.3.4一个典型的DAG示意图

第2章Spark RDD实践案例与解析

2.1Spark软件程序程序部署

2.1.1Spark软件程序的基本概念

2.1.2软件程序程序的部署方式

2.2RDD数据的输入、处理、输出的基本案例与解析

2.2.1集群环境的搭建

2.2.2交互式工具的启动

2.2.3文本数据的ETL案例实践与解析

2.2.4文本数据的初步统计案例实践与解析

2.2.5文本数据统计结果的持久化案例实践与解析

2.2.6RDD的Lineage关系的案例与源码解析

2.2.7RDD的持久化案例与解析

2.2.8RDD的构建案例与解析

2.2.9分区数设置的案例与源码解析

2.3RDD API的软件程序案例与解析

2.3.1如何查找RDD API的隐式转换

2.3.2RDD[T]的分区相关的API

2.3.3RDD[T]常用的聚合API

2.3.4DoubleRDDFunctions(self:RDD[Double])常用的API

2.3.5PairRDDFunctions[K,V]聚合相关的API

2.3.6RDD相互间操作的API

2.3.7PairRDDFunctions[K,V]间的相关API

2.3.8OrderedRDDFunctions[K,V,P:Product2K,V]常用的API

2.4Spark软件程序程序构建

2.4.1基于SBT构建Spark软件程序程序的实例

2.4.2基于IDEA构建Spark软件程序程序的实例

2.4.3Spark提交软件程序的调试实例

2.5移动互联网数据分析案例与解析

2.5.1移动互联网数据的准备

2.5.2移动互联网数据分析与解析

2.6Spark RDD实践中的常见问题与解答

第3章Spark SQL实践案例与解析

3.1Spark SQL概述

3.2DataFrame处理的案例与解析

3.2.1DataFrame编程模型

3.2.2DataFrame基本操作案例与解析

3.2.3DataFrame与RDD之间的转换案例与解析

3.2.4缓存表(列式存储)的案例与解析

3.2.5DataFrame API的软件程序案例与分析

3.3Spark SQL处理各种数据源的案例与解析

3.3.1通用的加载/保存功能的案例与解析

3.3.2Parquet文件处理的案例与解析

3.3.3JSON数据集操作的案例与解析

3.3.4操作Hive表的案例与解析

3.3.5使用JDBC操作其他数据库的案例与解析

3.3.6集成Hive数据仓库的案例与解析

3.4基于Hive的人力资源系统数据处理案例与解析

3.4.1人力资源系统的数据库与表的构建

3.4.2人力资源系统的数据的加载

3.4.3人力资源系统的数据的查询

第4章Spark Streaming实践案例与解析

4.1Spark Streaming概述

4.2Spark Streaming基础概念

4.3企业信息实时处理的案例与解析

4.3.1处理TCP数据源的案例与解析

4.3.2处理HDFS文件数据源的案例与解析

4.3.3处理Kafka数据源的准备工作

4.3.4基于Receiver读取Kafka数据的案例与解析

4.3.5直接读取(无Receiver)Kafka数据的案例与解析

4.3.6处理Flume数据源的实践准备

4.3.7基于Flume风格的推送数据案例与解析

4.3.8定制FlumeSink的拉取数据案例与解析

4.4性能调优

4.4.1减少批处理的时间

4.4.2设置正确的批间隔

4.4.3内存调优

第5章Tachyon实践案例与解析

5.1Tachyon概述

5.2重新编译部署包

5.2.1重新编译Tachyon的部署包

5.2.2重新编译Spark的部署包

5.3Tachyon部署的案例与解析

5.3.1单机模式部署的案例与解析

5.3.2集群模式部署的案例与解析

5.3.3集群Master容错部署的案例与解析

5.4Tachyon配置的案例与解析

5.4.1底层存储系统的配置案例与解析

5.4.2配置属性与解析

5.5命令行接口的案例与解析

5.5.1命令行接口的说明

5.5.2命令行接口的案例实践与解析

5.6同步底层文件系统的案例与解析

5.6.1同步HDFS底层文件系统的案例与解析

5.6.2同步本地底层文件系统的案例与解析

5.7基于Tachyon运行的案例与解析

5.7.1基于Tachyon运行Spark的案例与解析

5.7.2基于Tachyon运行Hadoop MR的案例与解析

版权声明:spark大数据实例开发教程 王家林pdf扫描版所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。


软件下载信息清单:


软件名称 发布日期 文件大小 下载文件名
spark大数据实例开发教程 王家林pdf扫描版安装包 2024年11月10日 125.52M sparkdsj110635.zip
下载地址:
相关推荐: 驱动大全 / 软件下载

软件评论

昵称*

手机*

网址

驱动总数
22526+
文章总数
3520+
评论条数
265+
运行天数
300+