图书商城-中国铁道出版社有限公司

Spark大数据分析

书号：9787113306724

丛书名：职业教育赛教一体化课程改革系列教材

作者：蒋一锄

译者：

开本：大16开

装帧：平装

正文语种：汉文

出版社：中国铁道出版社有限公司

定价：45元

立即购买

内容简介

本书为“职业教育赛教一体化课程改革系列教材”之一，介绍了Spark应用程序体系架构的核心技术。全书共分8章：第1章介绍大数据与Spark以及其他数据处理框架；第2章主要讲解Spark集群的安装配置，包括Standalone、SparkonYarn、SparkHA模式，另外介绍了Spark的运行架构与原理，以及SparkShell的简单使用；第3章~第8章主要讲解Spark程序入门、弹性分布式数据集、Spark核心原理、SparkSQL处理结构化数据和多数据源操作、SparkStreaming实时计算框架，并包含实战案例。本书理论联系实际，对每个知识点都进行了精心设计，真正做到了所学即所得，可帮助学生快速理解并掌握Spark的应用。本书适合作为高等职业院校电子信息大类各专业学习Spark大数据技术的教材，也可作为全国大学生大数据竞赛的指导书，还可作为培训学校的培训教材，以及大数据爱好者的自学参考书。
前言

为认真贯彻落实党的二十大精神，响应jiaoyubu实施新时代中国特色高水平高职学校和专业群建设的各项政策部署，扎实持续推进职校改革，强化内涵建设和高质量发展，落实双高计划，抓好职业院校信息技术人才培养方案实施及配套建设，我们统筹规划并启动了“职业教育赛教一体化课程改革系列教材”的建设（《云计算技术与应用》《大数据技术与应用Ⅰ》《网络综合布线》《物联网.NET开发》《物联网嵌入式开发》《物联网移动应用开发》《Python网络爬虫实战》《Spark大数据分析》《传感器应用技术》《计算机网络基础项目化教程》）。本系列教材是职业教育教学一线专家、教育企业一线工程师、中国铁道出版社教材开发专家数十人团队的匠心之作，是全体编委精益求精，在日复一日、年复一年的工作中，不断探索和超越的智慧结晶。本书教学设计遵循职业教育教学规律，对真实项目科学拆分与提炼。
Spark作为大数据计算平台的后起之秀，具有运行速度快、容易使用、通用性强和运行模式多样等特点，深受大数据行业技术人员的喜爱。

本书以实践为导向，突出案例教学；结合Spark生态圈，扩展相关知识点，呈现完整的Spark大数据分析体系；使用通俗易懂的语言阐述难点，辅以大量生动形象的图例，增强读者的理解和记忆；具有完整的知识体系和目录结构，形成逻辑清晰的知识脉络；采用深入浅出的层级教学，逐步深化读者对Spark的理解；提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。

本书旨在介绍Spark应用程序体系架构的核心技术，共分8章，具体内容简介如下：
第1章从大数据和Spark框架的概念出发，详细介绍大数据的特点和应用场景，以及Spark框架的历史、功能和优势。此外，还介绍了其他一些数据处理框架的比较和应用。
第2章主要讲解Spark集群的搭建和配置过程，包括Standalone、Spark on Yarn、Spark HA模式等。读者将学会如何进行硬件和软件环境的配置，并了解集群的各种部件和组件。
第3章介绍Spark程序的基本结构和编写方式，包括如何读取和处理数据、如何进行数据转换和计算，以及如何输出结果。
第4章主要介绍Spark框架中的RDD（弹性分布式数据集），包括RDD的概念、RDD的特性、RDD的使用方法和操作，以及RDD的持久化等相关内容。
第5章主要介绍Spark框架的核心原理，包括Spark的计算模型、任务调度和执行、内存管理和数据传输等方面的原理和机制。读者将了解Spark框架的内部实现原理和运行机制。
第6章主要介绍Spark框架中数据的存储和管理方式，包括Spark的数据存储结构、数据压缩和序列化，以及数据管理和清理等相关内容。读者将了解如何优化数据存储和访问性能。
第7章介绍Spark SQL的概念和使用方法，包括如何使用Spark SQL进行数据处理和分析，如何进行SQL查询和数据聚合，以及如何与其他数据源进行集成。
第8章主要介绍Spark Streaming的概念和使用方法，包括如何使用Spark Streaming进行实时数据处理和分析，如何进行流数据的处理和转换，以及如何与其他数据源进行集成。此外，还包含一些实战案例供读者参考。
本书由湖南环境生物职业技术学院蒋一锄任主编，武汉唯众智创科技有限公司冉柏权和陈家枫、武汉铁路职业技术学院杨健、武汉船舶职业技术学院李熙任副主编。具体分工如下：蒋一锄编写第1章、第2章、第6章，冉柏权编写第3章，杨健编写第4章，李熙编写第5章，陈家枫编写第7章、第8章。全书由蒋一锄统稿。

由于编者水平有限，加之编写时间仓促，书中难免存在疏漏与不妥之处，敬请广大读者批评指正。

编者

2023 年 10 月
目录

第1章大数据与Spark简介11.1大数据简介与相关技术21.1.1大数据简介21.1.2大数据相关技术.21.2Spark简介51.2.1Spark特性51.2.2Spark的历史与发展81.2.3Spark组件91.3其他数据处理框架101.3.1Hadoop111.3.2Storm201.3.3Flink211.3.4Beam23小结.24习题.25第2章Spark集群安装配置262.1集群环境准备262.1.1系统环境配置262.1.2JDK安装312.1.3Hadoop集群部署342.1.4ZooKeeper集群部署422.1.5Scala安装452.2Spark环境搭建462.2.1Standalone模式部署462.2.2SparkonYarn模式部署492.2.3SparkHA集群部署542.3Spark运行架构与原理572.3.1基本概念572.3.2Spark集群运行架构5
作者介绍

蒋一锄，毕业于华中科技大学计算机科学与技术专业，湖南环境生物职业技术学院副教授（副研究馆员）、IBMCertifiedforOnDemandBusiness；现任湖南环境生物职业技术学院图书馆副馆长、计算机专业课程教师；工作以来，发表学术论文10余篇、主持或参与省市级课题6项、主编或参编专著（教材）3部、获实用新型专利7项、发明专利2项。指导学生在第十一届“中国软件杯”大学生软件设计大赛总决赛获一等奖；指导学生在大数据技术与应用等赛项中获得省级奖项多项。
编辑推荐

本书以实践为导向，突出案例教学；结合Spark生态圈，扩展相关知识点，呈现完整的Spark大数据分析体系；使用通俗易懂的语言阐述难点，辅以大量生动形象的图例，增强读者的理解和记忆；具有完整的知识体系和目录结构，形成逻辑清晰的知识脉络；采用深入浅出的层级教学，逐步深化读者对Spark的理解；提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。
书评书荐
附件下载

图书推荐

010-51873174