Spark大数据分析
书 号:9787113306724
丛 书 名:职业教育赛教一体化课程改革系列教材
作 者:蒋一锄
译 者:
开 本:大16开
装 帧:平装
正文语种:汉文
出 版 社:中国铁道出版社有限公司
定 价:45元
-
内容简介
本书为“职业教育赛教一体化课程改革系列教材”之一,介绍了Spark应用程序体系架构的核心技术。全书共分8章:第1章介绍大数据与Spark以及其他数据处理框架;第2章主要讲解Spark集群的安装配置,包括Standalone、SparkonYarn、SparkHA模式,另外介绍了Spark的运行架构与原理,以及SparkShell的简单使用;第3章~第8章主要讲解Spark程序入门、弹性分布式数据集、Spark核心原理、SparkSQL处理结构化数据和多数据源操作、SparkStreaming实时计算框架,并包含实战案例。本书理论联系实际,对每个知识点都进行了精心设计,真正做到了所学即所得,可帮助学生快速理解并掌握Spark的应用。本书适合作为高等职业院校电子信息大类各专业学习Spark大数据技术的教材,也可作为全国大学生大数据竞赛的指导书,还可作为培训学校的培训教材,以及大数据爱好者的自学参考书。 -
前言
为认真贯彻落实党的二十大精神,响应jiaoyubu实施新时代中国特色高水平高职学校和专业群建设的各项政策部署,扎实持续推进职校改革,强化内涵建设和高质量发展,落实双高计划,抓好职业院校信息技术人才培养方案实施及配套建设,我们统筹规划并启动了“职业教育赛教一体化课程改革系列教材”的建设(《云计算技术与应用》《大数据技术与应用Ⅰ》《网络综合布线》《物联网.NET开发》《物联网嵌入式开发》《物联网移动应用开发》《Python网络爬虫实战》《Spark大数据分析》《传感器应用技术》《计算机网络基础项目化教程》)。本系列教材是职业教育教学一线专家、教育企业一线工程师、中国铁道出版社教材开发专家数十人团队的匠心之作,是全体编委精益求精,在日复一日、年复一年的工作中,不断探索和超越的智慧结晶。本书教学设计遵循职业教育教学规律,对真实项目科学拆分与提炼。
Spark作为大数据计算平台的后起之秀,具有运行速度快、容易使用、通用性强和运行模式多样等特点,深受大数据行业技术人员的喜爱。
本书以实践为导向,突出案例教学;结合Spark生态圈,扩展相关知识点,呈现完整的Spark大数据分析体系;使用通俗易懂的语言阐述难点,辅以大量生动形象的图例,增强读者的理解和记忆;具有完整的知识体系和目录结构,形成逻辑清晰的知识脉络;采用深入浅出的层级教学,逐步深化读者对Spark的理解;提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。
本书旨在介绍Spark应用程序体系架构的核心技术,共分8章,具体内容简介如下:
第1章从大数据和Spark框架的概念出发,详细介绍大数据的特点和应用场景,以及Spark框架的历史、功能和优势。此外,还介绍了其他一些数据处理框架的比较和应用。
第2章主要讲解Spark集群的搭建和配置过程,包括Standalone、Spark on Yarn、Spark HA模式等。读者将学会如何进行硬件和软件环境的配置,并了解集群的各种部件和组件。
第3章介绍Spark程序的基本结构和编写方式,包括如何读取和处理数据、如何进行数据转换和计算,以及如何输出结果。
第4章主要介绍Spark框架中的RDD(弹性分布式数据集),包括RDD的概念、RDD的特性、RDD的使用方法和操作,以及RDD的持久化等相关内容。
第5章主要介绍Spark框架的核心原理,包括Spark的计算模型、任务调度和执行、内存管理和数据传输等方面的原理和机制。读者将了解Spark框架的内部实现原理和运行机制。
第6章主要介绍Spark框架中数据的存储和管理方式,包括Spark的数据存储结构、数据压缩和序列化,以及数据管理和清理等相关内容。读者将了解如何优化数据存储和访问性能。
第7章介绍Spark SQL的概念和使用方法,包括如何使用Spark SQL进行数据处理和分析,如何进行SQL查询和数据聚合,以及如何与其他数据源进行集成。
第8章主要介绍Spark Streaming的概念和使用方法,包括如何使用Spark Streaming进行实时数据处理和分析,如何进行流数据的处理和转换,以及如何与其他数据源进行集成。此外,还包含一些实战案例供读者参考。
本书由湖南环境生物职业技术学院蒋一锄任主编,武汉唯众智创科技有限公司冉柏权和陈家枫、武汉铁路职业技术学院杨健、武汉船舶职业技术学院李熙任副主编。具体分工如下:蒋一锄编写第1章、第2章、第6章,冉柏权编写第3章,杨健编写第4章,李熙编写第5章,陈家枫编写第7章、第8章。全书由蒋一锄统稿。
由于编者水平有限,加之编写时间仓促,书中难免存在疏漏与不妥之处,敬请广大读者批评指正。
编 者
2023 年 10 月 -
目录
第1章大数据与Spark简介11.1大数据简介与相关技术21.1.1大数据简介21.1.2大数据相关技术.21.2Spark简介51.2.1Spark特性51.2.2Spark的历史与发展81.2.3Spark组件91.3其他数据处理框架101.3.1Hadoop111.3.2Storm201.3.3Flink211.3.4Beam23小结.24习题.25第2章Spark集群安装配置262.1集群环境准备262.1.1系统环境配置262.1.2JDK安装312.1.3Hadoop集群部署342.1.4ZooKeeper集群部署422.1.5Scala安装452.2Spark环境搭建462.2.1Standalone模式部署462.2.2SparkonYarn模式部署492.2.3SparkHA集群部署542.3Spark运行架构与原理572.3.1基本概念572.3.2Spark集群运行架构5 -
作者介绍
蒋一锄,毕业于华中科技大学计算机科学与技术专业,湖南环境生物职业技术学院副教授(副研究馆员)、IBMCertifiedforOnDemandBusiness;现任湖南环境生物职业技术学院图书馆副馆长、计算机专业课程教师;工作以来,发表学术论文10余篇、主持或参与省市级课题6项、主编或参编专著(教材)3部、获实用新型专利7项、发明专利2项。指导学生在第十一届“中国软件杯”大学生软件设计大赛总决赛获一等奖;指导学生在大数据技术与应用等赛项中获得省级奖项多项。 -
编辑推荐
本书以实践为导向,突出案例教学;结合Spark生态圈,扩展相关知识点,呈现完整的Spark大数据分析体系;使用通俗易懂的语言阐述难点,辅以大量生动形象的图例,增强读者的理解和记忆;具有完整的知识体系和目录结构,形成逻辑清晰的知识脉络;采用深入浅出的层级教学,逐步深化读者对Spark的理解;提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。 -
书评书荐
-
附件下载
图书推荐




