欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

Hadoop+Spark大数据技术与应用

书      号:9787113327439

丛  书 名:

作      者:丁琛,孙勇,韦伟,周娜

译      者:

开      本:16开

装      帧:平装

正文语种:汉文

出  版 社:中国铁道出版社

定      价:59.8

  • 内容简介

    Hadoop和Spark是当前比较流行的大数据框架。本书以应用为主线,系统地介绍了Hadoop和Spark的基础知识,全书包含Hadoop的安装、HDFS技术、YARN技术、MapReduce技术、Hive技术、HBase技术、ZooKeeper技术、Spark的安装与运行、Spark编程、SparkSQL、SparkMLlib和案例实践等内容,Hadoop使用Java语言进行编程,Spark使用Python语言进行编程,较好地考虑到了当前高校学生程序语言的基础。全书理论和实践相结合,同时介绍了运维方面的基础知识,充分考虑了应用型本科人才培养的定位。本书适合作为高等院校计算机科学与技术、软件工程、数据科学与大数据技术等专业Hadoop和Spark技术的入门级教材,也可以供相关技术人员参考。
  • 前言

    前言
    随着全球数字化转型的快速发展,各个国家的数字经济占比持续提升。数据已转变为新一代生产要素,并被提升到国家战略资源规划层面。我国自2015年国务院颁布《促进大数据发展行动纲要》以来,掀起了大数据产业建设的浪潮。大数据产业的发展将持续促进传统产业转型升级,激发经济增长活力,助力新型智慧城市和数字经济建设。
    Hadoop和Spark在大数据技术生态中分别扮演着基础设施奠基者和高性能计算引擎的关键角色,二者共同构成了现代大数据处理的基石,Hadoop分布式文件系统(HDFS)解决了海量数据的存储问题,至今仍是企业大数据的核心存储方案,Hadoop的资源管理YARN,支撑了Hive、HBase、Flume等工具的发展,形成完整的大数据工具链,而Hadoop的分布式计算MapReduce模型奠定了分布式计算的编程范式,启发了后续大数据处理框架的设计。但是MapReduce任务启动延迟较大,且磁盘I/O密集型设计导致迭代计算效率低,具有一定的局限性。Spark在设计上充分吸收和借鉴了MapReduce的精髓并加以改进,推动了准实时(秒级延迟)分析的普及,并统一了计算引擎,支持批处理、流处理、机器学习、图计算的统一API,诸多优点使它成为了大数据计算平台的后起之秀。Hadoop是大数据革命的基础设施开创者,解决“存得住”的问题,Spark是大数据性能的计算效率突破者,解决“算得快”的需求。Hadoop提供基石,Spark拓展能力边界,二者共同构成了现代大数据处理的“存储-计算”二元体系,在可预见的未来仍将保持不可替代性。
    现阶段大数据人才的培养速度和质量远远无法满足产业规模增长的需求。在未来很长的一段时间内,大数据技术应用领域是国家重点发展的新型战略产业,大数据方向的优秀毕业生都将是企业争夺的重要人才资源。从2016年起,国内高校纷纷开设大数据及相关的专业,着力培养大数据科学与工程复合型高级技术人才。本书对应用型本科Hadoop与Spark大数据应用人才的培养做了一定的尝试,强调理论与实践相结合,同时结合编者在高校和企业的实际,增加了部分运维方面的基础知识,试图从企业实际应用和岗位需求的角度来探索应用型本科人才的培养。
    本书定位为入门级的大数据教材,书中的Hadoop应用程序开发采用Java语言编写;Spark框架本身是Scala语言编写的,Spark应用程序的开发首选语言是Scala,但考虑到当前高校学生程序语言的基础和PySpark在企业界的广泛应用,最终选择了Python作为Spark应用程序的编程语言。
    本书一共分为13章。第1章介绍Hadoop+Spark大数据技术基础知识,帮助读者了解Hadoop和Spark的大体结构和在大数据领域中的地位;第2章介绍Hadoop的安装,帮助读者了解Hadoop的安装模式和安装Hadoop的过程;第3章
    介绍HDFS技术,使读者能大致了解HDFS的特点和架构,并初步学会使用HDFS;第4章介绍YARN技术,包括YARN的架构、资源调度器和使用过程,第5章介绍MapReduce技术,读者学完这一章,能大致了解MapReduce技术数据处理的过程,并初步学会使用MapReduce编写程序;第6~8章分别介绍Hive技术、HBase技术和ZooKeeper技术,它们都是Hadoop生态圈的重要成员,这三章大致描述了它们的架构和如何使用这三种技术;第9章介绍Spark的安装与运行,包括安装过程、PySpark的基本操作;第10章使用PySpark进行编程,介绍了Spark环境的搭建、RDD的基本知识;第11章和第12章介绍SparkSQL和Spark MLlib技术,它们都是Spark生态圈的重要成员,介绍了它们的架构和如何使用这两种技术。最后一章是案例,供学习者综合运用Hadoop和Spark的知识来解决实际问题。
    本书由丁琛、孙勇、韦伟、周娜任主编。刘云灵、徐慧琴、任凯、朱惠娟任副主编,他们对全书进行了核订和统稿。感谢宗平教授、秦军教授、毛鹰池教授和高尚教授在审稿中提出的宝贵意见。此外,感谢段志应、张怡、季晓君、王东江、王丽、方华、桑天一、谢玲、杨振鹏等同志在本书编写过程中所提供的帮助和支持。
    由于时间仓促和编者水平有限,书中难免存在一些疏漏和不足之处,欢迎读者批评指正。


    编 者
    2025年8月
  • 目录

    目录第1章Hadoop+Spark大数据技术基础知识 11.1什么是大数据 21.1.1大数据的概念 21.1.2大数据的特点 21.1.3Hadoop、Spark与大数据 31.1.4大数据技术的应用 41.2Hadoop概述 51.2.1Hadoop简介 51.2.2Hadoop的发展历史 51.2.3Hadoop核心组件 61.2.4Hadoop生态圈介绍 71.3Spark概述 81.3.1Spark简介 81.3.2Spark的发展历史 81.3.3Spark体系架构 91.3.4Spark生态圈介绍 101.3.5Spark与Hadoop的关系 11小结 12思考与练习 12第2章Hadoop的安装 132.1安装Hadoop前的准备 142.1.1VMware虚拟机的安装 142.1.2安装Linux操作系统 142.1.3配置网络 202.1.4节点之间的免密码通信 232.1.5远程连接虚拟机 232.1.6安装Java环境
  • 作者介绍

    丁琛,硕士,工程师讲师,南京理工大学紫金学院数据科学与大数据技术专业负责人。有十多年企业大数据项目研发和管理经验,曾在国内知名企业长期担任大数据研发高级项目经理和架构师等职。拥有多项专利,发表论文多篇。主持教育部产学结合协同育人项目1项、作为主要成员参与江苏省哲学社会科学研究项目1项。孙勇,硕士,高级工程师,南京理工大学紫金学院软件工程专业专任教师,擅长大数据开发,软件开发方面的教学。主持江苏省高校哲学社会科学研究项目1项;主持参与校产教融合型一流课程建设项目2项;主持参与教育部产学合作协同育人项目2项;以第一作者发表过多篇论文,获得多项软件著作权,获南京理工大学紫金学院骨干教师组讲课竞赛一等奖。韦伟,1980年生,硕士,副教授,南京理工大学紫金学院教师。长期从事《软件工程与方法学》、《数据结构》、《UML面向对象建模设计》、《面向对象C程序设计》等本科课程教学工作,主持软件工程校级重点专业及《大学信息技术与应用》精品课程建设工作。曾作为主要成员参与《PHPMySQL项目实例开发》(副主编,清华大学出版社,2014年),《大学计算机实践教程(第3版)》(第一编著,高等教育出版社,2021年)等10余本教材的编
  • 编辑推荐

    本书对应用型本科Hadoop与Spark大数据应用人才的培养做了一定的尝试,强调理论与实践相结合,同时结合编者在高校和企业的实际,增加了部分运维方面的基础知识,试图从企业实际应用和岗位需求的角度来探索应用型本科人才的培养。
  • 书评书荐

  • 附件下载

图书推荐