欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

大数据架构应用之 Hadoop

书      号:9787113314934

丛  书 名:

作      者:查欣,钱冲冲

译      者:

开      本:大16开

装      帧:平装

正文语种:汉文

出  版 社:中国铁道出版社

定      价:45

  • 内容简介

    本书为“高等职业教育计算机教育新形态系列教材”之一,围绕Hadoop生态圈相关系统介绍大数据处理架构,分为六个学习情境。学习情境一讲解Hadoop相关概念、集群的搭建;学习情境二讲解Hadoop分布式文件系统(HDFS);学习情境三讲解MapReduce分布式计算框架的相关知识;学习情境四讲解Hive数据仓库的相关知识;学习情境五讲解Flume日志采集系统的基本知识;学习情境六介绍Zookeeper分布式协调服务。 本书内容讲解以课堂实训案例为主线。通过学习本书,学生能够掌握Hadoop生态圈的基本功能,提升对大数据架构的实际应用能力。本书附有案例的视频、源文件及效果文件,以利于教师授课、学生学习。 本书适合作为高等职业院校大数据技术专业的教材,也可供相关人员学习参考。
  • 前言

    随着大数据时代的到来,数据的存储与挖掘发挥着越来越重要的作用。企业不仅追求
    高可靠性、高扩展性及高容错性的大数据处理平台,同时还希望能够降低成本。Hadoop
    为实现这些需求提供了解决方案。Hadoop作为大数据处理和分析工具,具体优势如下:


    (1)高可靠性:Hadoop采用分布式文件系统 HDFS 实现。它支持大规模数据分布式
    存储,把数据拆分,存储于集群不同节点,还能通过灵活扩展节点适配数据增长与处理需
    求。当部分节点出现故障,数据冗余机制可调用其他节点数据,保障存储与计算任务持续,
    让 Hadoop 面对海量数据场景也能稳定可靠运行。


    (2)高效性:Hadoop的MapReduce计算模型可以高效地处理大规模数据集,并且
    可以支持多种数据处理和分析算法。这使得Hadoop在大数据处理和分析方面具有高效的
    性能。


    (3)开源性:Hadoop是一个开源项目,这意味着用户可以自由地使用、修改和共享
    代码。这种开源性使得Hadoop社区能够不断地发展和改进Hadoop,为用户提供更好的大
    数据处理和分析工具。


    (4)可扩展性:Hadoop的生态系统非常庞大,有许多开源组件和工具可以与
    Hadoop 集成,例如Yarn、Hive、Pig、Spark等。这些组件和工具可以帮助用户处理不同
    类型的数据,从大规模数据集到实时数据流。


    综上所述,Hadoop在大数据处理和分析方面具有高可靠性、高效性、开源性和可扩
    展性等优点,因此,它成为了许多大数据业务的基础。


    本书为“高等职业教育计算机教育新形态系列教材”之一,以课堂实训案例为主线,
    围绕Hadoop生态圈相关系统介绍大数据处理架构,共分六个学习情境。本书特色如下:


    (1)实践性强:本书注重实践,通过实际案例和场景描述,帮助读者了解大数据技
    术的应用和实践。读者可以通过实践加深对大数据技术的理解和掌握。


    (2)内容全面:本书涵盖了大数据技术的方方面面,包括Hadoop平台的搭建、HDFS分布式系统、MapReduce、Hive数据仓库等,适合初学者和有一定大数据基础的读
    者阅读。


    (3)深入浅出:本书理论讲解深入浅出,语言简洁明了。同时,书中也包含了一些
    高级技术和应用场景,适合有一定大数据基础的读者进一步学习。


    (4)结合实际:本书中的案例和场景描述均结合实际应用场景,让读者能够更好地
    了解大数据技术的实际应用。


    (5)可操作性强:本书中介绍的技术和方法均可以实际操作,读者可以通过书中的
    指导进行实践,以加深对技术的理解和掌握。


    本书配备了丰富的教学资源,微课视频可通过扫描二维码观看,教学课件、源代码等
    可登录中国铁道出版社教学资源数字化平台(https://www.tdpress.com/51eds)获取。


    本书由长期从事教学工作的骨干教师和企业工程师共同编写完成,查欣、钱冲冲任主
    编,孙燕飞、王丹丹、庄曜任副主编。由于编者水平和经验有限,书中难免存在不妥之处,
    恳请广大读者批评指正。
    2
    wq.indd 2
    编 者
    2025 年7月
  • 目录

    学习情境一Hadoop集群的搭建11.1学习情境描述11.2学习目标11.3Hadoop平台搭建的基础工作11.3.1项目引导11.3.2项目任务书21.3.3项目工作实施41.4实战演练——Hadoop集群搭建91.4.1实战演练一安装JDK91.4.2实战演练二安装Hadoop111.4.3实战演练三Hadoop集群配置111.4.4实战演练四Hadoop集群测试141.5项目总结报告171.6习题17学习情境二HDFS分布式文件系统192.1学习情境描述192.2学习目标192.3HDFS的Shell操作192.3.1项目引导192.3.2项目任务书202.3.3HDFS的组成212.3.4HDFS的Shell操作242.4实战演练——HDFS的上传与下载282.4.1实战演练一搭建项目环境282.4.2实战演练二初始化客户端对象312.4.3
  • 作者介绍

    查欣,淄博职业学院人工智能与大数据学院副院长,从事职业教育教学近二十年,《计算机文化基础》《三维动画设计与制作》《Java语言程序设计》《面向对象程序设计语言》《VISIO制图实务》《操作系统基础》《计算机网络技术》等多门专业核心课程和实训实习课程的教学工作。连续6个学期教学质量评价等级为A等,2019年获院长质量奖;荣获院级“教学名师”“优秀教育工作者”“优秀工会工作者”等荣誉称号。主讲国家精品资源共享课1门,省级精品课程3门,山东省第三批品牌专业群核心成员,物联网应用技术国家骨干专业核心成员;院级精品资源共享课《计算机文化基础》主持人;院级课程思政改革立项《面向对象程序设计》主持人。指导学生参加山东省职业院校技能大赛(高职组)“物联网技术应用”竞赛项目获三等奖;指导学生参加第三届山东省互联网大学生创新创业大赛获铜奖;指导学生参加全国大学生计算机应用能力与信息素养大赛获二等奖1项,三等奖2项;指导学生参加第八届全国高校数字艺术设计大赛全国总决赛二等奖;指导学生参加淄博市职业院校技能大赛获二等奖若干;本人参加淄博市职业技能大赛获二等奖,并被评为淄博市技术能手。钱冲冲,就职于淄博职业学院,从事职业教育教学近5年
  • 编辑推荐

    (1)高可靠性


    (2)高效性


    (3)开源性


    (4)可扩展性
  • 书评书荐

  • 附件下载

图书推荐