欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

大数据编程技术——从理论到实践

书      号:9787113324926

丛  书 名:

作      者:倪波,李康

译      者:

开      本:16开

装      帧:平装

正文语种:汉文

出  版 社:中国铁道出版社

定      价:49.8

  • 内容简介

    本书依据高等院校人才培养目标和Hadoop课程教学大纲编写。本书立足于大数据技术的理论与实践,以“从零到一构建企业级数据仓库”为主线,系统地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。具体内容包括大数据与Hadoop、Hadoop集群搭建及配置、Hadoop核心组件、Hive数据仓库、数据采集与预处理、数据仓库建模,最后通过“在线教育数据仓库建模实践”这个真实项目串联全书知识点,从业务调研、数据采集、数仓分层设计到数据报表导出与可视化,完整还原企业级数据仓库的搭建流程,以强化工程化思维。
  • 前言

    前言
    在数字化浪潮席卷全球的今天,数据已成为驱动社会进步的核心生产要素。无论是互联网企业的精准推荐、金融行业的风险控制,还是医疗领域的智能诊断,背后都离不开大数据技术的支撑。然而,面对海量数据的采集、存储、计算与分析,传统技术体系已难以应对高并发、高吞吐、高扩展性的挑战。以Hadoop为核心的分布式技术生态应运而生,成为企业构建数据驱动型业务的基础设施。
    本书依据高等院校人才培养目标和Hadoop课程教学大纲编写,立足于大数据技术的理论与实践,以“从零到一构建企业级数据仓库”为主线,系统性地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。全书内容分为七章,层层递进,兼顾技术深度与实战广度,旨在帮助读者掌握大数据平台搭建、数据仓库设计、数据可视化等全流程技能,并为解决实际业务问题提供完整方案。
    本书的内容结构主要分为三个部分。
    第一,基础部分(第1~3章)。第1章深入解析大数据的概念、应用场景及Hadoop生态体系,奠定技术认知基础。第2章从零开始手把手指导Hadoop集群搭建,涵盖虚拟机配置、分布式环境部署、集群管理脚本编写等实操细节。第3章详解Hadoop三大核心组件——HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源调度器),通过代码示例与流程剖析,揭示分布式系统的设计精髓。
    第二,工具部分(第4、5章)。第4章聚焦Hive数据仓库,讲解表结构设计、分区与分桶优化、视图管理等核心操作,实现从SQL到大数据计算的平滑过渡。第5章覆盖数据采集全链路技术,包括Zookeeper(分布式协调)、Kafka(高吞吐消息队列)、Flume(日志采集)、Sqoop(数据迁移),构建高效、可靠的数据管道。
    第三,进阶部分(第6、7章)。第6章系统阐述数据仓库建模理论,对比关系模型与维度模型的优劣,详解分层架构设计(ODS、DWD、DWS、ADS)与开发规范,并引入Superset实现数据可视化。第7章以“在线教育”行业为背景,通过真实项目实战串联全书知识点,从业务调研、数据采集、数仓分层设计到数据报表导出与可视化,完整还原企业级数据仓库的搭建流程,以强化工程化思维。
    在数字化浪潮席卷全球的今天,数据已成为驱动社会进步的核心生产要素。无论是互联网企业的精准推荐、金融行业的风险控制,还是医疗领域的智能诊断,背后都离不开大数据技术的支撑。然而,面对海量数据的采集、存储、计算与分析,传统技术体系已难以应对高并发、高吞吐、高扩展性的挑战。以Hadoop为核心的分布式技术生态应运而生,成为企业构建数据驱动型业务的基础设施。
    本书依据高等院校人才培养目标和Hadoop课程教学大纲编写,立足于大数据技术的理论与实践,以“从零到一构建企业级数据仓库”为主线,系统性地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。全书内容分为七章,层层递进,兼顾技术深度与实战广度,旨在帮助读者掌握大数据平台搭建、数据仓库设计、数据可视化等全流程技能,并为解决实际业务问题提供完整方案。
    本书的内容结构主要分为三个部分。
    第一,基础部分(第1~3章)。第1章深入解析大数据的概念、应用场景及Hadoop生态体系,奠定技术认知基础。第2章从零开始手把手指导Hadoop集群搭建,涵盖虚拟机配置、分布式环境部署、集群管理脚本编写等实操细节。第3章详解Hadoop三大核心组件——HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源调度器),通过代码示例与流程剖析,揭示分布式系统的设计精髓。
    第二,工具部分(第4、5章)。第4章聚焦Hive数据仓库,讲解表结构设计、分区与分桶优化、视图管理等核心操作,实现从SQL到大数据计算的平滑过渡。第5章覆盖数据采集全链路技术,包括Zookeeper(分布式协调)、Kafka(高吞吐消息队)、Flume(日志采集)、Sqoop(数据迁移),构建高效、可靠的数据管道。
    第三,进阶部分(第6、7章)。第6章系统阐述数据仓库建模理论,对比关系模型与维度模型的优劣,详解分层架构设计(ODS、DWD、DWS、ADS)与开发规范,并引入Superset实现数据可视化。第7章以“在线教育”行业为背景,通过真实项目实战串联全书知识点,从业务调研、数据采集、数仓分层设计到数据报表导出与可视化,完整还原企业级数据仓库的搭建流程,以强化工程化思维。
    本书主要特色包含以下几个方面。
    理论与实践并重:每章均包含技术原理剖析与动手实验,如HDFS文件读写流程、MapReduce编程案例、Flume日志采集配置等,帮助读者“既懂原理,又会操作”。
    技术栈完整:涵盖Hadoop生态的多个核心组件(如Hive、Kafka、Zookeeper),贴合企业主流技术选型。
    行业级项目驱动:通过在线教育数仓项目,解决“数据孤岛”“指标口径混乱”“分析效率低下”等企业常见痛点,培养读者解决复杂问题的能力。
    配套资源丰富:提供代码脚本、配置模板、数据集及习题参考答案,便于教学与自学。本书配有电子课件等资源,可通过中国铁道出版社教育资源数字化平台(https://www.
    tdpress.com/51eds)下载。
    本书由倪波、李康主编,其中倪波编写第1章、第3章和第4章,李康编写第2章、第5~7章。
    由于编者水平有限,书中难免存在疏漏和不足之处,恳请广大读者批评指正。
    编者
    2025年12月
  • 目录

    目录第1章大数据与Hadoop..............................................................................11.1大数据概述..............................................................................................................11.1.1大数据时代...............................................................................................................11.1.2大数据应用...............................................................................................................31.2Hadoop简介....................
  • 作者介绍

    倪波,湖北理工学院计算机学院副院长,博士、教授,计算机学会会员,中国图形图像学会会员,湖北省优秀中青年团队核心成员,主要从事机器视觉和人工智能等方面的研究工作,具体内容包括:深度学习与视觉理解、医学影像智能分析与诊断,多模态数据分析。主持和参与相关纵向研究课题10余项,在国内外SCI等知名期刊发表论文30篇,其中ESI高引或热点论文篇,Google学术SCI他引100余次。 李康,湖北理工学院计算机学院专任教师、助教,系统架构设计师。本硕毕业于中国地质大学(武汉)软件工程专业,深耕大数据技术教学与工程实践。主讲《Hadoop大数据技术》《Spark编程基础》等课程,擅于融合行业案例与前沿技术,强化学生分布式计算及实时分析能力。持系统架构设计师认证,精通大数据生态系统工具链,主导产教融合项目开发,指导学生参与多项企业级大数据分析实践。
  • 编辑推荐

    1.理论与实践并重:每章均配备基础知识讲解和项目案例,包括课后习题与实验操作,强化动手能力。
    2.案例驱动学习:通过真实行业项目串联技术点,帮助读者掌握企业级开发流程。
    3.技术生态全覆盖:涵盖Hadoop、Hive、Zookeeper、Flume、Sqoop、Superset等主流工具,构建完整知识体系。
    4.渐进式教学:从环境配置到高阶应用层层递进,适配不同学习阶段需求。
  • 书评书荐

  • 附件下载

图书推荐