图书商城-中国铁道出版社有限公司

大数据编程技术——从理论到实践

书号：9787113324926

丛书名：

作者：倪波,李康

译者：

开本：16开

装帧：平装

正文语种：汉文

出版社：中国铁道出版社

定价：49.8元

立即购买

内容简介

本书依据高等院校人才培养目标和Hadoop课程教学大纲编写。本书立足于大数据技术的理论与实践，以“从零到一构建企业级数据仓库”为主线，系统地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。具体内容包括大数据与Hadoop、Hadoop集群搭建及配置、Hadoop核心组件、Hive数据仓库、数据采集与预处理、数据仓库建模，最后通过“在线教育数据仓库建模实践”这个真实项目串联全书知识点，从业务调研、数据采集、数仓分层设计到数据报表导出与可视化，完整还原企业级数据仓库的搭建流程，以强化工程化思维。
前言

前言
在数字化浪潮席卷全球的今天，数据已成为驱动社会进步的核心生产要素。无论是互联网企业的精准推荐、金融行业的风险控制，还是医疗领域的智能诊断，背后都离不开大数据技术的支撑。然而，面对海量数据的采集、存储、计算与分析，传统技术体系已难以应对高并发、高吞吐、高扩展性的挑战。以Hadoop为核心的分布式技术生态应运而生，成为企业构建数据驱动型业务的基础设施。
本书依据高等院校人才培养目标和Hadoop课程教学大纲编写，立足于大数据技术的理论与实践，以“从零到一构建企业级数据仓库”为主线，系统性地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。全书内容分为七章，层层递进，兼顾技术深度与实战广度，旨在帮助读者掌握大数据平台搭建、数据仓库设计、数据可视化等全流程技能，并为解决实际业务问题提供完整方案。
本书的内容结构主要分为三个部分。
第一，基础部分（第1～3章）。第1章深入解析大数据的概念、应用场景及Hadoop生态体系，奠定技术认知基础。第2章从零开始手把手指导Hadoop集群搭建，涵盖虚拟机配置、分布式环境部署、集群管理脚本编写等实操细节。第3章详解Hadoop三大核心组件——HDFS（分布式文件系统）、MapReduce（分布式计算框架）和YARN（资源调度器），通过代码示例与流程剖析，揭示分布式系统的设计精髓。
第二，工具部分（第4、5章）。第4章聚焦Hive数据仓库，讲解表结构设计、分区与分桶优化、视图管理等核心操作，实现从SQL到大数据计算的平滑过渡。第5章覆盖数据采集全链路技术，包括Zookeeper（分布式协调）、Kafka（高吞吐消息队列）、Flume（日志采集）、Sqoop（数据迁移），构建高效、可靠的数据管道。
第三，进阶部分（第6、7章）。第6章系统阐述数据仓库建模理论，对比关系模型与维度模型的优劣，详解分层架构设计（ODS、DWD、DWS、ADS）与开发规范，并引入Superset实现数据可视化。第7章以“在线教育”行业为背景，通过真实项目实战串联全书知识点，从业务调研、数据采集、数仓分层设计到数据报表导出与可视化，完整还原企业级数据仓库的搭建流程，以强化工程化思维。
在数字化浪潮席卷全球的今天，数据已成为驱动社会进步的核心生产要素。无论是互联网企业的精准推荐、金融行业的风险控制，还是医疗领域的智能诊断，背后都离不开大数据技术的支撑。然而，面对海量数据的采集、存储、计算与分析，传统技术体系已难以应对高并发、高吞吐、高扩展性的挑战。以Hadoop为核心的分布式技术生态应运而生，成为企业构建数据驱动型业务的基础设施。
本书依据高等院校人才培养目标和Hadoop课程教学大纲编写，立足于大数据技术的理论与实践，以“从零到一构建企业级数据仓库”为主线，系统性地讲解大数据技术栈的核心组件、数据建模方法论及行业级应用实践。全书内容分为七章，层层递进，兼顾技术深度与实战广度，旨在帮助读者掌握大数据平台搭建、数据仓库设计、数据可视化等全流程技能，并为解决实际业务问题提供完整方案。
本书的内容结构主要分为三个部分。
第一，基础部分（第1～3章）。第1章深入解析大数据的概念、应用场景及Hadoop生态体系，奠定技术认知基础。第2章从零开始手把手指导Hadoop集群搭建，涵盖虚拟机配置、分布式环境部署、集群管理脚本编写等实操细节。第3章详解Hadoop三大核心组件——HDFS（分布式文件系统）、MapReduce（分布式计算框架）和YARN（资源调度器），通过代码示例与流程剖析，揭示分布式系统的设计精髓。
第二，工具部分（第4、5章）。第4章聚焦Hive数据仓库，讲解表结构设计、分区与分桶优化、视图管理等核心操作，实现从SQL到大数据计算的平滑过渡。第5章覆盖数据采集全链路技术，包括Zookeeper（分布式协调）、Kafka（高吞吐消息队）、Flume（日志采集）、Sqoop（数据迁移），构建高效、可靠的数据管道。
第三，进阶部分（第6、7章）。第6章系统阐述数据仓库建模理论，对比关系模型与维度模型的优劣，详解分层架构设计（ODS、DWD、DWS、ADS）与开发规范，并引入Superset实现数据可视化。第7章以“在线教育”行业为背景，通过真实项目实战串联全书知识点，从业务调研、数据采集、数仓分层设计到数据报表导出与可视化，完整还原企业级数据仓库的搭建流程，以强化工程化思维。
本书主要特色包含以下几个方面。
理论与实践并重：每章均包含技术原理剖析与动手实验，如HDFS文件读写流程、MapReduce编程案例、Flume日志采集配置等，帮助读者“既懂原理，又会操作”。
技术栈完整：涵盖Hadoop生态的多个核心组件（如Hive、Kafka、Zookeeper），贴合企业主流技术选型。
行业级项目驱动：通过在线教育数仓项目，解决“数据孤岛”“指标口径混乱”“分析效率低下”等企业常见痛点，培养读者解决复杂问题的能力。
配套资源丰富：提供代码脚本、配置模板、数据集及习题参考答案，便于教学与自学。本书配有电子课件等资源，可通过中国铁道出版社教育资源数字化平台（https://www.
tdpress.com/51eds）下载。
本书由倪波、李康主编，其中倪波编写第1章、第3章和第4章，李康编写第2章、第5～7章。
由于编者水平有限，书中难免存在疏漏和不足之处，恳请广大读者批评指正。
编者
2025年12月
目录

目录第1章大数据与Hadoop..............................................................................11.1大数据概述..............................................................................................................11.1.1大数据时代...............................................................................................................11.1.2大数据应用...............................................................................................................31.2Hadoop简介....................
作者介绍

倪波，湖北理工学院计算机学院副院长，博士、教授，计算机学会会员，中国图形图像学会会员，湖北省优秀中青年团队核心成员，主要从事机器视觉和人工智能等方面的研究工作，具体内容包括：深度学习与视觉理解、医学影像智能分析与诊断，多模态数据分析。主持和参与相关纵向研究课题10余项，在国内外SCI等知名期刊发表论文30篇，其中ESI高引或热点论文篇，Google学术SCI他引100余次。李康，湖北理工学院计算机学院专任教师、助教，系统架构设计师。本硕毕业于中国地质大学(武汉)软件工程专业，深耕大数据技术教学与工程实践。主讲《Hadoop大数据技术》《Spark编程基础》等课程，擅于融合行业案例与前沿技术，强化学生分布式计算及实时分析能力。持系统架构设计师认证，精通大数据生态系统工具链，主导产教融合项目开发，指导学生参与多项企业级大数据分析实践。
编辑推荐

1.理论与实践并重：每章均配备基础知识讲解和项目案例，包括课后习题与实验操作，强化动手能力。
2.案例驱动学习：通过真实行业项目串联技术点，帮助读者掌握企业级开发流程。
3.技术生态全覆盖：涵盖Hadoop、Hive、Zookeeper、Flume、Sqoop、Superset等主流工具，构建完整知识体系。
4.渐进式教学：从环境配置到高阶应用层层递进，适配不同学习阶段需求。
书评书荐
附件下载

图书推荐

010-51873174