欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

数据仓库原理与实践

书      号:9787113319984

丛  书 名:“十四五”高等学校新工科计算机类专业系列教材

作      者:康瑶,董亮

译      者:

开      本:16开

装      帧:平装

正文语种:汉文

出  版 社:中国铁道出版社有限公司

定      价:62

  • 内容简介

    本书为“十四五”高等学校新工科计算机类专业系列教材之一,主要论述数据仓库的理论和实际应用,内容涵盖数据仓库的基本概念、数据模型、维度建模、技术架构、数据集成与存储、Hive数据仓库工具、Spark计算引擎、大数据任务调度系统、OLAP联机分析处理技术,以及企业级数据仓库综合项目实践等方面。本书内容特色鲜明,面向应用型本科,紧密结合企业级数据仓库设计需求。通过应用案例及项目实战介绍大数据技术在数据仓库中的应用。同时,本书内容丰富全面,既体现了数据仓库的理论知识,又注重实践应用。本书适用于高等院校数据科学与大数据技术、计算机科学与技术、软件工程等专业的高年级本科生,以及对大数据感兴趣的读者。
  • 前言

    数据仓库作为现代企业决策分析的重要基石,是一个集中存储、管理和整合企业数据的大型数据存储集合。它通过整合分散的业务数据,向企业提供全面的数据分析支持,并可面向主题组织数据,确保数据的稳定性,满足复杂分析需求。随着数据量的爆炸性增长,数据仓库技术不断创新,提升数据存储、处理和分析能力,已成为企业数字化转型和智能化升级的关键驱动力。
    本书旨在全面论述数据仓库的基本概念、系统组成及关键技术,并结合实际案例深入探讨数据仓库的设计、实施与优化策略。本书内容组织如下:
    第1章介绍了数据仓库的基本概念、发展历程及作用,让读者对数据仓库有一个全面的了解。
    第2章详细论述了数据仓库的数据模型,特别是维度模型的相关概念、类型及其在数据仓库中的应用,为数据仓库设计提供理论基础。
    第3章论述了基于Ralph Kimball基础的维度建模理论以及企业级数据仓库的数据分层建模思想,并通过实际案例展示了如何进行数据仓库的需求分析、逻辑模型设计及物理模型设计。
    第4章论述了大数据场景下的数据仓库项目的技术场景分析、技术方案设计及技术架构设计,帮助读者掌握数据仓库项目开发的流程和方法。
    第5章深入讲解了大数据离线场景下的数据采集与同步技术,包括 Flume 和SeaTunnel框架的应用,以及实际案例的展示。
    第6章详细论述了Hive数据仓库工具的技术原理和应用方法,通过实际案例展示了如何利用Hive构建数据仓库、处理海量用户行为数据。
    第7章论述了开源大数据主流计算引擎Spark,包括其技术原理、部署方法、任务提交及数据处理等方面的内容,并通过实际案例展示了如何利用Spark实现数据仓库构建过程中的关键步骤。
    第8章论述了大数据任务调度系统DolphinScheduler的核心价值与关键技术,并通过实际案例展示了其在大数据平台中的关键角色。
    第9章论述了OLAP(online analytical processing,联机分析处理)技术的原理及其在数据仓库中的应用,同时介绍了 Apache Kylin这一开源的、分布式的数据仓库OLAP工具,并通过实际案例展示了其部署、优化及查询加速的实践应用。
    第10章论述了大数据项目的完整开发过程,包括行业背景调查、需求分析、技术架构和技术实现等方面的内容,帮助读者了解大数据项目开发的完整流程。
    本书紧扣数据仓库设计及开发所需要的知识、技能和素质要求,以技术应用能力培养为主线构建教材内容,具有以下特色:
    (1)理论与实践相结合:本书不仅论述了数据仓库的基本理论和关键技术,还通过实际案例展示了如何应用这些理论和技术进行数据仓库的设计、实施与优化。
    (2)内容全面深入:本书涵盖了数据仓库的各个方面,从基本概念到关键技术,再到实际应用,内容全面深入。
    (3)配套资源丰富:本书配备了丰富的配套资源,包括案例代码、教学视频、PPT课件等,以方便读者学习和实践。读者可联系本书编者获取资源(53235602@qq.com)。
    本书由北京城市学院及慧科教育集团联合编写,参考了连续多届选课的同学提出的宝贵建议,编者在此表示衷心感谢。由于时间仓促,编者水平有限,书中难免存在不足之处,恳请广大读者指正。


    编 者
    2024年12月
  • 目录

    第1章数据仓库概述11.1数据仓库与数据库21.1.1数据仓库的定义21.1.2数据仓库与操作型数据库41.1.3数据仓库的应用61.2数据仓库系统及开发工具71.2.1数据仓库系统的组成71.2.2大数据时代数据仓库开发工具101.3商业智能与数据仓库121.3.1商业智能121.3.2商业智能与数据仓库的关系131.4大数据时代数据仓库建设141.4.1大数据时代数据仓库的架构141.4.2大数据时代数据仓库的关键技术151.4.3大数据时代数据仓库应用存在的问题16小结16思考与练习17第2章数据仓库的数据模型182.1数据仓库的数据模型分类192.1.1维度模型192.1.2范式模型192.1.3DataVault模型192.1.4Anchor模型202.2维度模型的相关概念202.2.1粒度202.2.2维度与维度表202.2.3度量与事实表212.2.4多维数据集21
  • 作者介绍

    康瑶,硕士,副教授,北京城市学院,主讲“数据库原理与应用”“数据仓库与数据挖掘”“NoSQL数据库”等课程。已发表论文7篇,第一作者6篇,第二作者1篇。主持2018教育部产学合作协同育人项目,“数据仓库原理与实践”课程建设;主持“数据仓库原理与实践”校级混合式教学课程建设项目、校级创新课程建设、校级混合式课程建设。在校任教期间获“校级线上教学优秀案例优秀奖”“校级高等教育教学成果奖二等奖”“混合式教学示范课程”“第一届北京城市学院教师教学创新大赛(讲师组)三等奖”“第六届校级青年教师教学基本功比赛优秀奖”“校级优质课‘面向对象程序设计’”等多项校级奖项。 董亮,副教授,北京高校邦数字科技有限公司,互联网企业大数据平台架构师,负责多个大型大数据平台建设,对于企业数据平台架构方案和解决方案,有丰富的工作经验及相关技术研究。技术领域为离线和实时场景下的数据治理、交互式查询、分布式计算、数据平台架构方案和解决方案。
  • 编辑推荐

    (1)本书以Hive+Spark+Flume+Kylin的数据仓库设计思路,系统讲解了数据仓库的原理及建模方法。
    (2)以案例及项目实战贯穿讲解,做到理论与实践相结合。
    (3)教材内容既系统全面地讲述了数据仓库的理论知识,又紧密结合了企业数据仓库的设计需要,可以令读者学以致用。
  • 书评书荐

  • 附件下载

图书推荐