大数据导论
书 号:9787113263133
丛 书 名:全国高等院校新工科数据科学与大数据系列规划教材
作 者:甘勇 陶红伟
译 者:
开 本:16开
装 帧:平装
正文语种:中文
出 版 社:中国铁道出版社有限公司
定 价:43元
-
内容简介
随着大数据时代的到来,涌现出多元化海量数据。大数据背后隐藏着大量的经济利益,尤其是 通过数据整合、分析与挖掘,其所表现出的数据整合与控制力量已经远超以往。本书详细介绍了数据 科学与大数据技术的详细内容。共分为9章,主要内容包括:大数据与数据科学、数据采集与数据预 处理、数据存储、大数据处理平台、数据分析、数据可视化、数据安全与隐私、大数据应用、数据 思维。
本书适合作为数据科学与大数据专业及其相关专业本科生教材,也可供从事相关专业的教学、科 研和工程技术人员参考。 -
前言
全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能 力正成为趋势,国内外政府相继制定实施大数据战略性文件,大力推动大数据发展和 应用。与之相关的职业需求也呈爆发式增长,根据 IDC(国际数据公司)和 Gartner(高 德纳咨询公司)等发布的相关报告显示,目前全球云计算、大数据市场规模已超过 3 000 亿美元,而未来潜在市场价值将达到万亿美元规模,大数据与云计算专业将为全 球带来 440 万个 IT 新岗位和上千万个非 IT 岗位。2019 年,我国互联网、移动互联网 用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研 发取得突破,涌现出一批互联网创新企业和创新应用,2015 年 11 月 3 日发布的《中 共中央关于制定国民经济和社会发展第十三个五年规划的建议》明确提出实施国家大 数据战略。椐预测,2019 年我国大数据产业规模为 7 000 亿元,2020 年将突破万亿元。
大数据成为了继互联网蓬勃发展以来的又一轮 IT 工业革命,被人们寄予厚望。大 数据技术包括数据的采集、存储、处理、分析和可视化,本书对上述内容做了详细介绍。 数据采集部分主要介绍了网络数据采集技术和日志数据采集技术,同时讨论了数据清 洗、数据集成、数据变换和数据规约等数据预处理技术;数据存储部分主要介绍了大 数据分析中所用到的主流分布式文件存储系统,包括 HBase 分布式数据库、MongoDB 分布式数据库和 Hive 分布式数据仓库,数据处理部分讨论了数据处理平台的架构设 计,并分别着重介绍了批处理、流处理和混合处理 3 种流行的大数据计算框架以及它们所对应的典型系统:Hadoop、Storm、Spark;大数据分析部分重点讨论了常用的统 计数据分析方法,包括描述统计、相关分析、回归分析和主成分分析,同时主要介绍 了几种经典的数据挖掘算法,包括 ID3 算法、C4.5 算法、CART 算法、K-Means 算法、 Apriori 算法和神经网络的常用训练算法;数据可视化部分主要介绍了文本可视化、网 络可视化、时空数据可视化及多维数据可视化等常用可视化方法及相关工具。与此同 时,针对大数据隐私与安全,介绍了数据安全、数据隐私、数据信息共享与隐私信息 融合以及云环境下的大数据安全与隐私保护。针对大数据应用,相继讨论了大数据在 互联网商业中的应用,包括用户画像、大数据精准营销和互联网金融;大数据在行业 中的应用,包括教育行业、电力行业、医疗行业和军事领域;大数据在人工智能方面 的应用,包括语音识别和机器翻译、共享经济和智慧城市。zui后,在大数据思维部分, 讨论了大数据时代面临的挑战,探讨了大数据时代的思维变革、大数据激发的创造力, 并对数据科学进行了展望。
本书的编写得到了河南省高等学校计算机教育研究会,中国铁道出版社有限公司 领导和编辑的大力支持。中国科学院计算技术研究所张广军研究员、郑州轻工业大学 的吴怀广博士和张伟伟博士对本书的编写提出了许多宝贵的意见和建议,本书的编写 得到了郑州轻工业大学、郑州工程技术学院等院校的大力支持,在此一并表示衷心的 感谢。
本书由甘勇和陶红伟确定内容的选取和组织,由史雯隽、尚松涛、陈浩然、陶红伟、 刘家磊和马江涛具体执笔。史文隽编写第 1 章,尚松涛编写第 2、3 章,陈浩然编写第 4 章, 陶红伟编写第 5 章,刘家磊编写第 6、7 章,马江涛编写第 8、9 章,zui后由甘勇和陶 红伟定稿。
本书作者力图将数据科学与大数据的原理、技术及其应用介绍清楚,但由于时间、 精力、知识结构有限,书中难免有疏漏之处,恳请读者批评指正。
编 者 2019 年 6 月 -
目录
第1章 大数据与数据科学 / 1
1.1 大数据概述 / 1
1.1.1 大数据的概念 / 2
1.1.2 大数据的特征 / 2
1.1.3 大数据的结构类型 / 3
1.2 大数据的发展 / 4
1.3 大数据处理的挑战 / 5
1.4 数据科学的概念 / 6
1.5 数据科学的由来 / 7
1.6 数据科学的应用场景 / 9
1.6.1 行业数据 / 9
1.6.2 数据服务 / 10
小结 / 11
习题 / 11
第2章 数据采集与数据预处理 / 12
2.1 数据采集和数据预处理概述 / 12
2.1.1 数据采集概述 / 12
2.1.2 数据预处理概述 / 13
2.2 数据采集技术 / 15
2.2.1 网络数据采集技术 / 15
2.2.2 日志数据采集技术 / 23
2.3 数据预处理技术 / 28
2.3.1 数据清洗 / 28
2.3.2 数据集成 / 30
2.3.3 数据变换 / 30
2.3.4 数据规约 / 32
小结 / 33
习题 / 33
第3章 数据存储 / 34
3.1 数据存储概述 34
3.1.1 数据存储的发展历程 / 34
3.1.2 数据存储模型 / 36
3.2 大数据存储 / 36
3.2.1 海量数据存储关键技术 / 37
3.2.2 分布式文件系统 / 37
3.3 分布式数据库 / 41
3.3.1 HBase 分布式数据库 / 42
3.3.2 MongoDB 分布式 数据库 / 45
3.3.3 Hive 分布式数据 仓库 / 47
小结 / 49
习题 / 49
第4章 大数据处理平台 / 50
4.1 概述 / 50
4.2 大数据的处理平台架构 / 51
4.2.1 技术架构 / 51
4.2.2 开源平台 / 52
4.3 大数据的批量处理 / 54
4.3.1 批量计算的概念 / 54
4.3.2 批量计算的软件系统 / 55
4.4 大数据的流式计算 / 63
4.4.1 流式计算的概念 / 63
4.4.2 流式计算的软件系统 / 64
4.5 大数据的混合处理计算 / 68
4.5.1 混合处理计算的概念 / 68
4.5.2 混合处理计算的软件系统 / 69
小结 / 78
习题 / 79
第5章 数据分析 / 80
5.1 数据分析概述 / 80
5.1.1 数据分析的概念和作用 / 80
5.1.2 数据分析的类型 / 81
5.1.3 数据分析的流程 / 81
5.2 统计数据分析方法 / 83
5.2.1 描述统计 / 83
5.2.2 相关分析 / 84
5.2.3 回归分析 / 88
5.2.4 主成分分析 / 92
5.3 数据挖掘算法 / 96
5.3.1 决策树 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神经网络 / 111
5.4 数据分析工具 / 113
小结 / 114
习题 / 114
第6章 数据可视化 / 117
6.1 数据可视化概述 / 117
6.1.1 数据可视化的基本特征 / 119
6.1.2 数据可视化的作用 / 120
6.1.3 数据可视化的流程 / 123
6.2 数据可视化方法 / 126
6.2.1 文本可视化 / 126
6.2.2 网络可视化 / 129
6.2.3 时空数据可视化 / 131
6.2.4 多维数据可视化 / 134
6.3 数据可视化软件与工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小结 / 141
习题 / 142
第7章 数据安全与隐私 / 143
7.1 大数据安全概述 / 143
7.1.1 大数据安全体系结构 / 148
7.1.2 大数据安全 / 150
7.2 数据安全协议 / 157
7.3 数据隐私 / 159
7.4 数据信息共享与隐私信息融合 / 160
7.5 云环境下的大数据安全与隐私保护 / 163
小结 / 165
习题 / 165
第8章 大数据应用 / 166
8.1 互联网商业应用 / 166
8.1.1 用户画像 / 166
8.1.2 大数据精准营销 / 169
8.1.3 互联网金融 / 171
8.2 行业大数据 / 173
8.2.1 教育大数据 / 173
8.2.2 电力大数据 / 174
8.2.3 医疗大数据 / 177
8.3 人工智能应用 / 179
8.3.1 语音识别和机器翻译 / 179
8.3.2 共享经济 / 180
8.3.3 智慧城市 / 183
小结 / 187
习题 / 188
第9章 数据思维 / 189
9.1 大数据时代的挑战 / 189
9.2 大数据时代的思维变革 / 194
9.2.1 第四范式 / 194
9.2.2 数据的混杂性 / 195
9.2.3 样本与总体 / 196
9.2.4 数据的相关关系与因果关系 / 197
9.2.5 大数据与幸存者偏差 / 198
9.3 大数据激发创造力 / 199
9.3.1 大数据预测电影票房 / 199
9.3.2 利用大数据治理纽约 / 200
9.3.3 大数据助力总统竞选 / 202
9.4 数据科学展望 / 204
9.4.1 开放数据运动 / 204
9.4.2 数据科学家所需的专业技能 / 206
9.4.3 数据科学的发展前景 / 208
小结 210
习题 210
参考文献 / 211
-
作者介绍
甘勇:教授、郑州工程技术学院副校长,长期工作在教学科研一线,主持的大学计算机和程序设计基础课程被评为河南省精品课程、河南省精品资源共享课,担任教育部计算机课程教学指导委员会委员、河南省计算机类专业和网络空间安全专业教学指导委员会副主任,兼任中国计算机学会理事、河南省计算机学会副理事长、河南省计算机教育研究会副理事长。荣获过国家级优秀教学成果二等奖、2项河南省优秀教学成果特等奖、3项河南省优秀教学成果二等奖。陶红伟:郑州轻工业大学计算机与通信工程学院副教授、博士,主要研究方向包括大数据分析、软件可信度量与评估、信息安全。主持省部级以及横向项目5项,作为主要成员参与国家863重点项目子课题、国家自然科学基金重大研究计划集成项目子课题、国家863项目和国家自然科学基金项目等。 -
编辑推荐
引导性:引领读者进入大数据领域的基础性读物
前瞻性:介绍大数据新技术及其行业应用
经典性:关注大数据技术经典算法 -
书评书荐
-
附件下载
图书推荐