欢迎来到中国铁道出版社有限公司官网!
$itImage.title$
$itImage.title$
$itImage.title$
$itImage.title$

Hadoop大数据分析

书      号:9787113259198

丛  书 名:高等学校大数据技术与应用规划教材

作      者:高永彬,钱亮宏,方志军

译      者:

开      本:16开

装      帧:平装

正文语种:中文

出  版 社:中国铁道出版社有限公司

定      价:38

  • 内容简介

    本书适合作为高等学校计算机、通信与网络工程等本科专业的教材,也可作为相关学科专业硕士研究生、信息网络规划设计人员、网络运行管理维护人员和网络管理技术科研人员的参考用书。
  • 前言

    目前网络管理的优秀教材不少,但是大多数理论性太强,作为高等学校本科生的教材,学生学起来觉得很难、很枯燥,总是觉得与实际应用偏离太远。本书编写的目的在于帮助学生或网络管理员,掌握网络管理的概念、模型和方法,将抽象的理论和实际应用紧密结合起来,全方位地解决网络建设与管理中的各种实际问题,包括配置管理与监控,网络故障诊断分析、定位、排除与预防,网络安全设计与管理、网络性能监视,网管工具选择、使用与技巧等方面;囊括了网络管理中的主要内容,其目的在于将网络管理理论与实际应用相结合,提高读者学习网络管理课程的兴趣,提高读者分析和解决具体问题的能力,将所学变为所用,将抽象的理论知识变为操作技能。
  • 目录

    第1部分 Hadoop核心基础
    第1章 Hadoop简介 2
    1.1 Hadoop产生背景 2
    1.2 Hadoop简要历史 3
    1.3 Hadoop生态系统组件 3
    1.4 Hadoop版本和商用支持 5
    1.5 Hadoop的基础环境配置 6
    1.6 Hadoop的安装 7
    1.7 Hadoop的配置 11
    1.8 Hadoop的运行 14
    小结 19
    习题 19
    第2章 HDFS文件系统 20
    2.1 HDFS简介 20
    2.2 HDFS架构 20
    2.3 HDFS文件块 21
    2.4 HDFS常用操作 22
    小结 24
    习题 24
    第3章 YARN资源管理 25
    3.1 YARN架构 25
    3.2 YARN调度策略 26
    3.3 YARN常用操作 28
    小结 30
    习题 31
    第4章 MapReduce计算框架 32
    4.1 MapReduce原理 32
    4.2 MapReduce作业数据流 33
    4.3 Hadoop流处理 35
    4.4 MapReduce程序实现词频
    统计 35
    4.5 MapReduce程序的Reducer
    数量 40
    4.6 MapReduce程序的Combiner 41
    4.7 MapReduce程序实现数据
    连接 43
    小结 49
    习题 49
    第2部分 Hive数据仓库
    第5章 Hive简介 52
    5.1 Hive概述 52
    5.2 Hive的安装 53
    5.3 Hive的运行 56
    小结 59
    习题 59
    第6章 Hive数据定义 60
    6.1 数据库操作 60
    6.2 数据表基本操作 62
    6.3 存储格式和行格式 65
    6.4 数据类型 67
    6.5 外部表 70
    6.6 分区表 72
    小结 74
    习题 74

    第7章 Hive数据操作 75
    7.1 数据导入 75
    7.2 数据插入 78
    7.3 数据导出 82
    小结 84
    习题 84
    第8章 Hive数据查询 85
    8.1 基本查询 85
    8.2 数据聚合 87
    8.3 数据连接 90
    小结 92
    习题 93
    第3部分 Spark数据分析
    第9章 Spark简介 96
    9.1 Spark概述 96
    9.2 Spark原理 97
    9.3 Spark的安装 98
    9.4 Spark运行方式 99
    9.5 Spark运行位置 101
    9.6 Spark运行参数 104
    小结 104
    习题 104
    第10章 Spark大数据处理 105
    10.1 数据框的创建 105
    10.2 数据框的选择 107
    10.3 数据框的运算和聚合 110
    10.4 数据框的增加、删除
    和修改 114
    10.5 数据框的连接 116
    10.6 数据框的变形 119
    小结 120
    习题 120
    第11章 Spark机器学习流程 121
    11.1 数据探索 122
    11.2 数据划分 123
    11.3 数据填充 124
    11.4 类别变量处理 125
    11.5 特征选择 128
    11.6 建模与调优 131
    11.7 测试与评估 133
    小结 135
    习题 135
    第12章 Spark有监督学习模型 136
    12.1 线性回归模型 140
    12.2 逻辑回归模型 142
    12.3 决策树模型 145
    12.4 随机森林模型 152
    12.5 神经网络 158
    12.6 协同过滤 163
    小结 166
    习题 166
    第13章 Spark无监督学习模型 167
    13.1 k均值聚类模型 168
    13.2 主成分分析模型 172
    13.3 关联分析模型 173
    小结 176
    习题 176
  • 作者介绍

    高永彬:博士、讲师,就职于上海工程技术大学,博士毕业于韩国全北国立大学,在模式识别、机器学习领域积累了大量的研究与实战经验。特别地,在基于深度学习技术的人脸识别以及车型检测技术进行了深入地研究,发表了近30篇期刊/会议论文,取得了丰厚的研究成果,发表在包括Information Sciences, Pattern Recognition Letters等高水平期刊中,其中SCI收录5篇,EI收录4篇。钱亮宏,男,毕业于上海交通大学电子信息与电气工程学院,1989年8月出生,拥有10年R语言使用经验,一直奋战在数据分析与挖掘领域的第一线,作为金融和互联网行业资深数据挖掘专家。方志军,男,教授,现任上海工程技术大学电子电气工程学院院长,1971年9月出生,主要从事人工智能、机器视觉、大数据分析等方面的研究,主讲课程包括数字图像处理、机器视觉、计算机导论、大数据导论和程序设计等。
  • 编辑推荐

    教材从Hadoop的基本理论,基础教程、高级工具以及进阶教程来对相关理论的理论与技术进行深入分析与讲解。并提供大量的案例从零开始教会读者如何使用Hadoop进行开发以及应用。
  • 书评书荐

  • 附件下载

图书推荐