欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

大数据基础

书      号:9787113314811

丛  书 名:

作      者:王燕,惠宝山

译      者:

开      本:16开

装      帧:10

正文语种:汉文

出  版 社:中国铁道出版社

定      价:56

  • 内容简介

    本书是“十四五”高等学校新工科计算机类专业系列教材之一,针对高等学校理工类专业大数据通识课程教学要求,以大数据处理流程为主线,介绍了大数据基础理论和实践应用,主要包括大数据概论、数据、数据采集与预处理、数据存储与计算、数据分析与应用、数据可视化、数据安全与保护等内容。 本书面向理工专业本科生,针对专业和需求设置不同层次的教学内容和上机操作,以启发式语言引导读者深入思考、积极实践,构建自己的知识体系,提升自主学习能力。 本书适合作为高等学校理工类专业大数据课程的教材,也适合对大数据感兴趣的人员参考。
  • 前言

    数据作为数字时代的新型生产要素,打破了传统生产要素的质态,是构成新质生产力的优质生产要素。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响,并能够催生新产业、新模式和新动能。大数据课程将大数据思维、理念、技术和实践传递给学生,激励学生与时俱进,成为数字化时代的引领型人才。
    本书是“十四五”高等学校新工科计算机类专业系列教材之一,针对高等学校理工类专业大数据通识课程教学需要编写。最大的特点是适用性,从读者的角度出发,突出“以读者为中心”。
    首先,针对读者不同需求对知识和技能进行分层,方便个性化选择学习内容。书中标注星号 * 章节为专业性较强、难度较大部分,感兴趣的读者可以自主深入扩展学习。
    其次,本书内容组织和安排非常适合读者自主探究。本书每一章都有学习目标、学习指导、扩展阅读、小结、思考与练习等,方便读者对照自查自测。本书遵循学生认知和学习规律,通过提出问题、引导思考、适度留白等引导读者自主构建知识体系。实践部分则提供详细清晰的操作步骤与详尽的程序注释,帮助读者真正掌握理论知识、提升实践能力。
    再次,本书可以多角度、多层次帮助读者理解与掌握相关理论和技术应用。以第3章的数据清洗中异常值处理为例,首先阐述基础理论,介绍3σ原则和箱形图法的基本概念和方法。
    接下来是实验操作,首先使用Excel展示异常值处理的操作步骤,然后使用 Python 编写程序实现异常值处理,这种差异化安排不仅加深理解,还可以让不同需求的读者都有收获与提高。
    最后,数字时代大数据技术发展突飞猛进,本书紧跟学科发展前沿,在相关章节介绍当前国内外科学研究的全新成果,丰富教学内容,开阔读者视野,提升格局。
    全书共分7章,系统介绍了大数据的原理、技术和应用等相关知识。
    第1章 大数据概论,简单介绍大数据的概念、特征、发展、关键技术、处理流程、应用案例、个人隐私与数据安全,最后阐述了与大数据密切相关的云计算、物联网和人工智能的概念及它们之间的关系。
    第2章 数据,主要介绍进制、不同数据类型在计算机中的存储方式、文件系统、关系型数据库、MySQL 数据库等。
    第3章 数据采集与预处理,主要介绍大数据的三种类型、数据采集方式、编写Python爬虫获取数据、数据清洗和数据脱敏的理念,最后分别使用Excel和Python实现数据预处理,如缺失值、重复值和异常值等。
    第4章 数据存储与计算,主要介绍 Hadoop 大数据处理架构,包括HDFS、MapReduce,大数据四种计算类型,即批量计算、流计算、图计算和查询分析计算,最后简单介绍了大数据生态系统。
    第5章 数据分析与应用,主要介绍数据挖掘,包括线性回归、关联规则中的Apriori算法、决策树等理论及Python编程实现,分类和聚类的简单原理,大数据应用主要介绍搜索引擎和推荐系统的原理及Python 简单编程实现。
    第6章 数据可视化,主要介绍数据可视化的理论基础,如色彩空间、图表类型和可视化工具简介。演示分别使用Excel和Python实现各种图形的绘制,重点是Python案例,使用Matplotlib、pyecharts和seaborn编程实现数据可视化,最后介绍了一个实时爬取全国主要城市 PM2.5数据并可视化的 Python 实现案例。
    第7章 数据安全与保护,主要介绍计算机病毒与数据加密保护技术。计算机病毒主要讲述Stuxnet震网病毒、挖矿木马病毒,重点介绍危害国家安全和社会稳定的APT(advanced persistent threat)。数据加密介绍加密算法DES和RSA等。隐私保护主要介绍身份认证、访问控制、数据脱敏、安全多方计算、差分隐私、联邦学习的简单原理。大数据安全与隐私保护主要介绍了硬件技术SGX、网络安全态势感知、可搜索加密和抗量子密码算法等当前热点技术。
    附录A 是大数据编程导引,主要介绍大数据编程学习路径、大数据生态组件总结,最后通过高校学生画像大数据平台和农业大数据预测平台两个案例展示大数据项目的开发流程。
    作为高等学校理工类专业大数据通识教育课程教材,本书内容可以安排32学时或者按照学校需求自行设置。32学时的教学安排可参阅本书配套资源中的教学日历,课程思政教学设计可参阅本书配套资源中的教学大纲,每一章节都有相关内容的详细说明。
    本书由王燕和惠宝山共同确定内容的选取和组织,由王燕具体执笔,最后由王燕和惠宝山定稿。
    本书配套参考资料包括PPT教案、教学大纲、教学日历、源代码、参考网址等技术资料,读者可登录中国铁道出版社教育资源数字化平台(https://www.tdpress.com/51eds)下载。
    本书的编写得到了中国石油大学(北京)人工智能学院的大力支持,感谢学校和学院提供平台和各种资源。特别感谢陈明教授提供这个机会。
    由于编著者水平有限,加上大数据技术发展的日新月异,书中难免会有不足之处,恳请 读者批评指正,期待大家对本书提出宝贵的意见和建议。
  • 目录

    第1章概论11.1大数据的概念.11.2大数据的特征.31.3大数据的发展.41.3.1理念发展.41.3.2技术发展.51.3.3大数据思维.61.4大数据核心技术.81.5大数据处理流程.91.5.1数据采集与预处理.91.5.2数据存储与计算.91.5.3数据分析与应用.91.6大数据应用案例.101.6.1推荐系统.101.6.2地图导航.101.6.3大数据杀熟.111.7个人隐私与数据安全.111.8大数据与云计算、物联网、人工智能121.8.1大数据与云计算.121.8.2大数据与物联网.141.8.3大数据与人工智能.16扩展阅读27小结30思考与练习30第2章数据312.1数据进制.312.1.1进制.322.1.2进制转换.332.2数据存储.352.2.1数值.352.2.2文本.352.2.3图像.37*2.2.4声音382.2.5视频.402.3数据管理.402.3.1数据管理的发展.
  • 作者介绍

    王燕,任职于中国石油大学(北京)信息学院,专业领域是计算机应用技术,主讲课程C程序设计、Python程序设计、C语言、大数据基础概论等课程,编写《离散数学》等教材,以第一作者发表论文十余篇,涉及大数据、程序设计等领域。,惠宝山,北大青鸟大数据学院院长,专业研究方向:数据分析、数据挖掘,主授课程:JavaEE框架:Mybatis、Spring、SpringMVC、微服务、分布式开发、数据分析等,研究成果:在北大青鸟教育机构授课比武中获得“青鸟之星”的优秀称号。国家核心期刊发表论文:《基于语义的构件描述和检索的研究》。带领学生参加全国北大青鸟软件开发项目大赛二等奖。
  • 编辑推荐

    ①编者在编写教材时,从学生的角度出发,突出体现“以学生为中心”,针对不同专业、不同需求对知识和技能进行分层,实现因材施教和差异教育,让不同层次的学生都有收获与提高。
    ②本书按照由浅入深、循序渐进的原则选择知识点,教材结构和内容组织遵循学生认知和学习规律。通过不断提出问题,并适度留白,引导同学思考,帮助同学自主构建知识体系。
    ③教材充分利用文字、图表、动画等手段帮助同学更快速的掌握相关内容,通过难点解析和案例讲解等视频帮助同学提高学习效率。
    ④知识点内容深入浅出的论述,方便同学把握基础理论和概念;实验案例详尽的步骤说明与程序注释,帮助同学加深理解,巩固所学。
    ⑤通过高校学生画像大数据平台和农业大数据预测平台两个案例展示大数据项目的开发流程。
    ⑥配套资源包括PPT教案、教学大纲、教学日历、源代码等。
  • 书评书荐

  • 附件下载

图书推荐