数据预处理技术
书 号:9787113326098
丛 书 名:“十五五”高等职业教育新形态一体化系列教材
作 者:景妮琴,胡亦
译 者:
开 本:大16开
装 帧:平装
正文语种:汉文
出 版 社:中国铁道出版社
定 价:59.8元
-
内容简介
本书是“‘十五五’高等职业教育新形态一体化系列教材”之一,从机器学习算法流程入手,讲述了数据特征的重要性,让读者了解数据预处理是数据分析中必要的环节,经过数据预处理后的数据质量直接决定模型的成败。 本书系统讲述了数据预处理的方法,从Python的文件读取、statistics模块数据处理,到通过NumPy、Pandas进行数据获取、处理、清洗,再到特征构建、特征选择、特征降维、特征学习,最后完成一个综合项目的数据处理及分析,由浅入深,让读者熟悉数据处理和特征工程的方法。 本书适合作为高等职业院校、职业技术大学大数据技术专业的教材,还可作为大数据技术开发人员、数据分析初学者、算法工程师的学习和培训用书。 -
前言
在大数据与人工智能蓬勃发展的今天,数据已成为驱动现代社会的“新石油”。然而,未经加工的原始数据往往如同深埋地下的矿石,需要通过系统的挖掘与提炼才能释放其真正的价值。数据预处理正是这一价值转化过程中至关重要的第一步——它既是科学,也是艺术;既需要严谨的技术能力,也需要深刻的领域洞察。本书的诞生,正是为了帮助读者掌握这一关键环节的核心方法与思维模式。
数据预处理常常被认为是数据分析中的必要环节,无数实践案例证明,数据质量直接决定模型成败。本书以项目任务为主导,以典型业务场景切入,由浅入深、循序渐进地讲述数据预处理的方法。通过Python模块进行数据的获取、统计分析;使用NumPy进行数据获取、存储及数据的应用;通过Pandas方法进行数据获取、数据筛选、数据清洗;通过sklearn进行特征构建、特征选择、特征降维;通过特征学习算法进行数据处理。全书共10个项目:项目1初识数据处理与特征工程像一张“地图”,让读者先看清数据与特征工程的全貌,
理解数据处理在机器学习算法流程中的地位,搭建本书的开发环境。项目2鸢尾花数据的描述性统计分析,通过Python的statistics模块进行数据集统计分析,
用经典的鸢尾花数据教会读者描述性统计,促进读者掌握CSV格式文件的读写,以及Python列表、元组、字典数据结构。项目3使用NumPy进行数据处理,通过NumPy完成了表格数据处理和图像数据处理,比Python数据处理的效率更高。本项目通过NumPy数组的创建、存载、索引、切片、变形及计算方法,完成图像手绘效果。项目4使用Pandas进行数据处理,通过Pandas进行数据获取与筛选、数据合并、数据排序等处理,并把处理后的数据运用到机器学习算法预测及数据分析与可视化中。项目5泰坦尼克数据集数据清洗,通过Pandas解决了数据的缺失值、异常值、重复值问题。项目6改善数据的表示:特征变换,通过不同方式进行数据的数值化、二值化、独热编码方法,数据变换、离散化、标准化方法,以及文本数据的特征构建,在数据处理的方向上又进了一步。项目7鸢尾花数据特征选择,用过滤、包裹、嵌入“三板斧”做特征选择,让读者体验维度精简带来的清爽模型。项目8樱花耐寒指标数据集降维,用PCA、LDA将高维数据进行降维处理。项目9使用特征学习算法进行数据处理,把“特征学习”推上前台,通过图像特征匹配、手写数字识别、词语相似度计算任务告诉世界:原来特征也可以自己“长”出来。项目10贴吧评论数据的情感分析,在真实中文语料上构建文本清洗→特征工程→模型上线的完整闭环。
本书配套高清视频课程,读者可扫描书中二维码观看相应的高清视频。本书还提供完整的项目案例代码及数据,读者可登录中国铁道出版社教育资源数字化平台https://www.
tdpress.com/51eds下载。
基金资助:北京市教育科学“十四五”规划2024年职教体系改革专项课题“职业教育重点领域专业课程改革的研究”(课题编号:AHDA24076,主持人:景妮琴)。
本书由北京科技职业大学景妮琴、胡亦任主编,李景玉、詹晓东、于京、韩伟任副主编,北京久其软件股份有限公司的董海峰参编。具体编写分工如下:项目1、3、4、7由景妮琴编写,项目2、5由胡亦编写,项目6由景妮琴和韩伟编写,项目8由胡亦、于京编写,项目9由李景玉编写,项目10由詹晓东编写,董海峰参与了项目代码的验证工作。
由于编者的水平有限,书中疏漏之处在所难免,欢迎广大读者批评指正。
编 者
2025年10月 -
目录
项目1初识数据处理与特征工程..1任务1.1鸢尾花数据分类21.1.1任务描述.21.1.2知识准备.3一、数据科学专业术语3二、结构化数据与非结构化数据.3三、定量数据与定性数据5四、数据的四个尺度51.1.3任务实施7一、鸢尾花数据类别7二、豆瓣Top250影评数据类别7任务1.2理解数据处理与特征工程的核心概念81.2.1任务描述.81.2.2知识准备.8一、数据科学的三个领域.8二、机器学习91.2.3任务实施..10一、数据处理与特征工程..10二、特征工程评估..11任务1.3开发环境搭建111.3.1任务描述..111.3.2知识准备..11一、安装Python11二、安装集成开发环境131.3.3任务实施..15一、运行JupyterNotebook.15二、定义自己的工作目录..15三、新建Notebook..16四、导出Notebook..17五 -
作者介绍
景妮琴,女,硕士北京电子科技职业学院,副教授,北京市青年骨干教师;研究方向为嵌入式应用技术、机器学习、深度学习算法。曾荣获北京市信息化教学大赛二等奖、荣获北京市教学能力比赛二等奖。指导学生参加全国创新创业大赛荣获一等奖,指导学生参加全国大学生电子设计大赛荣获二等奖。胡亦,北京电子科技职业学院,副教授,北京市职业院校青年骨干教师;研究方向为图像处理、深度学习算法。曾荣获北京市信息化教学大赛二等奖、荣获北京市教学能力比赛二等奖。指导学生参加全国创新创业大赛荣获一等奖,指导学生参加全国职业院校技能大赛获一等奖。 -
编辑推荐
本书配有丰富的立体化资源 -
书评书荐
-
附件下载
图书推荐



