欢迎来到中国铁道出版社有限公司官网!
$itImage.title$

面向分类的集成学习算法——基础理论与分析

书      号:9787113298616

丛  书 名:

作      者:孙光灵,李艳秋

译      者:

开      本:16开

装      帧:平装

正文语种:

出  版 社:中国铁道出版社有限公司

定      价:33

  • 内容简介

    孙光灵李艳秋著内容简介作为一类先进的机器学习方法,多分类器集成技术将多个单体学习器按照一定的规则集成起来,充分利用个体学习器之间的互补性,以取得更好的泛化能力和健壮性。全书分为三部分,第一部分主要介绍集成学习的相关背景,即关于分类器的相关基础理论。第二部分主要介绍集成学习方法的核心知识,诸如多分类器集成的框架、集成规则和性能评估等理论;Boosting、Bagging、Stacking和随机森林(RandomForests)等经典算法;除此之外,还介绍典型的动态集成方法以及集成聚类算法相关基本概念。第三部分介绍集成学习方法的扩展议题,给出集成学习在半监督学习、主动学习和类别不平衡学习等领域的应用。本书的主要受众是具有一定机器学习和模式识别基础知识的读者,也供机器学习和模式识别爱好者阅读参考。
  • 前言

    随着海量数据的广泛产生和应用,数据挖掘技术应运而生。作为数据挖掘领域中的基本问题之一,分类技术引起了广大学者的极大关注。目前存在着很多分类技术,如决策树、支持向量机等。为了达到比较好的预测效果,传统的分类操作,常常通过训练集产生多个分类模型,再用测试集对其分类性能进行逐个测试,把性能最好的一个作为最终的分类模型。但人们在研究过程中发现,单个分类器的性能有限,很难通过改进单个分类器达到实际所要求的效果。对多个单分类器进行有效的组合,既可以提高分类的性能,又可以保证预测结果的稳定性,其性能甚至超过了多个单分类器当中最好的一个,因此人们对分类集成学习的研究越来越重视。同时,由于对单个分类器的分类性能要求不高,也促成了人们对分类集成学习进行大量研究,此时单分类器的性能仅要求达到或高于随机猜测的效果即可。分类集成学习技术主要包括两个方面:一个方面是单个分类器的生成方式,在分类集成学习中,把这种单分类器称为基分类器或基学习器;另一个方面是基分类器的组合方式。基分类器的生成方式主要是产生有差异性的基分类器,而基分类器的组合方式是解决如何有效地融合生成的基分类器,使之产生最好的分类性能。目前对分类集成学习的研究已经有一些成果,但还存在很多没有确定的问题:首先是集成过程中的基分类器数目选择问题,选择多少个基分类器用于集成才能取得最好的分类性能尚无定论;其次是基分类器之间差异性与准确率之间的关系,因为差异性和准确性存在着负相关关系,因此二者不可兼顾,虽然集成学习中对基分类器的准确性要求不高,但如果一味地去追求差异性必然导致准确性的急速下降,达不到集成学习要求的准确性;再次是基分类器类型的选择问题,运用同样的基分类器组合方法,但如果基分类器的类型不同,最终产生的分类性能会大不相同。诸如此类的问题还需要进一步进行研究。因此,自从20世纪90年代以来,集成学习方法就成为一个热门的研究课题,吸引了来自机器学习、模式识别、数据挖掘、神经网络和统计等领域的众多研究人员。本书面向研究人员、学生和实践者介绍集成学习方法。全书共7章,分为三部分。第一部由第1章构成,主要介绍分类器理论基础。本书的主要受众是具有一定机器学习和模式识别基础知识的读者,但是为使不了解相关内容的读者也能尽量读懂本书的主要内容,著者从数据挖掘理论开始介绍,然后在本章中简要概述分类器理论的基础知识。第二部分由第2章到第6章构成,介绍集成学习方法的核心知识。第2章系统介绍了多分类器集成技术相关基础理论,多分类器集成的框架、集成规则和多分类器性能评估等。第3章介绍了Boosting算法和Bagging算法,由于经典的Boosting是针对二分类问题设计的,且对噪声比较敏感,因此本章除介绍Boosting的相关算法和理论外,还介绍了其多类扩展。此外还介绍了Stacking算法、随机森林(Random Forests)和其他的随机决策树集成方法,这类方法都可以看成Bagging的变种。第4章介绍了多分类器动态集成结合算法,除基于KNN准则的动态集成方法外,还有基于聚类准则和不同数据集的动态集成方法,最后给出这三种不同集成方法的算法分析。第5章专门介绍了基于分类器选择的集成学习算法。主要介绍了“选择性集成”的提出、理论基础、典型算法及其应用,然后分析了选择性集成目前存在的不足和发展方向。第6章主要对聚类集成算法基本概念进行阐述。聚类集成由两个阶段组成:第一个阶段是生成具有差异的基聚类集合,当基聚类成员之间具有多样性时,后期才能较为全面地从各个方面揭示数据样本之间的信息;第二个阶段是使用组合策略,组合策略的设计对聚类集成的结果的准确性也有着比较重要的影响。最后对一些经典的聚类集成算法进行介绍,所述算法经常用于算法对比。第三部分由第7章构成。本章属于集成学习的扩展议题,包括半监督学习、主动学习、类别不平衡学习,以及提升可解释性方面的一些研究进展。尽管集成学习方法近些年取得了不少进展,研究方法越来越深入,但业界对一些核心要素还缺乏深入理解,对相关技术的实验研究也并不充分。因此,本书的某些章节仅对部分算法做简要介绍。本书没有大家的帮助难以成稿。在此,笔者衷心感谢通读此书并给出有建设性意见的专家和同事。笔者指导的2022级研究生靳艳飞、缪飞、朱玉敏、周云龙、孟甜甜做了图表绘制工作,2021级研究生彭欣仪、吴倩、黄磊、卢慧敏、曹亿亿对资料进行了收集。没有他们辛勤的劳动,本书出版至少会推迟。本书撰写过程当中,参考了周志华教授的著述《机器学习理论导引》和《集成学习基础与算法》,董荣胜教授的《计算机科学导论——思想与方法》。本书顺利出版也离不开中国铁道出版社有限公司编辑的大力支持,合肥工业大学胡学钢教授对本书的稿件进行了审阅,在此一并表示感谢。本书受中央高校基本科研业务费专项资金(编号:PA2021GDSK0093),合肥工业大学“智能互联系统安徽省实验室”开放基金(编号:PA2021AKSK0107),安徽省高校协同创新项目(编号:GXXT2021024)资助。由于著者水平有限,撰写时间较为仓促,难免会有疏漏和不足之处,敬请广大专家、读者批评指正。著者2022年7月
  • 目录

    11数据挖掘12学习任务的种类13分类的概念14基于统计的分类技术15基于决策树的分类方法16基于神经网络的方法17分类器性能评估第2章多分类器集成技术概述21集成学习的基本概念22集成学习的作用23多分类器集成有效性的原因24多分类器集成框架25基分类器的集成规则26多分类器性能评估第3章多分类器集成技术31Boosting算法32Bagging算法33两种经典集成方法中样本加权分析34Stacking算法35随机子空间方法36随机森林集成第4章多分类器动态集成算法41多分类器动态集成框架42基于KNN准则的动态集成43基于聚类准则的动态集成44基于不同数据集的动态集成45多分类器动态集成算法分析第5章基于分类器选择的集成学习算法51选择集成的提出52选择性集成的理论基础53选择性集成算法GASEN54选择性集成的不足和发展方向55集成剪枝第6章聚类集成61聚类62聚类集成63经典聚类集成算法介绍第
  • 作者介绍

    孙光灵,男,安徽淮南市人,工学硕士学位,安徽建筑大学副教授。现为中国计算机学会会员,安徽省人工智能学会会员,中国计算机教育MOOC联盟安徽工委秘书长,信息技术新工科安徽工委秘书长,安徽省高等学校计算机教育研究会副秘书长。主要研究方向为人工智能、图像处理等。发表学术论文20余篇,已获授权实用新型专利、外观设计专利4项,编写教材3部,主讲计算机课程8门。 李艳秋,女,安徽淮北人,1988年出生,2018年获合肥工业大学计算机应用技术专业工学博士学位,现为安徽建筑大学电子与信息工程学院讲师,近年来一直从事模式识别、机器视觉和机器学习等方向的研究工作。
  • 编辑推荐

    尽管集成学习方法近些年取得了不少进展,研究方法越来越深入,但业界对一些核心要素还缺乏深入理解,对相关技术的实验研究也并不充分。因此,本书的某些章节仅对部分算法做简要介绍。
  • 书评书荐

  • 附件下载

图书推荐