计算机视觉实战——语义分割与目标检测
书 号:9787113312220
丛 书 名:
作 者:贾壮
译 者:
开 本:16开
装 帧:平装
正文语种:汉文
出 版 社:中国铁道出版社有限公司
定 价:79.8元
-
内容简介
本书主要介绍了计算机视觉中的语义分割和目标检测的相关技术,重点讲解了任务设定和度量指标、基于深度学习的经典模型和算法方案,包括U-net相关模型、DeepLab系列模型、SAM模型,以及FasterR-CNN模型、YOLO系列模型等。另外,对于分割和检测任务中的小样本、弱监督、小目标等特殊设定下的算法思路和方案也通过典型模型进行了讲解。同时,书中还提供了多个简单易上手的语义分割与目标检测的实战项目。 -
前言
随着人工智能技术的发展,计算机视觉技术逐渐发展成为工业生产和日常生活中不可或缺的组成部分,被广泛应用于各种领域,比如自动驾驶、医学图像分析、人脸识别、工业机器视觉等,为众多不同的场景提供了基础能力的支撑。计算机视觉技术的最终目的是训练计算机使用一定的算法达到像人一样通过视觉理解和解释世界,从而辅助人类完成一些较大工作量或者含有较复杂先验知识的工作。从技术类型角度上来说,多数实际场景中的计算机视觉任务通常可以被还原为图像分类、语义分割和目标检测等基础任务。本书主要集中讨论语义分割和目标检测的基础理论和经典方案,并辅助以相关的实战任务帮助读者加深理解。
语义分割的目的是对图像或者视频进行像素级别的分类,即将目标类别所在图像中的范围精细地描绘出来。比如,对于街景图像,可以将其中的每个像素分类为“树木”“行人”“汽车”“建筑物”等类别。目标检测则在于将图像或者视频中的目标类别检出并定位,通常是用一个矩形框将目标类别的物体在图中的范围框选出来。语义分割和目标检测在许多领域都有应用。比如在自动驾驶系统中分割和识别信号灯与交通标志,以及周围的行人、车辆,从而帮助汽车感知周围环境;在医学图像分析中,语义分割和目标检测可以帮助医生识别医学影像中的肿瘤或者病变,从而辅助医生做出诊断和制定治疗方案。本书兼顾理论讲解与实战优化指导,主要包括以下内容:
第 1 章主要对深度学习与计算机视觉的概念和发展进行简要介绍,并对后续学习所必须掌握的代码和数学基础进行了简要梳理。
第2章详细讲解了神经网络模型的基本原理(包括优化方法、正则化方法等),以及常见神经网络结构的基本组件的原理和实现(比如卷积操作、注意力操作等)。最后对于网络整体训练和推理流程进行了介绍。
第3、4章主要讲解了语义分割算法的原理、模型方案及相关的实战项目。在第3章中,首先对语义分割的目标和度量指标进行介绍说明,然后分别讲解了语义分割领域的经典模型的核心思路与实现方式,并对各重点模型结构进行代码实现以辅助理解其实现细节。最后,针对语义分割中的小样本分割、弱监督分割和交互式分割的基本设定和典型解决方案进行了介绍。在第4章中,通过宠物分割、视网膜血管分割和基于 SAM 的分割实战项目,展示了实现一个分割任务的整体流程及可能的改进,从而帮助读者提高将相关原理应用到实际中的能力。
第5、6章主要讲解了常见的目标检测算法及相关实战项目。第5章主要是理论部分,对于目标检测任务中经典的一阶段模型、两阶段模型及无锚框检测模型进行了详细介绍。并对小目标检测和旋转目标检测的问题点和典型解决方案进行讲解。第 6 章通过口罩人脸检测、交通工具检测和手势检测识别等示例项目,介绍了目标检测任务的整体流程和相关开源代码库的使用方法。
本书适合有一定编程基础的人工智能领域从业人员学习计算机视觉之用,也可作为高校或培训机构人工智能及其相关专业的教材。
感谢编辑老师对稿件的整体定位以及文字审校等方面给出的大量专业的建议和帮助。另外,书中的各种算法参考了相关领域研究者的论文,已于参考文献中列出,如希望进一步了解相关内容的读者可以自行查阅文献,在此也对各位研究者的出色工作谨致谢意。
贾 壮
2024年5月 -
目录
第1章深度学习与计算机视觉基础知识1.1深度学习与人工智能11.1.1人工智能历史回顾11.1.2深度学习原理及其应用简介31.2计算机视觉及其应用场景简介41.3开始之前的准备工作51.3.1代码工具准备51.3.2相关数学工具准备21第2章神经网络模型:原理、模型与流程2.1神经网络模型的基本原理332.1.1神经元与人工神经网络332.1.2梯度下降与反向传播算法(BP算法)412.1.3神经网络的正则化策略442.2卷积神经网络与注意力机制492.2.1卷积神经网络模块与结构492.2.2注意力机制与VisionTransformer562.3神经网络模型训练和推理的一般流程682.3.1训练流程:数据增强、优化器与策略调整器682.3.2推理流程:测试时增强与量化部署79第3章语义分割算法原理3.1语义分割任务概述813.1.1语义分割的目标与传统方案813.1.2语义分割的难点843.1.3语义分割的度量指标85 -
作者介绍
贾壮,计算机视觉算法工程师,毕业于清华大学自动化系模式识别与智能系统方向。曾在华为、百度等单位从事多项算法项目研发工作。在相关期刊和会议中发表多篇论文,并获得国际竞赛奖项,对于算法设计及其应用有丰富的经验和比较深入的理解。 -
编辑推荐
模型内容丰富,方案介绍系统全面:书中介绍了经过时间检验的经典方案,以及一些新的有效方案(如Transformer模型等)。另外,还针对分割检测中的一些特殊任务,如小样本分割、交互式分割、小目标检测等进行讨论,并通过一些经典案例理解处理思路与方向。
实战项目易上手,学习门槛低:通过对计算机视觉领域的必要的数学基础、代码基础,以及深度学习的基本模块架构原理进行预先详细介绍,便于更多不同基础的人入门学习。同时,对于经典模型和实战项目提供注释清晰、结构规范的代码,便于实操演练,在实践中掌握知识。
注重思维的逻辑性:书中不是对各种模型结构进行简单描述和罗列,而是更加注重模型方案发展过程的逻辑性和思路的连贯性的介绍,对于特殊设定的任务,从分析任务的难点与先验条件开始,逐步推导出方案的设计。这种方式不仅可以让读者能学习到现有的方法,更能理解算法思路,培养算法思维,从而在遇到实际问题时学会自主思考解决问题。 -
书评书荐
-
附件下载
图书推荐