场景文字视觉问答技术理论与实践研究
书 号:9787113319915
丛 书 名:
作 者:方承炀
译 者:
开 本:小16开
装 帧:平装
正文语种:汉文
出 版 社:中国铁道出版社
定 价:68元
-
内容简介
本书从实际应用的角度出发,首先论述场景文字视觉问答的最新进展和技术方向,之后分别针对当前场景文字视觉问答模型缺乏场景文字语义含义和语义差异的理解能力、缺乏场景文字间的上下文语义关系建模能力以及缺乏将自然场景中强关联场景文字的聚类划分能力等问题,进行理论分析并提出相应方法,最后对未来的工作进行了展望。 本书技术内容前沿,条理清晰,适合作为计算机与人工智能相关行业专业技术人员的参考书。 -
前言
随着信息技术、移动互联网的快速发展,对人工智能的技术要求已经从处理单一的文本、图片、音频等数据形式的感知智能进化到同时处理文本、图像、视频以及语音等多源异构数据组成的多模态数据形式的认知智能。此外,多种模态数据所构成的任务在日常生活中随处可见,例如,当人们观察自然场景并尝试回答与之相关的问题时,便构成了一般的视觉问答任务。实际上,在自然场景中,人类更关注的是其中的场景文字信息,这需要模型具备阅读场景文字、理解场景文字以及回答与场景文字相关问题的能力,这便是本书的中心:场景文字的视觉问答任务。然而,当前的方法存在以下几个问题:① 无法理解场景文字的语义含义以及语义差异;② 默认将所有场景文字拼接成一个句子来处理,无法分辨场景文字间是否存在语义关联性,也无法构建场景文字间复杂的空间位置关系;③ 无法准确地将具有强关联性的场景文字聚类。
本书主要研究点如下:
(1)针对当前工作中场景文字语义理解与差异辨识所面临的挑战,本书提出一种以场景文本语义为中心的视觉问答方法。该方法首先设计了一种以场景文本语义为中心的模型结构,使答案预测过程更加聚焦于问题、场景文字及答案之间的语义交互。其次,引入了实例级别的对比学习语义预测模块,通过预测答案的文本语义特征,评估答案语义的合理性。实验结果表明,该方法在多个常用数据集上的性能较基线模型有显著的提升。
(2)针对当前工作无法分辨场景文字间是否存在语义关联性以及无法构建场景文字间复杂空间位置关系的问题,本书提出基于文本语义上下文学习及空间表示的场景文字视觉问答方法。该方法首先提出了文本语义分离模块可以帮助从场景文字视觉及位置的信息推理判断各个场景文字之间是否具有语义上下文关系。其次,提出了空间圆位置模块,通过计算每个场景文字之间的相对距离帮助模型更好地构建和推理场景文字之间的复杂空间位置关系。实验结果表明,该模型在多个常用数据集上较基线模型有大幅度的性能提升。
(3)针对当前工作无法准确地将具有强关联性的场景文字聚类从而给模型提供有益的先验知识的问题,本书提出了基于图像分割和匹配的场景文字视觉问答方法。该方法首先提出了场景文字载体分割和匹配模块,帮助自然场景中的所有场景文字找到其所属载体,提供给模型良好的先验知识。其次,提出了分层视觉特征融合模块,帮助模型从多粒度视觉角度全面理解场景文字之间的上下文。实验结果表明,该模型在多个常用数据集上较基线模型有较大的性能提升。
场景文字视觉问答技术理论与实践研究前言上述三个研究点主要从场景文字视觉问答任务中场景文字本身的语义理解能力、场景文字之间上下文语义判断和空间关系的建模能力以及场景文字间关联度聚类划分的角度进行了深入探索。这三个研究点之间相辅相成,其内在联系见下图。
本书共七章,总体组织结构及每章内容简介如下:
第1章论述场景文字视觉问答任务的研究背景以及研究意义。
第2章论述自然场景文本分析与视觉问答任务,先讲解自然场景文本检测与识别的概念、方法和挑战,再阐释视觉问答任务的定义、流程和关键方法,最后论述数据库。
第3章论述场景文字视觉问答任务涉及的深度学习技术、基于编码器和解码器的场景文字视觉问答方法、基于图神经网络的场景文字视觉问答方法以及基于预训练任务的场景文字视觉问答模型和场景文字视觉问答任务的主要数据集和评测指标。
第4章论述场景文字视觉问答方法,旨在提高模型对场景文字语义的理解能力,减少对光学字符识别系统性能和训练数据集语言偏置的依赖。
第5章论述基于文本语义上下文学习及空间表示的场景文字视觉问答方法,通过文本语义分割模块和空间圆位置模块,增强模型对场景文字空间位置建模能力。
第6章论述基于图像分割和匹配的场景文字视觉问答方法,通过增强模型对场景文字间关联度的聚类划分能力,来降低模型推理答案的难度。
第7章为总结与展望。该章对本书的主要研究内容及贡献进行概括性总结。最后,针对存在的问题及未来探索方向进行分析和展望。
在撰写本书的过程中,笔者参考了国内外众多研究者的工作,衷心地感谢文献作者对场景文字视觉问答领域的贡献。
最后,衷心希望本书能够给读者带来启发,引发更多有意义的研究工作,相信场景文字视觉问答将得到进一步的发展,更好地造福社会。
由于笔者水平有限,书中错误和疏漏之处在所难免,欢迎各位读者批评指正。
方承炀
2024年8月 -
目录
第1章场景文字视觉问答的探索之旅1.1场景文字视觉问答的缘起1.2场景文字视觉问答技术的发展现状1.3语义鸿沟:场景文字理解的挑战小结第2章自然场景文本分析与视觉问答任务:方法、挑战与数据综述2.1文字检测识别综述2.1.1了解文字检测识别2.1.2文字检测识别的背景2.1.3基于深度学习的自然场景文本检测方法2.1.4基于深度学习的自然场景文本识别方法2.1.5基于深度学习的端到端的自然场景文本识别方法2.2视觉问答综述2.2.1视觉问答任务概述2.2.2视觉问答的挑战2.2.3视觉问答的关键方法2.2.4数据集介绍小结第3章场景文字问答技术概述3.1场景文字视觉问答技术相关深度学习模型3.1.1视觉特征提取模型3.1.2语义特征提取模型3.1.3多模态融合模型3.2场景文字视觉问答技术的发展3.2.1基于编码器和解码器框架的场景文字视觉问答模型3.2.2基于图神经网络的场景文字视觉问答模型3.2.3针对预训练任务的场景文字视觉问答模型3.2.4基于 -
作者介绍
方承炀,毕业于中国科学院信息工程研究所,江西财经大学计算机与人工智能学院讲师,专业方向主要为多模态信息内容理解以及计算机视觉,具体为场景文字视觉问答、场景文字视觉描述以及场景文字检测识别等。在国际高水平学术期刊和会议发表论文六篇。 -
编辑推荐
1. 本书是一本深度探索人工智能前沿领域的专业著作。在人工智能从感知智能迈向认知智能的关键阶段,场景文字视觉问答成为技术突破的重要领域。本书直击现有方法痛点,提出三大创新研究方法,通过独特模型设计与模块构建,显著提升任务性能,为读者呈现极具价值的学术成果。
2.全书逻辑清晰,从基础理论到前沿技术层层递进,详细阐述模型原理与实验过程。无论是科研工作者、高校师生,还是技术从业者,都能从中获取启发,是推动人工智能多模态技术发展的重要参考。 -
书评书荐
-
附件下载
图书推荐




