本书是由英国南安普敦大学的Mark S.Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基础上推出的改版之作。本次改版, 主要的变化是将高级特征提取分为固定形状匹配与可变形形状分析两部分, 并增加了新一章内容: 运动对象检测与描述。具体地, 本书在简要介绍计算机视觉的基础概念和基本的图像处理运算后, 重点讨论了低级和高级的特征提取, 包括边缘检测、 固定形状匹配和可变形形状分析。此外, 对目标描述, 纹理描述、 分割及分类, 以及运动对象检测等都进行了深入的阐述。本书突出了计算机视觉的主要问题——特征提取, 以清晰、 简洁的语言, 阐述了图像处理和计算机视觉的基础理论与技术。
本书是由英国南安普敦大学的Mark S.Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基础上推出的改版之作。本次改版,主要的变化是将高级特征提取分为固定形状匹配与可变形形状分析两部分,并增加了新一章内容:运动对象检测与描述。
Mark S. Nixon 英国南安普敦大学计算机视觉系教授。他的研究兴趣包括图像处理与计算机视觉。他的团队开发了在生物信息学与医疗图像分析应用上的静止与运动形状提取新技术。他的团队是自动人脸识别的早期研究者,后来是步态识别的开拓者,最近加入了耳生物信息(ear biometrics)的研究。与谭铁牛和Rama Chellappa合作,他们2005年出版的著作《基于步态的身份识别》是斯普林格(Springer)生物信息学专辑的一部分。他是许多国际会议(BMVC98,AVBPA03,IEEE人脸与姿态FG06,ICPR04, ICB09与IEEE BTAS 2010)的主席或程序委员会主席,并做了许多邀请报告。
第1章 绪论 br/
1.1 概述 br/
1.2 人类视觉和计算机视觉 br/
1.3 人类视觉系统 br/
1.4 计算机视觉系统 br/
1.5 数学系统 br/
1.6 相关资料 br/
1.7 小结 br/
1.8 参考文献 br/
第2章 图像、 采样和频域处理 br/
2.1 概述 br/
2.2 图像形成 br/
2.3 傅里叶变换 br/
2.4 采样标准 br/
2.5 离散傅里叶变换 br/ 第1章 绪论<br/>
1.1 概述<br/>
1.2 人类视觉和计算机视觉<br/>
1.3 人类视觉系统<br/>
1.4 计算机视觉系统<br/>
1.5 数学系统<br/>
1.6 相关资料<br/>
1.7 小结<br/>
1.8 参考文献<br/>
第2章 图像、 采样和频域处理<br/>
2.1 概述<br/>
2.2 图像形成<br/>
2.3 傅里叶变换<br/>
2.4 采样标准<br/>
2.5 离散傅里叶变换<br/>
2.6 傅里叶变换的其他特性<br/>
2.7 傅里叶以外的其他变换<br/>
2.8 频域特性的应用<br/>
2.9 扩展阅读<br/>
2.10参考文献<br/>
第3章 基本图像处理运算<br/>
3.1 概述<br/>
3.2 直方图<br/>
3.3 点算子<br/>
3.4 群运算<br/>
3.5 其他统计算子<br/>
3.6 数学形态学<br/>
3.7 扩展阅读<br/>
3.8 参考文献<br/>
第4章 低级特征提取(包括边缘检测)<br/>
4.1 概述<br/>
4.2 边缘检测<br/>
4.3 相位一致性<br/>
4.4 定位特征提取<br/>
4.5 描述图像运动<br/>
4.6 扩展阅读<br/>
4.7 参考文献<br/>
第5章 形状匹配的特征提取<br/>
5.1 概述<br/>
5.2 阈值处理和背景减法<br/>
5.3 模板匹配<br/>
5.4 低级特征提取<br/>
5.5 霍夫变换<br/>
5.6 扩展阅读<br/>
5.7 参考文献<br/>
第6章 高级特征提取: 可变形形状分析<br/>
6.1 概述<br/>
6.2 可变形形状分析<br/>
6.3 主动轮廓(蛇模型)<br/>
6.4 形状骨架化<br/>
6.5 弹性形状模型——主动形状和主动外观<br/>
6.6 扩展阅读<br/>
6.7 参考文献<br/>
第7章 目标描述<br/>
7.1 概述<br/>
7.2 边界描述<br/>
7.3 区域描述符<br/>
7.4 扩展阅读<br/>
7.5 参考文献<br/>
第8章 纹理描述、 分割和分类基础<br/>
8.1 概述<br/>
8.2 什么是纹理<br/>
8.3 纹理描述<br/>
8.4 分类<br/>
8.5 分割处理<br/>
8.6 扩展阅读<br/>
8.7 参考文献<br/>
第9章 运动对象检测与描述<br/>
9.1 概述<br/>
9.2 运动对象检测<br/>
9.3 跟踪运动特征<br/>
9.4 运动特征提取与描述<br/>
9.5 扩展阅读<br/>
9.6 参考文献<br/>
第10章 附录1: 照相机几何基础<br/>
10.1 图像几何<br/>
10.2 透视照相机<br/>
10.3 透视照相机模型<br/>
10.4 仿射照相机<br/>
10.5 弱透视模型<br/>
10.6 照相机模型实例<br/>
10.7 讨论<br/>
10.8 参考文献<br/>
第11章 附录2: 最小二乘分析<br/>
11.1 最小二乘准则<br/>
11.2 最小二乘曲线拟合<br/>
第12章 附录3: 主成分分析<br/>
12.1 主成分分析<br/>
12.2 数据<br/>
12.3 协方差<br/>
12.4 协方差矩阵<br/>
12.5 数据变换<br/>
12.6 逆变换<br/>
12.7 特征值问题<br/>
12.8 求解特征值问题<br/>
12.9 PCA方法小结<br/>
12.10实例<br/>
12.11参考文献<br/>
第13章 附录4: 彩色图像<br/>
13.1 彩色图像<br/>
13.2 三刺激理论<br/>
13.3 色彩模型<br/>
13.4 参考文献<br/>
译 者 序
人类在认知和理解周围环境的过程中, 70%以上的信息都是通过眼睛获取的。这样, 视觉信息在计算机视觉和模式识别等领域体现为对图像(包括视频)的分析和理解。例如, 目标检测与跟踪、 异常行为识别与分析等计算机视觉领域的典型应用, 它们的基础内容和关键步骤都是特征提取和图像处理。
本书是由英国南安普敦大学的Mark Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基础上推出的改版之作(第三版)。该书自2006年4月出版第一版起, 就受到了读者的广泛好评, 并于2008年6月出版第二版。2010年, 受电子工业出版社委托, 我们组织翻译了本书第二版。中文版同样受到了读者的广泛好评, 短短两年的印量已突破1万册。
相对于第二版, 本书的主要变化包括: 将高级特征提取划分为固定形状匹配与可变形形状分析两部分, 并且增加了新一章内容(第9章): 运动对象检测与描述。此外, 其他的章节或者增加了少量新内容, 或者修正了英文原著中的个别错误。因此, 第三版的质量更高。总体上看, 本书具有以下几个特色。
首先, 本书的内容全面、 重点突出。在简要介绍计算机视觉的基础概念和基本的图像处理运算后, 重点讨论了低级和高级的特征提取, 包括边缘检测、 固定形状匹配和可变形形状分析。此外, 对目标描述, 纹理描述、 分割及分类, 以及运动对象检测等都进行了深入的阐述。它突出了计算机视觉的主要问题——特征提取, 以清晰、 简洁的语言, 阐述了图像处理和计算机视觉的基础理论与技术。
其次, 本书的适用面广。它适合于电子工程、 计算机科学、 计算机工程等专业的本科生作为教材使用, 也适合于从事图像及视频信号处理、 模式识别和计算机视觉等研究方向的博士、 研究生阅读, 也可以作为相关专业的科研工作者参考用书。
再次, 本书提供了部分有参考价值的代码和伪代码。特别是, 书中提供的一些C语言或MATLAB语言的源代码, 可以方便工程应用时参考使用, 尤其适合于高校的博士、 硕士研究生进行算法学习与研究时参考使用。
当然, 特征提取是图像模式识别和计算机视觉领域的研究热点, 各种新算法和技术层出不穷。本书只提供了迄今为止本领域技术水平的诸多基础内容。尽管如此, 译者仍然认为, 本书是一本不可多得的好教材。
全书由湖南大学杨高波和李实英分工翻译。其中, 本书的第1章至第4章和第6章至第8章由李实英翻译, 前言、 第5章和第9章由杨高波翻译, 全部附录(第10—13章)由夏明、 陈日超、 蒋琴、 陈宁、 吴潇和向仁华共同完成初稿翻译, 杨高波进行润色。全书由李仁发教授审校。
把一种语言表达转换成另一种语言是一件困难的事情。看似很直白的一个词虽然不难理解其词义, 但是转换语言进行表达时往往需要煞费苦心。本书作者语言诙谐, 行文有较多的口语化表达, 理解起来较为困难。此外, 还有大量过长的句子。在翻译过程中, 译者力求忠实地传达书中所介绍的技术内容, 并保持作者的行文风格, 在此基础上尽可能通俗易懂。但是, 我们出于教材的篇幅和严谨性考虑, 在翻译中进行了少量的简化, 感兴趣的读者可以对照阅读本书的英文版(已由电子工业出版社出版, ISBN: 9787121195273)。
值得说明的是, 虽然我们尽量吸收了读者对于本书第二版中文翻译的一些意见和建议, 并对全文的翻译重新进行了润饰, 但是由于时间仓促及译者水平和经验的不足, 本书离“信、 达、 雅”的翻译原则仍有较大差距, 甚至仍然难免存在一些不当之处, 恳请读者提出宝贵的意见, 特别是对于一些专业术语翻译的建议。译者的联系邮箱为yang.gaobo@hnu.edu.cn, 我们将认真做好记录, 并尽可能在重印或再版时进行修订。
广大读者对于中文版的厚爱和电子工业出版社的肯定, 是我们再次翻译第三版的最大动力。本书在翻译过程中, 得到了许多人士的帮助。电子工业出版社马岚编辑策划了本书的出版, 并对翻译过程的一些细节进行了指导。在中文第一版翻译过程中, 赵鹏玉、 肖志鹏、 牛志国、 尚学智、 米超、 张然、 赵林详、 陈日超、 蒋琴、 陈宁、 吴潇和向仁华等参与了部分工作。对此, 译者一并深表感谢。
译 者
2013年9月于长沙岳麓山
前 言
第3版的“新”是什么
图像处理与计算机视觉已经受到, 并且将持续受到许多研究与开发的影响。新的研究成果已整理成书, 因此本书也需要更新改版。我们一直提到, 书中包含了一些在其他正规的教材中尚未出现的图像处理与计算机视觉技术(确实如此, 也许一些内容已经出现在某些专著中, 但是这些专著很少包括一些基础性知识)。对于本书以前的版本, 这是正确的, 可以确定本版仍将如此。
在本版中, 全新的内容是低级与高级特征提取与描述的新方法, 以及运动目标检测、跟踪与描述。我们还扩展了本书, 通过更先进的技术进行目标提取与描述, 特别是强调了小波与尺度空间。当然, 我们修正了以前版本的一些出版错误, 并且在合适的地方引入了一些基础性的材料, 更新了参考文献, 特别是包含了更新的综述与性能比较的资料。因此, 本书仍然是更新的、面向计算机视觉的特征提取与图像处理教材。
为什么写这本书
我们总是期望被问到, “究竟为什么写一本关于计算机视觉的新书?”, 我们也确实是这样被问的。一个普遍性的问题是:“既然在书店中已有很多关于计算机视觉的好书, 正如后面即将引用的那些, 为何还要再写一本呢?”这个问题的部分答案是任何教材都是此前已有资料的快照。计算机视觉, 作为一门利用计算机处理图像的艺术, 已经有众多高水平的研究人员在此领域进行了相当多的研究, 并且近年来仍在增长。这意味着, 已经发展了许多新的技术, 并且许多新的技术有待于迁移到教材中。但是, 它并不只是新研究:计算机视觉领域技术的部分快速进展, 仍然遗留了一些缺乏细节的领域。从研究的本质看, 一个人不可能出版那些看上去只是填补历史缺陷, 而不推动知识进步的技术资料。这就是为什么一本新的教材仍然能够对计算机视觉的深化有所贡献的原因。
最后, 技术本身继续进步。这意味着, 有新的硬件、新的编程语言、新的编程环境出现。特别是对于计算机视觉, 技术的进步意味着计算能力、内存等现在变得相对便宜。可以肯定, 比起计算机视觉刚成为一个研究领域时, 它们现在更为便宜。作者之一在这里注意到, 用来写作本书的笔记本电脑比他读大学整个阶段所使用的台式机都具有更多的内存, 更快的速度, 更大的磁盘空间和更好的图形能力。然而, 作者本人并不太老。近年来, 由于技术进步所带来的一个更有利的变化是数学编程系统的发展。这些进步允许我们关注于数学本身, 而不是实现的细节。有几个更“尖端”的工具软件, 例如本书所选用的MATLAB就是最流行的。我们已经在教学和科学研究中广泛地使用, 而且我们认为它在那里起了相当重要的作用。在研究工作中, 它们帮助我们更快地发展新的技术, 并且评价它的最终实现, 对于教学工作, 现代便携式计算机和数学系统在教学中联合展示给学生, 不仅包括这些技术是如何实现的, 而且包括如何以及为什么它们与传统的教学资料一起, 以明确的关系共同起作用。
基于上述原因, 我们编写了本书。有大量的资料本来可以包括进来, 但我们选择了忽略。用于全面展示学科的分类与结构, 是我们自己构造的。如果那些我们选择忽略的技术是你们的工作或者你们所喜欢的工作, 对此我们很抱歉。由于计算机视觉领域涉及面相当广, 本书仅限于计算机视觉领域的图像处理与特征提取。原因在于, 图像处理与特征提取不仅是我们研究工作的重点, 也是其他的一些已经出版的同类教材所关注的。当然, 也有例外, 但是相当少。然而, 它是计算机视觉应用的主要目标之一。我们旨在澄清它的一些起源和发展, 同时揭示使用数学系统的实现。正因如此, 我们心里怀揣着最初的目标重新编写了本书, 并且在后续的版本仍然保留这样的想法。
本书与支持
本书的每一章都提供了图像处理与计算机视觉的特征提取所涉及的特定信息包。每个信息包都是在原稿的基础上, 通过参考更新的资料完成的。自然地, 在讨论具体的实现之前, 通常需要关注理论上的发展。我们提供了我们所描述的绝大多数技术的实现, 并应用到选定的图像集的处理。尽管我们工作的重点更多地放在医学图像的分析或者生物信息学(一门通过人的行为或心理特征识别人的科学, 类似于人脸识别), 这些技术都是通用性的, 可以移植到其他的应用领域。
读者可以在本书的支持网站(http://www.ecs.soton.ac.uk/~msn/book/)找到大量的进一步支持信息。首先, 可以得到与本书配套的工作表单(支持本教材的MATLAB和Mathcad实现), 以便读者可以学习本书所描述的技术。那里, 还有演示网站。该网站将会尽可能地保持持续更新, 因为它还包括了一些其他资料的链接, 如关于技术、应用以及可得到的软件、在线文献的资料。最后, 在网站公布全部的勘误信息。勘误表的存在, 是我们的遗憾和责任。如果你找到了我们所不知道的错误(不是指拼写、语法和排版等错误), 请直接使用网站上的mailto给我们发邮件, 我们将非常感谢。
本书包含了一定数量的数学内容, 它的目标读者群是电气及电子工程, 软件工程, 计算机科学, 以及数学或物理专业的高年级本科生和硕士研究生。计算机视觉可以被认为是应用数学的一个分支。实际上, 这里涉及的数学主要有微积分学和几何学, 尽管它可能比传统的课程讲授更加详细一些。可以肯定, 这里所使用的资料并不是都可以在南安普敦的大学课程里全部覆盖到的。
第1章从计算机视觉的硬件、软件和已有资料的综述开始, 并且参考了有待进一步发展的、更复杂的视觉系统:人类视觉系统。尽管关于处理本质的确切细节仍然有待深化, 它仍然包含了相当大范围的硬件和软件, 以便一个