本书内容包括采样、数理统计、实验设计、主成分分析、多元校正、稳健校正、非线性建模、分类及模式识别、自模式曲线分辨、多维分析及三维校正等方法、算法和大量的应用实例, 突出如何利用化学计量学理论和方法去解决各类具有多元和动态特性的化学及分析化学的实际复杂问题。
第1章 化学计量学引论
PaulJ.Gemperline
1.1 化学量测――决策之基础
化学量测已成为当今社会重要决策活动的基础。例如,在对患者进行医学治疗前,需要进行大量医学化验和检查(包括血液化学分析等),这些常常构成医疗的基础,而不准确的结果常与接受医疗的个体生死相关。在工业中,安全而有效地控制和操作高能化学过程,如乙烯生产,就基于在线化学分析。乙烯生产流程中供氧量不准确会导致氧量过多,引起剧烈爆炸,危及工人和当地居民的人身安全。我们的环境保护也基于化学量测。政府政策制定者依赖可靠的量测进行损益决策,以保证现在及将来数百万人民的健康和安全。很显然,化学量测提供的信息必须是可靠的,尤其对上述这些情况,化学量测就是重要决策过程的基础。
1.2 化学量测――三支点平台
构成许多人类重要决策过程之基础的可信化学信息,依赖于量测过程的三个关键属性,包括其化学属性、物理属性和统计属性。支持可信化学量测的这些条件就像三个支点支撑着这一平台。只有在化学量测的这三个关键属性被充分理解和控制的环境下,才可以获得可信赖的信息。
(1)化学属性,包括化学计量、物料平衡、化学平衡等。
(2)物理属性,包括温度、能量传递、相态转化等。
(3)统计属性,包括量测过程中误差来源、干扰因素的控制、响应信号的校正、复杂多元信号的建模等。
如果这三个支点中的任意一个有误或者缺失,这个平台就会不稳定,而且量测体系将不能给出可信的结果,有时甚至会导致灾难性后果。其中的第三个支点――统计属性就需要统计学和化学计量学来给出,正是这个基本的角色需求给化学计量学领域提供了发展的原始动力。可信的化学计量学方法和受过良好训练的人力对于提供用于人类决策活动的可信化学信息是必需的。在后续章节中,我们将展开对化学计量学各个主题的介绍。
1.3 化学计量学
化学计量学一词是在1971年首次提出的,以描述在化学领域,特别是分析化学领域中,数学模型、统计原理和其他基于逻辑的方法的不断增多的使用。化学计量学是一个涉及多元统计、数学建模、计算机科学和分析化学的交叉学科。化学计量学的一些主要应用领域包括:①校正、验证和显著性检验;②化学量测和实验过程的优化;③分析数据中最大化学信息的提取。
在许多方面,化学计量学领域是统计学、计算机和“信息时代”的产物。快速的技术进展,特别是用于分析化学的计算机化仪器的发展,使得化学计量学领域在过去的三十年有了显著的发展。对于这一时期的大部分时间来说,进展集中于多元方法。由于我们所在的世界本质上就是多元的,在任何数据分析策略中,同时处理多元量测是很有意义的。例如,当我们测量一个溶液的紫外(UV)吸光度时,相对于测定单一波长处的吸光度,快速地在低噪声水平下测定其全谱也是很简单的。通过恰当地同时考虑多元变量的分布,我们可以获得比独立考虑单个变量所获得的更多的信息。这就是所谓的“多元优势”之一。增加的信息以相关性的形式呈现给我们。当一次考察一个变量时,我们忽视了变量之间的相关性,故而丢失了整体的一部分。
最近一篇由Bro发表的文章描述了多元方法相比于一元方法的四个额外优势[1]。当使用合适的多元方法来同时分析多变量时,降噪是可能的。例如,当使用主成分分析从数以百计的波长下测得的UV光谱中提取出少数几个有意义的因子时,就可以获得低噪声的因子。另一个重要的优势是通过使用部分选择性测量及合适的多元方法,可以摆脱干扰信号的影响,从而获得正确的结果。第三个优势是可以容易地发现假样本,例如在光谱分析中,对于任何表征良好的化学计量学方法,材料量测的部分都应该可以使用训练集或者说校正集光谱的线性组合来合理地解释。假如有新的、陌生的材料存在,而其给出与预计部分轻微不同的光谱信号,就可以在光谱残差中被检出,并且相应的部分会被标识为异常点或者“假样本”。化学计量学的这些优势常常是使用多元方法的结果。通读本书,读者将会发现这些优势和所强调的其他优势。
1.4 如何使用本书
本书适合作为化学计量学的入门教科书或用作自学指南。每一个章节都是相对独立的,它们共同涵盖了化学计量学的许多主要领域。从第2章对基本统计学(包括假设检验)的概述开始,前面的章节为入门性内容和基本概念。第2章主要是从一元的视角来综述用于实验计划和数据分析的合适工具,涵盖的主题包括定义一个研究的假设,然后评估提出可以用来检测所做的假设是否真实的统计工具。第3章建立了一元正态分布的概念,并将其拓展到多元正态分布。给出了一个例子以表明将近红外光谱用于原材料检验的分析,其中两个降解产物被检测出处于0.5%~1%的质量分数范围。第4章讲述主成分分析(PCA)――化学计量学中的一个主要方法。这是所有的基础或入门化学计量学课程都应该包含的主题。第5章涵盖多元校正的内容,包括偏最小二乘――化学计量学中一个单一应用最广泛的领域。多元校正一般指将仪器的响应转化,以给出更信息化的化学或者物理变量之估计值的数学方法,如(检测)目标分析物。第3~5章共同构成了本书基本的核心内容。
本书余下的章节介绍了化学计量学中一些更深层次的主题。由于这些章节涵盖了一些重要的深层次主题,所以本书的涉及面相当广泛。第6章介绍稳健多元方法。稳健方法对异常值的存在是不敏感的。第6章论述的绝大多数方法可以容忍数据集中包含上限达50%的异常值,而对结果没有破坏性影响。对多元正态分布、稳健PCA和稳健多元校正,包括稳健PLS的稳健估值,都提供了方法和例子的描述。故而,第6章是第3~5章的一个很好的延伸。
第7章涵盖非线性多元模型估计这一深层次主题,其主要的例子来自化学动力学。第8章涵盖实验设计这一重要的内容。实验设计在本书中的位置之所以相对靠后,是因为我们认为将其安排在有关校正和非线性模型估计的章节之后,对于读者(特别是学生)来说,将更易于认识到实验设计的重要应用。第9章涵盖了多元聚类和模式识别的主题。这类方法被设计来探寻描述不同数据组之间相似性或相异性的关系,从而揭示一个数据集中对象之间的共同趋势。使用合适的多元方法策略,可以同时研究大量的特征。化学计量学在这方面的应用实例,包括污染源的鉴别、不合格原材料的检测、临床吸塑包装内未标记药物的无损聚类、人的疾病化验和食品质量检验..仅列举以上这几个例子。
第10章信号处理和数字滤波,与意在通过降噪来增强信号的数学方法有关。在这种方式下,可以从被其他因素干扰的信号中获得“真实”信号。第11章多元曲线分辨,描述了对多元数据集――从渐进体系到表示纯组分贡献的描述性模型――进行数学分辨的方法。正确地分辨体系中各组分纯浓度轮廓和纯光谱的能力依赖于不同组分纯峰形重叠的程度和这些峰形在重叠区域的具体重叠方式。第12章描述了三维校正方法――化学计量学中一个活跃的研究领域。该章包含了诸如广义秩消(GRAM)和平行因子分析(PARAFAC)等方法的论述。三维校正方法的主要优势是它们在未知、未校正光谱干扰共存下仍能估计待分析物浓度的能力。第13章综述了化学计量学中一些最活跃的研究领域。
1.4.1 软件应用
我们学习化学计量学和向其他人讲授化学计量学的经验一次又一次地表明:人们是通过使用新技术解决感兴趣的问题来学习新技术的。因此,本书的许多编纂者选择了使用微软@Excel、MATLAB或其他有力的计算机应用软件,来阐述他们的化学计量学方法。对于许多化学计量学研究小组来说,MATLAB已经成为主要的研究工具,大量共享的用于化学计量学的MATLAB软件包可以在互联网上找到。MATLAB是一个交互式计算环境,摆脱了使用线性代数去解决复杂问题的繁重计算问题。它将计算机绘图、数值分析和矩阵计算整合为一个简单易用的工具包。这种工具包可以在大范围的个人计算机和工作站上使用,包括IBM和Macintosh计算机。它尤其适用于使用一个简单的类似于代数的术语来求解复杂的矩阵方程。由于一些作者已选择使用MATLAB,所以我们可以为您提供一些实例程序。使用BASIC、Pascal、FORTRAN或者C语言来表述本书中例子的等价程序可能会过于冗长复杂。通过在你自己的数据集上使用这些方法,或修改这些方法以适应你的具体需要,将更容易去尝试体会本书中的这些方法。想要学习更多MATLAB的读者可以查阅有相关程序的手册和有描述程序使用指导内容的各类网站。