书城农业林业近红外光谱快速检测淀粉品质
6777700000005

第5章 近红外光谱分析技术原理(2)

傅立叶变换是一种信号处理技术,有效地滤除高频噪声以及由仪器原因或基线偏移等因素引起的低频噪声,该方法对光谱数据进行平滑、差值、滤波等运算增加光谱信噪比。傅立叶变换首先将数据进行快速傅立叶变换(FFT),在频率空间下与高斯窗函数进行运算,然后进行反快速傅立叶变换(IFFT)计算,得到经带通滤波处理后的光谱数据。带通滤波器的中心频率和带宽分别取决于高斯函数的均值与标准差,并且应用数值优化方法来实现滤波的参数,以获得最佳滤波效果。通过对光谱的平滑去噪,数据压缩等一系列处理进一步提高模型对测量条件扰动的稳健性。该方法原理清晰,实现方便,大大缩小运算时间,而且样品光谱质量得到有效改善,校正模型的预测能力和适应能力也得到进一步的增强。

六、正交信号校正(Orthogonal Signal Correction)

利用正交信号校正算法,对原始光谱数据进行预处理,可以有效地取出光谱数据中所包含的各种干扰噪声信号。在实际应用的近红外光谱技术进行分析时,部分系统误差或干扰噪声等与有效信息无关的信息常常会被引入在光谱中,这时,用偏最小二乘法建立的定标模型的前几个主因子数对应的光谱载荷经常不是有用的浓度阵信息,而是与浓度阵无关的噪声信号。因而,在建立定标模型前,通过正交的数学运算,除去与浓度阵无关的噪声,然后,将经过数学运算处理后的光谱矩阵作为新的自变量矩阵,再利用PLS方法建立校正模型。

只要保证除去的部分与预测值矩阵能够正交,则除去部分所含有的信息必然与光谱矩阵没有必然的关系。正是基于这种新颖的思想,SWold等在1998年提出正交信号校正方法。但是这种最初的算法的缺点是每次迭代计算均需要计算一遍PLS,计算时间较长,且内置PLS算法的成分数很难确定[24]。Sjoblom又改进了该算法,其算法与Wold基本一致,只是计算次序略有差别[25]。这种算法在迭代时不用反复计算PLS,其主成分数也容易通过交叉验证的方法确定。但同样该方法的缺点是无法严格证明其剔除的信息与光谱矩阵正交。经过学者们长时间的不断探索和研究,陆续出现了逐渐完善的算法,如Fearn的类PCA算法[26],Andersson的DO算法[27],Westerhuis的DOSC算法[28],Trygg的0-PLS算法[29],Feudale的POSC算法[30]等。这些改良后的预处理方法的基本原理是在建立定标分析模型前,将光谱矩阵与浓度矩阵正交,去掉光谱与浓度阵无关的冗余信号,再进行多元校正,从而使所建立的模型更加简化并且提高模型的稳定性和预测能力。

2.4.3近红外光谱校正模型的建立方法

一、定量分析方法

近红外光谱分析是通过对样品光谱和其特征参数进行关联,即在物质的物化性质与分析仪器响应值之间建立定量关联关系,从而建立定标模型,然后定标模型对预测集样品进行预测。当建立模型后,只要扫描预测集样品的近红外光谱,根据校正模型和未知样品的近红外光谱就可以预测所需要的样品的特征参数。多元校正仍然是目前最为实用的方法,近红外光谱分析中常用的多元校正方法包括:多元线性回归(Multiply Linear Regression, MLR)、主成分回归(Principle Component Regression,PCR)和偏最小二乘法(Partial Leas Squire,PLS)等。

1.多元线性回归(Multiply Linear Regression,MLR)

多元线性回归是一元线性回归的扩展,又称为逆最小二乘法,用于建立自变量和因变量之间的关系。MLR只要求已知定标样品待测特征成分的含量值,选择若干个光谱点的吸光度值与该特征成分含量进行线性回归即可得到定标模型的回归系数。要选择好对应于被测特征成分的数据向量。

MLR的算法如下:

设βi1,βi2,…,βip分别为第i个样品在第1,2,…,p个光谱点的吸光度,其待测组分含量为yi,则如式29所示。yi=β0+β1xi1+…+βpxip+εi,i=1,2,…n(29)其矩阵形式如式210所示。Y=Xβ+ε(210)其中X=1x11x12…x1p

1x21x22…x2p

1xn1xn2…xnp,Y=y1

y2

yn,β=β0

β1

βp,ε=ε1

ε2

εn,其中

Y——待测组分含量矩阵;

X——光谱矩阵;

β——回归系数;

ε——回归误差;

n——定标样品个数;

p——参与回归的光谱点个数。

回归系数β由最小二乘法确定,如式2.11所示。β=XTX-1XTY(2.11)对未知组分含量样品的预测,如式2.12所示。Y未知=X未知β(2.12)MLR算法存在很多的局限性,如波长点数不应该超过校正集的样本数目,这样难免会损失一些有效的光谱信息;吸光度矩阵存在共线性问题,导致其成为病态矩阵;此外,运算过程中没有考虑到存在的噪音,这样同样会导致过拟合情况,从而降低了模型的可靠性。因此,MLR在近红外早期时应用较为广泛,为了建立更为稳健的模型,人们逐渐在此基础上发展出一系列更为有效的算法。

2.主成分回归(Principle Component Regression,PCR)

主成分回归法是采用多元统计中的主成分分析方法,对混合物光谱测量矩阵X进行分解,然后选取其中的主成分来进行多元线性回归分析。其核心是主成分分析,将原始数据降维,通过对原变量进行一系列的变换,使少数几个新变量变成原变量的线性组合,于此同时,这些新变量最大限度地表征了被测样品的组成和结构特性,并且最小限度地包含噪音等干扰因素。经转换得到的新变量是相互彼此正交的,即互不相关,以消除大量信息共存时相互重叠的而掩盖的信息部分。

主成分回归的主要算法如下:

主成分分析通过奇异值分解实现,即将X矩阵分解如式2.13所示。X=USVT(2.13)S——对角矩阵,包含X的奇异值;

U——标准列正交;

VT——标准正交矩阵。

实际上,矩阵U和矩阵S的乘积等于主成分分析中的得分矩阵T,矩阵V等于载荷矩阵P。主成分回归的模型如式214所示。Y=TB+E(2.14)B的最小二乘解如式2.15所示。B=TTT-1TTY(2.15)主成分回归克服了MLR所产生的严重共线性问题,即病态。在最大程度利用光谱信息的同时,通过忽略那些次要成分,起到了抑制噪声对模型的影响,进一步提高了校正模型的稳定性和可靠性。该方法不需要了解干扰组分的存在便可以较为准确地测出待测组分。但其运算速度比MLR慢,且不如MLR方法对模型那么直观。

在主成分回归中,对于模型建立至关重要的便是最佳主成分数的选取。若主成分数过少,将会丢失一定量的有用信息,拟合不充分;若选取的主成分数过多,则会因为包含过多的噪音而出现过度拟合现象,使得模型的预测误差增大。因此,要合理选取最佳主成分数,有效地提高模型的预测性和可靠性。

3最小二乘法(Partial Least Square,PLS)

偏最小二乘法也是一种多元回归算法。类似PCR,对光谱矩阵X进行分解,去除其中无效的噪音干扰。同时,分解浓度矩阵Y,消除其中的无用信息。并且,在分解光谱矩阵X的同时考虑了浓度矩阵Y的影响。其实质是将矩阵分解和回归并为一步。在每计算一个新主成分之前,将X的得分矩阵T与矩阵Y的得分U矩阵进行交换,使得到X主成分直接与Y关联。这样就弥补了PCR方法只针对X进行分解的缺点。

PLS算法如下所示:

PLS首先对光谱矩阵X和浓度矩阵Y进行分解,其模型如式2.16,2.17所示。X=TP+E(2.16)

Y=UQ+F(2.17)其中

T——X矩阵的得分矩阵;

U——Y矩阵的得分矩阵;

P——X矩阵的载荷矩阵;

Q——Y矩阵的载荷矩阵;

E——X矩阵的PLS拟合残差矩阵;

F——Y矩阵的PLS拟合残差矩阵。

PLS第二步是将T和U做线性回归如式2.18,2.19所示。U=TB(2.18)

T=TTT-1TTY(2.19)在预测时,首先根据P求出未知样品光谱矩阵X未知的得分T未知,然后求得浓度预测值如式2.20所示。Y未知=T未知BQ(2.20)PLS在应用中显示出了其独特的优越性:

(1)灵活的使用光谱数据,可以根据需要使用全部或者部分光谱数据而达到很好的建模效果。

(2)将特征向量与被测成分相关,即把数据分解与回归同时进行,有效地融合在一起。

(3)适用于处理样本数量少,但是变量相对较多的问题。

(4)PLS是多元线性回归和主成分分析的完美结合,显著提高了校正模型的预测能力。

正因为PLS的如上优点,在很多领域中,该方法得到了广泛的应用。

二、定性分析方法

近红外光谱的定性分析方法目前广泛应用于质量控制中,如产品生产线上一系列的工序监控,化工生产等的工艺优化,农产品产地、优劣等的分析研究,在制药业、石油化工、环保、轻工业和食品加工等领域也同样日益受到重视。常用的定性分析方法有人工神经网络法、聚类分析法和支持向量机(SVM)等方法。

1.人工神经网络

现代计算机有很强的计算和信息处理能力,但是它对于模式识别、感知和在复杂环境中作决策等问题的处理能力却远远不如人,特别是它只能按人事先编好的程序机械地执行,缺乏向环境学习、适应环境的能力。人们早已知道人脑的工作方式与现在的计算机是不同的,人脑是由极大量基本单元(神经元,见图2.5)经过复杂的互相连接而成的一种高度复杂的、非线性的、并行处理的信息处理系统。单个神经元的反应速度比计算机的基本单元——逻辑门——低5~6个数量级。由于人脑的神经元数量巨大,每个神经元可与几千个其他神经元连接,对许多问题的处理速度比计算机快得多。

图2.5神经元构成示意图

因此,人们利用大脑的组织结构和运行机制的特点,从模仿人脑智能的角度出发,来探寻新的信息表示、存储和处理方式,设计全新的计算机处理结构模型,构造了一种更接近人类智能的信息处理系统,即人们目前正在研究的人工神经网络(Artificial Neural Networks,简称NN)系统。简而言之,所谓NN就是模仿人脑工作方式而设计的一种机器,它可用电子或光电元件实现,也可用软件进行计算机仿真。自从上世纪40年代初,美国McCulloch和Pitts从信息处理的角度,研究神经细胞行为的数学模型表达,提出了二值神经元模型以来,人们对神经网络进行了大量的研究。其中经历了40年代末心理学家Hebb提出著名的Hebb学习规则,50年代Rosenblatt提出的感知机模型(Perceptron),60年代神经网络研究的低潮,80年代提出的一种新的神经网络HNN和Boltzmann机等一系列的过程。目前,神经网络的发展非常迅速,从理论上对它的计算能力、对任意连续函数的逼近能力、学习理论以及动态网络的稳定性分析上都取得了丰硕的成果,特别是在应用上已迅速扩展到许多重要领域。如模式识别与图像处理中的手写体字符识别、语音识别、人脸识别、基因序列分析、医学疾病的识别、油气藏检测、加速器故障检测、电机故障检测、图像压缩和还原;控制及优化方面的化工过程控制、机械手运动控制、运载体轨迹控制等;金融中的股票市场预测、有价证券管理、借贷风险管理、信用卡欺骗检测;通信中的回声抵消、路由选择、自适应均衡、导航等方面。

下面的图2.6表示了作为NN的基本单元的神经元模型,它有三个基本要素:

图2.6基本神经元模型

(1)一组连接,连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制。

(2)一个求和单元,用于求取名输入信号的加权和(线性组合)。

(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定的范围之内。常见的激活函数φ(·)有阈值函数、分段线性函数和sigmoid函数等。此外还有一个阈值θ(或偏置-θ)。

人工神经网络结构及工作方式如下:

除单元特性外,网络的拓扑结构也是NN的一个重要特性。从连接方式看NN主要有两种。

(1)前馈型网络。各个神经元接受前一层的输入,并输出给下一层,没有反馈。节点分为两类,即输入单元和计算单元,每一计算单元可有任意个输入,但只有一个输出。通常前馈网络可分为不同的层,第i层的输入只与第i-1层的输出相连,输入和输出节点与外界相连,而其他中间层则称为隐层。

(2)反馈型网络。所有节点都是计算单元,同时也可接收输入,并向外界输出,其中每个连接弧都是双向的。若总单元数为n,则每一个节点有n-1个输入和一个输出。

NN的工作过程主要分为两个阶段:第一个阶段是学习期,此时各个计算单元状态不变,各连线上的权值可通过学习来修改;第二个阶段是工作期,此时各连接权固定,计算单元状态变化,以达到某种稳定状态。

从作用效果来看,前馈网络主要是函数映射,可用于模式识别和函数逼近。反馈网络按对能量函数的极小点的利用来分类有两种:第一类是能量函数的所有极小点均起作用,这一类主要用作各种亮相存储器;第二类只利用全局极小点,它主要用于求解最优化问题。

通过向环境学习获取知识并改进自身性能是NN的一个重要特点,在一般情况下,性能的改善是按某种预定的度量通过调节自身参数(如权值)随时间逐步达到的。在本章中我们重点介绍神经网络的学习规则。常见的学习规则算法有如下三种:

(1)误差纠正学习(delta规则)