主成分分析PCA(
PrincipalComponentsAnalysis),奇异值分解SVD(Singular value decomposition)是两种常用的降维方法
降维致力于解决三类问题:
降维可以缓解维度灾难问题;
降维可以在压缩数据的同时让信息损失最小化;
理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。
PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法。它不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。
PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度。著名的人脸识别Eigenface算法就是采用PCA算法,用一个低维子空间描述人脸图像,同时用保存了识别所需要的信息。
PCA原理就是找到一个红色的投影,使得所有点投影到这条红色的线上的方差最大,这样二维图就变成了一维的。PCA的整个算法就是如何找到这条线,以及中心点。
Matlab中PCA函数举例说明
coeff = pca(X) 返回 n*p 数据矩阵 X 的主成分系数,也称为载荷。X 的行对应于观测值,列对应于变量。系数矩阵是 p*p 矩阵。coeff 的每列包含一个主成分的系数,并且这些列按成分方差的降序排列。默认情况下,pca 将数据中心化,并使用奇异值分解 (SVD) 算法。
[coeff,score,latent] = pca(___) 还在 score 中返回主成分分数,在 latent 中返回主成分方差。您可以使用上述语法中的任何输入参数。
主成分分数是 X 在主成分空间中的表示。score 的行对应于观测值,列对应于成分。当 Centered 设置为 true 时,X 中变量的估计的均值以行向量形式返回。当 Centered 是 false 时,软件不计算均值,并返回零向量。下面是一个使用pca进行图片压缩的例子
clear
imagefile='../test . jpg'; % original image file
numpc=[10,20,50]; % numbers of PCs to use for reconstruction
img=imread(imagefile);
imgr=img(:,:,1); % red original
imgg=img(:,:,2); % green original
imgb=img(:,:,3); % blue original
[r,c]=size(imgr); % rows, columns in image
nn=length(numpc); % length of numpc = number of reconstructions
imgRC=uint8(zeros(r,c,3,nn)); % allocate array for ReConstructed images
imgRCr=uint8(zeros(r,c,nn)); % array for ReConstructed images, red
imgRCg=uint8(zeros(r,c,nn)); % array for ReConstructed images, green
imgRCb=uint8(zeros(r,c,nn)); % array for ReConstructed images, blue
[coeffr,scorer,~] = pca(double(imgr),'Centered',false);
for i=1:nn
imgRCr(:,:,i)=uint8(scorer(:,1:numpc(i))*coeffr (:,1:numpc(i))');
end
[coeffg,scoreg,~] = pca(double(imgg),'Centered',false);
for i=1:nn
imgRCg(:,:,i)=uint8(scoreg(:,1:numpc(i))*coeffg (:,1:numpc(i))');
end
[coeffb,scoreb,~] = pca(double(imgb),'Centered',false);
for i=1:nn
imgRCb(:,:,i)=uint8(scoreb(:,1:numpc(i))*coeffb (:,1:numpc(i))');
end
for i=1:nn
imgRC(:,:,:,i)=cat(3,imgRCr(:,:,i),imgRCg(:,:,i),imgRCb(:,:,i));
end
figure;
subplot(nn+1,4,1); imshow(img); ylabel('Original')
subplot(nn+1,4,2); imshow(imgr); title('Red')
subplot(nn+1,4,3); imshow(imgg); title('Green')
subplot(nn+1,4,4); imshow(imgb); title('Blue')
for i=1:nn
subplot(nn+1,4,4*i+1); imshow(imgRC(:,:,:,i)); ylabel(num2str(numpc(i)))
subplot(nn+1,4,4*i+2); imshow(imgRCr(:,:,i));
subplot(nn+1,4,4*i+3); imshow(imgRCg(:,:,i));
subplot(nn+1,4,4*i+4); imshow(imgRCb(:,:,i));
end
[filepath,namein,ext] = fileparts(imagefile);
for i=1:nn
nameout=strcat(namein,num2str(numpc(i)));
outfilespec=fullfile(filepath, strcat(namein,num2str(numpc(i)),ext));
imwrite(imgRC(:,:,:,i),outfilespec);
end这里采用10,20,50级分别展开,按照R,G,B三个通道分别展开其执行结果如下图,级数越高,越接近真实图形,同时图像也越大。这里当 Centered 设置为 false ,pca 不会对数据进行中心化。可以使用 score*coeff 重新构造原始数据。如果不指定,默认值为true。pca 通过在计算奇异值分解或特征值分解之前减去列均值,将 X 中心化。如果 X 包含 NaN 缺失值,则使用 mean(X,'omitnan') 计算所有可用数据的均值。使用 score*coeff' 重新构造中心化的数据。