莫度编程网

技术文章干货、编程学习教程与开发工具分享

MATLIB中使用PCA(matlab做pca分析)

主成分分析PCA(
PrincipalComponentsAnalysis),奇异值分解SVD(Singular value decomposition)是两种常用的降维方法

降维致力于解决三类问题:

降维可以缓解维度灾难问题;

降维可以在压缩数据的同时让信息损失最小化;

理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。


PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法。它不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。

PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度。著名的人脸识别Eigenface算法就是采用PCA算法,用一个低维子空间描述人脸图像,同时用保存了识别所需要的信息。


PCA原理就是找到一个红色的投影,使得所有点投影到这条红色的线上的方差最大,这样二维图就变成了一维的。PCA的整个算法就是如何找到这条线,以及中心点。

Matlab中PCA函数举例说明

coeff = pca(X) 返回 n*p 数据矩阵 X 的主成分系数,也称为载荷。X 的行对应于观测值,列对应于变量。系数矩阵是 p*p 矩阵。coeff 的每列包含一个主成分的系数,并且这些列按成分方差的降序排列。默认情况下,pca 将数据中心化,并使用奇异值分解 (SVD) 算法。

[coeff,score,latent] = pca(___) 还在 score 中返回主成分分数,在 latent 中返回主成分方差。您可以使用上述语法中的任何输入参数。

主成分分数是 X 在主成分空间中的表示。score 的行对应于观测值,列对应于成分。当 Centered 设置为 true 时,X 中变量的估计的均值以行向量形式返回。当 Centered 是 false 时,软件不计算均值,并返回零向量。下面是一个使用pca进行图片压缩的例子

clear
imagefile='../test . jpg';            % original image file
numpc=[10,20,50];                  % numbers of PCs to use for reconstruction

img=imread(imagefile);
imgr=img(:,:,1);                % red original
imgg=img(:,:,2);                % green original
imgb=img(:,:,3);                % blue original
[r,c]=size(imgr);               % rows, columns in image 
nn=length(numpc);               % length of numpc = number of reconstructions
imgRC=uint8(zeros(r,c,3,nn));   % allocate array for ReConstructed images
imgRCr=uint8(zeros(r,c,nn));    % array for ReConstructed images, red
imgRCg=uint8(zeros(r,c,nn));    % array for ReConstructed images, green
imgRCb=uint8(zeros(r,c,nn));    % array for ReConstructed images, blue

[coeffr,scorer,~] = pca(double(imgr),'Centered',false);
for i=1:nn
    imgRCr(:,:,i)=uint8(scorer(:,1:numpc(i))*coeffr (:,1:numpc(i))');
end

[coeffg,scoreg,~] = pca(double(imgg),'Centered',false);
for i=1:nn
    imgRCg(:,:,i)=uint8(scoreg(:,1:numpc(i))*coeffg (:,1:numpc(i))');
end

[coeffb,scoreb,~] = pca(double(imgb),'Centered',false);
for i=1:nn
    imgRCb(:,:,i)=uint8(scoreb(:,1:numpc(i))*coeffb (:,1:numpc(i))');
end

for i=1:nn
    imgRC(:,:,:,i)=cat(3,imgRCr(:,:,i),imgRCg(:,:,i),imgRCb(:,:,i));
end


figure;
subplot(nn+1,4,1); imshow(img); ylabel('Original')
subplot(nn+1,4,2); imshow(imgr); title('Red')
subplot(nn+1,4,3); imshow(imgg); title('Green')
subplot(nn+1,4,4); imshow(imgb); title('Blue')

for i=1:nn
    subplot(nn+1,4,4*i+1); imshow(imgRC(:,:,:,i)); ylabel(num2str(numpc(i)))
    subplot(nn+1,4,4*i+2); imshow(imgRCr(:,:,i));
    subplot(nn+1,4,4*i+3); imshow(imgRCg(:,:,i));
    subplot(nn+1,4,4*i+4); imshow(imgRCb(:,:,i));
end

[filepath,namein,ext] = fileparts(imagefile);
for i=1:nn
    nameout=strcat(namein,num2str(numpc(i)));
    outfilespec=fullfile(filepath, strcat(namein,num2str(numpc(i)),ext));
    imwrite(imgRC(:,:,:,i),outfilespec);
end

这里采用10,20,50级分别展开,按照R,G,B三个通道分别展开其执行结果如下图,级数越高,越接近真实图形,同时图像也越大。这里当 Centered 设置为 false ,pca 不会对数据进行中心化。可以使用 score*coeff 重新构造原始数据。如果不指定,默认值为true。pca 通过在计算奇异值分解或特征值分解之前减去列均值,将 X 中心化。如果 X 包含 NaN 缺失值,则使用 mean(X,'omitnan') 计算所有可用数据的均值。使用 score*coeff' 重新构造中心化的数据。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言

    Powered By Z-BlogPHP 1.7.4

    蜀ICP备2024111239号-43