采用PCA的K-means聚类(4)

1.1.5 基于密度的聚类模型

在基于密度的聚类模型中，集群被定义为相比其余的数据集的高密度区域，在这些稀疏的区域，对象所需要的单独的集群通常被认为是噪声和边界点[4]。

最流行的基于密度的聚类模型算法是 DBSCAN。与许多较新的方法，具有一个良好定义的集群模型称为“密度可达性”。类似与基于连通性的聚类算法，它是基于连接在一定距离的阈值点。然而，它只是连接满足密度标准的点，满足密度标准的点在原始变量定义为在此半径内的其他对象的最小数目。一个集群包含所有密度连接对象加上在这些连接对象范围内的所有的对象。DBSCAN 的另一个有趣的特性是，它的复杂性是相当低的，它需要一个线性数量范围内的数据库查询，它在每次运行中会发现本质上相同的结果，因此不需要运行多次。

1.2 主成分分析

1.2.1 主成分分析概述

在多元统计分析中，主成分分析（英语：Principal components analysis，

PCA）是一种分析、简化数据集的技术[28]。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

主成分分析由卡尔·皮尔逊于 1901 年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）与它们的权值（即特征值）。主成分分析是最简单的以特征量分析多元统计分布的方法[17]。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大？换而言之，主成分分析提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的，即这样降低维度必定是失去信息最少的方法。主成分分析在分析复杂数据时尤为有用，比如人脸识别。

主成分分析是最简单的以特征量分析多元统计分布的方法。通常情况下，这种运算可以被看作是揭露数据的内部结构，从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来，那么主成分分析就能够提供一幅比较低维度的图像，这幅图像即为在信息最多的点上原对象的一个“投影”。这样就可以利用少量的主成分使得数据的维度降低了。

主成分分析跟因子分析密切相关，并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构，求得微小差异矩阵的特征向量。

1.2.2 奇异值分解

奇异值分解（singular value decomposition)是线性代数中一种重要的矩阵分解，在信号处理、统计学等领域有重要应用[9]。奇异值分解在某些方面与对称矩阵或自共轭矩阵基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性，但还是有明显的不同。对称阵特征向量分解的基础是谱分析，而奇异值分解则是谱分析理论在任意矩阵上的推广。

假设�是一个� × �阶矩阵，其中的元素全部属于域�，也就是实数域或复

数域。如此则存在一个分解使得：

� = � 采用PCA的K-means聚类(4):http://www.751com.cn/jisuanji/lunwen_77002.html