机器学习（五）：混合高斯聚类（求聚类标签）+PCA降维（3维降2维）习题

关键词

机器学习（五）：混合高斯聚类（求聚类标签）+PCA降维（3维降2维）习题

使用混合高斯模型 GMM，计算如下数据点的聚类过程：
$Data = np.array([1,2,6,7])$
均值初值为:
$\mu_1, \mu_2 = 1, 5$
权重初值为:
$w_1, w_2 = 0.5, 0.5$
方差:
$std_1, std_2 = 1, 1$
$K = 2$
10 次迭代后数据的聚类标签是多少？

采用python代码实现：

from scipy import stats
import numpy as np

#初始化数据
Data = np.array([1,2,6,7])
w1 , w2 = 0.5, 0.5
mu1 , mu2 = 1, 5
std1 , std2 = 1, 1

n = len(Data) # 样本长度
zij=np.zeros([n,2])
for t in range(10):
    # E-step 依据当前参数，计算每个数据点属于每个子分布的概率
    z1_up = w1 * stats.norm(mu1 ,std1).pdf(Data)
    z2_up = w2*stats.norm(mu2 , std2).pdf(Data)
    z_all = (w1*stats.norm(mu1 ,std1).pdf(Data)+w2*stats.norm(mu2 ,std2).pdf(Data))+0.001
    rz1 = z1_up/z_all # 为甲分布的概率
    rz2 = z2_up/z_all # 为乙分布的概率
    # M-step 依据 E-step 的结果，更新每个子分布的参数。
    mu1 = np.sum(rz1*Data)/np.sum(rz1)
    mu2 = np.sum(rz2*Data)/np.sum(rz2)
    std1 = np.sum(rz1*np.square(Data-mu1))/np.sum(rz1)
    std2 = np.sum(rz2*np.square(Data-mu2))/np.sum(rz2)
    w1 = np.sum(rz1)/n
    w2 = np.sum(rz2)/n
for i in range(n):
    zij[i][0] = rz1[i]/(rz1[i]+rz2[i])
    zij[i][1] = rz2[i]/(rz1[i]+rz2[i])

labels = np.argmax(zij, axis=1)#输出每一行的最大值，0或1  axis表示返回每一行中最大值所在列的索引
print(labels)

聚类标签输出结果：[0 0 1 1]

也就是说，10 次迭代后数据的聚类标签是1,2归为0类6,7归为1类

假设我们的数据集有 10 个 3 维数据, 需要用 PCA 降到 2 维特征。

array([
    [ 3.25, 1.85, -1.29],
    [ 3.06, 1.25, -0.18],
    [ 3.46, 2.68, 0.64],
    [ 0.3 , -0.1 , -0.79],
    [ 0.83, -0.21, -0.88],
    [ 1.82, 0.99, 0.16],
    [ 2.78, 1.75, 0.51],
    [ 2.08, 1.5 , -1.06],
    [ 2.62, 1.23, 0.04],
    [ 0.83, -0.69, -0.61]])

给出求解过程

解：

对所有的样本进行中心化:

\[x^{(i)}=x^{(i)}-\frac{1}{m} \sum_{j=1}^{m} x^{(j)}
\]

得到：

X=np.array([
     [ 1.147  0.825 -0.944]
     [ 0.957  0.225  0.166]
     [ 1.357  1.655  0.986]
     [-1.803 -1.125 -0.444]
     [-1.273 -1.235 -0.534]
     [-0.283 -0.035  0.506]
     [ 0.677  0.725  0.856]
     [-0.023  0.475 -0.714]
     [ 0.517  0.205  0.386]
     [-1.273 -1.715 -0.264]])

计算样本的协方差矩阵 $X X^{T} $

covM2=np.array([[1.26344556 1.08743889 0.32030889], 
[1.08743889 1.11076111 0.31611111],
[0.32030889 0.31611111 0.45449333]])

对矩阵 $X X^{T} $ 进行特征值分解

3.1求出特征值：

eigval=np.array([2.38219729 0.09637041 0.35013229])

3.2特征向量标准化：

eigvec=np.array([
[ 0.71144     0.67380165 -0.19961077],
[ 0.66498574 -0.73733944 -0.11884665],
[ 0.22725997  0.04818606  0.97264126]])

3.3取出特征值最大的2个特征值索引，也就是$[2.38, 0.35]$对应的第1列和第3列：

indexes=[2 0]

3.4特征向量矩阵W：(对eigvec取了第3列和第1列)

W=np.array([
[-0.19961077  0.71144   ], 
[-0.11884665   0.66498574], 
[ 0.97264126   0.22725997]])

对样本集中的每一个样本 $x^{(i)}$ , 转化为新的样本 $z^{(i)}=W^{T} x^{(i)}$ ,得到输出样本集 $D=\left(z^{(1)}, \ldots z^{(m)}\right) $

D=np.array([
     [-1.24517539  1.15010151]
     [-0.05630956  0.86819503]
     [ 0.49146125  2.29005381]
     [ 0.06174799 -2.1317387 ]
     [-0.1185103  -1.84827733]
     [ 0.55280596 -0.10961848]
     [ 0.6112806   1.15829407]
     [-0.74632697  0.13724149]
     [ 0.24787719  0.5918589 ]
     [ 0.20114923 -2.10611029]])

代码：

import numpy as np

X=np.array([
    [ 3.25, 1.85, -1.29],
    [ 3.06, 1.25, -0.18],
    [ 3.46, 2.68, 0.64],
    [ 0.3 , -0.1 , -0.79],
    [ 0.83, -0.21, -0.88],
    [ 1.82, 0.99, 0.16],
    [ 2.78, 1.75, 0.51],
    [ 2.08, 1.5 , -1.06],
    [ 2.62, 1.23, 0.04],
    [ 0.83, -0.69, -0.61]])

def pca(X, d):
    # Centralization中心化
    means = np.mean(X, 0)
    X = X - means
    print(X)
    # Covariance Matrix 计算样本协方差矩阵
    M=len(X)
    X=np.mat(X)    
    covM2=np.cov(X.T)
    # 求出特征值，特征值分解
    eigval , eigvec = np.linalg.eig(covM2)
    indexes = np.argsort(eigval)[-d:]
    W = eigvec[:, indexes]
    return X*W
print(pca(X, 2))

附注：

本文链接：http://task.lmcjl.com/news/5781.html

展开阅读全文

上一篇：循环神经网络(RNN)模型与前向反向传播算法下一篇：GAN学习笔记：生成对抗网络

热门文章排行

推荐文章

关键词

机器学习（五）：混合高斯聚类（求聚类标签）+PCA降维（3维降2维）习题