1.4 矩阵、优化和概率分布

习题1.6 教材附录A中介绍了矩阵的性质.随机矩阵(stochastic matrix)和双随机矩阵(doubly stochastic matrix)在机器学习中经常出现,常用于运筹学、经济学、交通运输等不同领域中[6].其定义如下:

定义1.1(随机矩阵)

设矩阵X∈ℝd×d是非负矩阵,第i行第j列元素为xij.如果X满足

矩阵每行和为1.

则称矩阵X为随机矩阵(stochastic matrix).如果X还满足

矩阵每列和为1.

则称矩阵X为双随机矩阵.

对于双随机矩阵X∈ℝd×d,回答以下问题:

1.定义矩阵X的统计量试证明:HX)≤dlogd.

2.矩阵谱半径(spectral radius)的定义为特征值取模后的最大值:请证明X的谱半径ρX)=1,且1是X的特征值.

证明过程中可基于Perron-Frobenius定理.

定理1.1(Perron-Frobenius定理)

对于非负矩阵X

解答

1.证明 考虑到函数fx)=-xlogx是凹函数,即对于t∈[0,1]满足ftx1+(1-tx2)≥tfx1)+(1-tfx2),由Jensen不等式(教材式(12.4)),有

为了使用Jensen不等式,在第一个等式中引入了d2因子,使求和过程中权重之和为1.最后的等式应用了双随机矩阵X的性质

习题注释 本小题考查Jensen不等式的应用.Jensen不等式在机器学习的很多定理中出现,用于针对凸函数或凹函数的结果进行放缩,需要熟练掌握.矩阵统计量H的定义与信息熵(information entropy)一致,在第4章决策树习题4.2中将证明类似的性质.

本小题的证明过程是从夹逼的思路入手,通过证明左右均为1从而推导出谱半径为1.

2.证明 由关于非负矩阵的广义Perron-Frobenius定理可知,对于非负矩阵X

因为X是双随机矩阵,因此有ρX)=1.同时注意到X·1=1·1,因此1是X的特征值.

1表示取值全为1的向量.

习题1.7 矩阵范数将向量范数的定义推广至ℝm×n空间.和向量的Lp范数类似,矩阵的Lp范数也与矩阵中各分量的信息密切相关.令aij是矩阵A∈ℝm×n的第i行第j列的分量,则

1)p=1时,

2)p=2时,此时定义的范数又称为Frobenius范数(简称F范数,参考教材附录A.1),记作

在讨论矩阵范数时,也关注其自相容性.

定义1.2(自相容性)

如果对于可乘的有限维矩阵AB‖AB‖≤|A‖‖B‖成立,则称矩阵范数 · 是自相容的‖.‖

请回答以下问题:

1.对于任意的正交矩阵U∈ℝm×mV∈ℝn×n,证明

2.一般的矩阵范数并不具有自相容性,定义矩阵范数,证明其不是自相容的矩阵范数.

3.证明矩阵的F范数是自相容的.

解答

1.证明

其中式(1.14)到式(1.15)的变换利用了正交矩阵的性质,即VV=InUU=Im,其中InIm分别为大小为n×nm×m的单位矩阵.而式(1.16)中等号成立的原因是利用了矩阵的迹的性质,即tr(AB)=tr(BA).□

2.证明

则有

考虑该范数,此时‖AB‖=2,‖A‖|B‖=1,不满足自相容条件.因此矩阵范数不是自相容的矩阵范数.□

3.要证明矩阵的F范数是自相容的,首先证明Cauchy不等式.

定理1.2( Cauchy不等式)

ab∈ℝn,则有

当且仅当ab线性相关时,取等号.

证明ab∈ℝn,下面分两种情况讨论.

如果ab线性相关,则存在k∈ℝ,满足a=kb,将结果代入式(1.21),得到

如果ab线性无关,则定义v∈ℝn,满足,因此vb正交.将a的范数平方展开,由于vb正交,有

类似勾股定理.

考虑范数非负性,有

基于向量的Cauchy不等式,下面证明矩阵的F范数是自相容的.

证明A∈ℝm×nB∈ℝn×p,则

在线性无关情况下证明Cauchy不等式时,用到的技巧是Gram-Schmidt正交化,将其应用到列满秩矩阵中,就得到了矩阵的QR分解,这一技巧也被广泛地应用于以最小二乘为目标函数的线性回归(linear regression)问题求解中.

其中不等号利用了上述Cauchy不等式的结论.□

除此以外,矩阵的自相容性也可通过如下方式证明.

证明

其中第二个等号利用了矩阵迹的定义.要证明上述结论,则只需证明

注意到(AA)和(BB)都是对称半正定矩阵.因此,它们可以被对角化,表示为

其中UV是正交矩阵,且ΣAΣB是具有对应矩阵(AA)和(BB)非负特征值的对角矩阵.再次使用矩阵迹的定义,可以将式(1.27)的左式改写为

具有非负对角值的对角矩阵D应当具有以下性质:

1)在任何D的正交变换下,得到的矩阵都具有非负对角值.

性质2的证明可以通过对矩阵迹的计算公式进行展开得到,其中tr(MD)的每一项均包含在tr(M)·tr(D)中.

2)如果M是具有非负对角值的方阵,则tr(MD)≤tr(M)·tr(D).综合以上两个性质,可知

习题注释 易证Cauchy不等式可以推广到矩阵形式.利用类似的方式,本题中Cauchy不等式可推广到如下矩阵的形式(首先定义矩阵Frobenius内积).

定理1.3(矩阵Frobenius内积)

AB∈ℝm×n,其Frobenius内积定义为

Frobenius内积是对矩阵逐分量相乘再求和,因此满足内积的定义.类似于向量内积,矩阵内积也可以表示矩阵和矩阵之间的夹角.

定理1.4(矩阵范数的Cauchy不等式)

AB∈ℝm×n,则有

其中|〈AB〉|是Frobenius内积.当且仅当AB线性相关时,等号成立.

习题1.8 对于矩阵A∈ℝm×d,rank(A)表示矩阵A的秩.请问rank(AA)与rank(AA),rank(A),rank(A)以及dm之间有何关系?

解答

矩阵的秩之间的关系为

证明 根据矩阵的秩的定义,可知rank(A)=rank(A).构造两个线性方程组:

利用矩阵乘法的结合律,可以得到AAx)=0.所以Ax=0的解均为AAx=0的解.将式(1.35)两边同时左乘x,可得

AAx=0的解均为Ax=0的解.因此,AAx=0Ax=0具有相同的解空间,rank(AA)=rank(A).同理,可以证明rank(AA)=rank(A),再结合rank(A)=rank(A),式(1.33)得证.此外,由于rank(A)≤min(md),因此rank(AA)≤min(md.

本题矩阵的性质在习题10.3对主成分分析(PCA)的讨论中有进一步应用.

习题1.9 教材附录C介绍了常见的概率分布.给定随机变量X的概率密度函数如下:

1.请计算随机变量X的累积分布函数(Cumulative Distribution Function,CDF)FXx).

2.随机变量Y定义为Y=1/X,求随机变量Y对应的概率密度函数fYy).

3.试证明,对于非负随机变量Z,如下两种计算期望的公式是等价的:

同时,请分别利用上述两种期望公式计算随机变量XY的期望,并验证该结论.

解答

1.随机变量X的累积分布函数FXx)定义为

依式(1.40)可得

2.根据式(1.40),有下式成立:

从本题的分析可以看出,即使已知随机变量之间的映射关系,其概率密度分布并不具备相同的映射关系,而需要通过累积分布函数进行推导.

对两边求导,可得

依据本小题的结论,求解概率密度函数时可考虑借助累积分布函数,再进行求导.

因此,随机变量Y对应的概率密度函数fYy)为

3.证明

易见式(1.38)和式(1.39)等价.□

由上述结论可知,使用式(1.39)计算E[Y]:

由于式(1.46)第二项涉及了lnyy为∞时的取值,因此E[Y]不存在.

习题注释 概率密度函数的估计是机器学习后续内容中构造概率模型(probabilistic model)的重要一环.本题中对期望性质的证明技巧也可以辅助推导马尔可夫不等式(Markov Inequality),在机器学习理论推导中有广泛应用[7].对于第3小题的结论,请读者自行验证。

习题1.10 设向量x服从均值为0,协方差为Σ的正态分布,即xN0Σ),给定半正定矩阵M,定义,试证明

xM定义了在度量M下的一种范数,本题证明了随机变量在该空间中范数的上界.

证明 首先对进行变换,通过矩阵迹的性质,得到

因此有

由于是凹函数,式(1.48)利用了Jensen不等式.□

xMx=tr(xMx)成立是因为xMx是标量,与自身的迹相等.再进一步利用tr(AB)=tr(BA)的性质进行变换.