理解矩阵与矩阵乘积(一)

线性代数中,有那么几个神秘又神奇的东西,总是让初学它的人琢磨不透,无法理解。今天讨论线性代数中第二个既基本又神奇的东西:矩阵的乘法。

回想起我们中学的那个时代,从初中到高中,数学课的内容完完全全是初等数学,纯粹的向量思想在数学课上不占有一席之地,中学阶段只有学习物理或复数的时候才能接触一点向量的身影。即使在最应该体现向量思想威力的地方,也因为只讨论二维的简单情形而省略掉了,只剩下纯粹的从几何角度推导代数性质,比如,直线方程,不是用向量法推导直线方程的一般形式,而是用定比分点;两直线垂直的条件,不是用向量内积为零,而是通过斜率的关系,等等。在中学唯一能够从数学课本中接触到的线性代数知识就只有一点点的行列式的简介,从解二元和三元一次方程组引入的行列式,而且属于选学内容,课堂上是不讲的。我当时看了看,觉得真是多此一举,既然一次方程组的解都已经用系数的符号表示出来了,为什么还要用行列式重新表示一遍?表达的内容没变,只是换了一套看上去工整漂亮的写法,有什么意义呢?

在这样的背景下,我进入大学,接触到一门蛮不讲道理的学科–高等代数。本来高中时看到用行列式表示方程的解已经够无聊了,到大学还要把这种无聊继续深入下去。为了一个小小的方程组,不惜动用人类最高的智商来创造一个个精致的概念,又是逆序数又是行列式,又是克莱姆法则,倒是得到了一个很漂亮的结果,但它到底有多少实用和理论的价值?

后来矩阵被定义出来了,那更是个无聊的东西,方程组还是原来那个方程组,只是把系数和未知数一分离,马上就出现了一个新的概念–矩阵。难道就非得把系数单独抽取出来变成矩阵的形式才能用高斯消元法解方程?它不就是方程之间加加减减的过程吗,即便带着未知数又能有多大的妨碍呢?带着未知数就不能讨论方程组的通解了?还定义矩阵的乘积,又把方程组写成一个矩阵和一个向量的乘积,我当时觉得实在是吃饱撑的!方程组还是那个方程组,换一种写法有什么不同?我思考它的时候还是需要把它还原为方程组的样子,倒是费了二遍力。是谁第一个引入了矩阵的概念?他的原始动机到底是什么?他似乎只是为了形式上的化简,并没有引入什么新的观念。但是巧的是这个人的一个无聊发明,竟然发展出一门学科来!不光方程组可以归结为矩阵的乘积,就连二次曲线、二次曲面,也表示成矩阵乘积了,矩阵和它们的乘积系统慢慢地脱离了方程组的范围,开始向其它方向渗透了,并且充斥了数学的大部分江山。这一切是为什么?难道这一切都在矩阵发明者的预料之中?如果发明矩阵的人意识到矩阵将来必有这些重大作用,那么他是怎么想到矩阵的这些应用的?他真的如此天资聪明?如果不是这样,那他为什么要发明矩阵这个东西?难道仅仅是偶然?可是这偶然之举为什么后来又如此巧合地展开出这么多理论?这些问题至今还是想不通。

但是今天的话题只是讨论矩阵和矩阵乘积,所以刚才把话题扯远了。每当想起大一时的代数课,我都要发一些牢骚,可见当时代数给我的影响有多深远!

关于矩阵乘积,比较老旧思想的教材不介绍矩阵乘积有什么意义,为什么要引入矩阵的乘积,只是叙述无端的定义:两个矩阵 \( A_{m\times n}, B_{n\times r}\) 的乘积定义为一个 \( m\times r\) 阶矩阵 C,C 的第 i 行第 j 列的元素是 A 的第 i 行和 B 的第 j 列元素分别相乘并相加的和,即 \[c_{ij}=\sum_{k=1}^n a_{ik}b_{kj}\]

稍微好一点的教材会介绍一些线性映射复合的背景:有三组未知数 \( x=(x_1,x_2,\dots,x_n)^T\)、\( y=(y_1,y_2,\dots,y_m)^T\) 和 \( z=(z_1,z_2,\dots,z_r)^T\),用 \( y_i\) 表示 \( z_i\) 的系数矩阵为 \( A\),用 \( x_i\) 表示 \( y_i\) 的系数矩阵为 \( B\),即
\( z=Ay, y=Bx\)
那么怎样用 \( x_i\) 来表示 \( z_i\)?
经过计算,\( z\) 的第 i 个分量 \( z_i\) 可以写成 \[z_i=\sum_{k=1}^m a_{ik} y_k=\sum_{k=1}^m a_{ik}\sum_{j=1}^n b_{kj} x_j=\sum_{j=1}^n(\sum_{k=1}^m a_{ik} b_{kj})x_j\]
即 \( z_i\) 表示成未知数组 \( x\) 的第 j 个分量 \( x_j\) 的系数是 \[\sum_{k=1}^m a_{ik} b_{kj}\] 因此定义两个矩阵 \( A\) 和 \( B\) 的乘积如上所述。

第一种讲述就是从第二种讲述的思想方法来的,却连定义的背景和来历什么的都没有讲,这显然是十分唐突的。况且这两种矩阵乘积定义的讲述都只是蛮力运算,如果只是为了定义出矩阵乘法的表达式,这两种讲述方式尚可接受,尤其是第二种讲法,提及了矩阵乘法就相当于两个线性变换的复合。但是接下来,要接触到矩阵乘法的更深层次的规律时,这样定义出的矩阵乘法就显得有些奇怪了。

比如,证明两个矩阵乘积的秩定理 \( \mathrm{rank}\,(AB)\le\mathrm{min}\{\mathrm{rank}\,A,\mathrm{rank}\,B\}\),乘积 \( AB\) 的每一列都是 \( A\) 的每一列的线性组合,每一行都是 \( B\) 的每一行的线性组合,从而证明这个不等式。但是,请问您是怎么从一大堆数的计算式子中看出这些关系的?我为什么就没看到?我不但没有看到,就算人家给我指出这种关系,我要想看清这些关系还是要费九牛二虎之力的。如果一个东西我理解起来感觉吃力,那么我会本能地考虑是否是我理解它的方式有问题,它应该还有另外一些更省力的理解途径,或者说,这个东西缺乏直观,如果我能直观地理解它,那么我就可以接受它。所以我想,还是应该有更加便捷的途径可以得到这些关系。其实这个不等式如果从映射复合的值域维数角度看应该是比较简单的,可惜的是当初除了矩阵,没有其它方式可以导出这个结果,向量空间的内容还没有学习到。

再比如,矩阵的分块乘法,为什么分块之后乘法的规则和把每一块看成数的乘法规则是一样的?

又比如,学过内积的坐标计算表达式后,学生会惊奇地发现,矩阵乘法的每个元素都是一个内积,为什么会是这样?内积和矩阵乘法之间为什么会有这么大联系?

面对这些问题,我知道很多人,包括很多老师都会告诉我,这些都是计算的结果,计算的过程书上写的明明白白,没必要去深究它背后有什么机理,只要能够确信这些结论,不用去管这些结论是如何得到的。

但是,我总是觉得,这样的推辞无异于填鸭式教育,蛮不讲理,让人生厌,甚至可能把一个曾经喜爱数学的人搞得从此厌恶这样的无理数学。因为第一,这些东西显得过于巧合了,计算无法解释这些巧合背后是否有更深层次的原因;第二,即使是计算得来的,还是无法解释这些计算的动机是什么,这些计算的结果是如何发现的?总应该有个自然点的理由能够说明为什么某人会去考察这些计算过程并得出结论的吧?总不能说一个人某一天没什么事情闲得无聊了就开始算,然后就发现了某些东西吧?他为什么就能看得那么远就知道他计算的东西最终能带给他不平凡的结果?告诉我一个东西却没有告诉我这个东西是如何发现的,那我怎么能有信心沿着前人的足迹向前探索呢?

今天分析当初的困难,多是因为没有整体思维,无法把矩阵当成一个整体来思考,见到向量可以想到那是空间中的一个箭头,但见到矩阵和矩阵乘法,完全想象不到它的整体是个什么东西,我只能想到它的每个元素就是一堆数经过一堆运算得到的结果。看到书上写的矩阵乘法,我的头脑里就出现了它的运算过程的动画:左边一横,右边一竖,左边一横,右边一竖,除此之外想象不到其他的东西了。听说某位数学家摆弄矩阵就像摆弄整数一样熟练,我当时也试图找到把矩阵当成一个整体的感觉,可是在没有空间直觉支持的情况下这种努力是见不到明显效果的。而且从前思考的都是低维空间的问题,对一维二维空间很熟悉,很少考虑高维空间的问题,对高维空间即不熟悉也不习惯,又没有外人指点矩阵代数究竟有什么几何意义,即使是在低维空间中,也没有用矩阵处理几何问题的经验,所以当时一直冷落代数。

现在觉得,为了培养高维空间对象的整体思维方式,一方面就是加强代数的几何直观,另一方面就是站在变换的角度统一抽象地处理矩阵,而不是仅仅把矩阵只当成一堆数的阵列,用线性变换的观点认识矩阵乘法,而不是把矩阵乘法当成一堆数又乘又加的运算。

基于这种原因,我们将以映射的观点重新认识矩阵与矩阵的乘法。

(待续)

Linear Algebra Done Right第六章注记和部分习题

注记部分:

1 有关”毕达哥拉斯”定理的内积证明

用向量计算的方法为什么能够证明毕达哥拉斯定理?它背后的原理和实质是什么?这部分内容见文章《用向量的内积证明勾股定理–体会代数的威力》

2 平行四边形法则与毕达哥拉斯定理–内积与范数

泛函分析中有一条著名定理,在一个赋范空间中只要一个范数满足平行四边形法则,那么它就是由某个内积诱导出来的,即可以找到一个内积使得每个向量的范数等于这个向量和自己内积的算术平方根。
那么平行四边形法则的实质又是什么?它和毕达哥拉斯定理又有什么关系?这部分内容见文章《平行四边形法则与勾股定理–内积与范数》

3 正交补空间性质 \( V=U\oplus U^\perp\) 的另一种推导

利用”有限维空间的任何一个非平凡的子空间都有非平凡的正交补空间”可以推导出这个性质。因为
假设 \( V\not=U+U^\perp\),那么因为 \( U+U^\perp\) 有正交补空间不等于 \( \{0\}\),取 \( v\in (U+U^\perp)^\perp, v\not=0\),那么 \( v\) 就垂直于 \( U\) 中的任何向量,根据正交补的定义,应该有 \( v\in U^\perp\),但是 \( v\) 还垂直于 \( U^\perp\),因此只能 \( v=0\),矛盾。

不过,相比于书上的证明,这个证明有个缺点:只适用于 \( U\) 和 \( U^\perp\) 都是有限维的情形,在后面讨论的 \( \sin x\) 的逼近问题中这个证明不适用。

4 定理6.45的矩阵证明

定理6.45:设 \( \varphi\) 是 \( V\) 上的线性函数,那么存在唯一一个 \( v\in V\) 使得 \( \forall u\in V, \varphi(u)=\langle u,v\rangle\)。

本章对这个定理的证明很简洁明快,但是我在理解它的时候想到了另外一种视角:矩阵视角。

证明:将数域 \( F\) 看成是它本身的向量空间,那么这个向量空间就是一维的。在一组基底下从 n 维向量空间到一维向量空间的任何线性映射都有 1xn 阶矩阵与之对应,即 \( \varphi\) 可以表示为如下形式:

\( \varphi(x)=\begin{pmatrix}a_1&a_2&\dots&a_n \end{pmatrix}\begin{pmatrix}x_1\\ x_2\\ \vdots\\ x_n\end{pmatrix}\)

当所选取的 \( V\) 的基底是标准正交基底时,这个表达式又恰好是个内积表达式!它的值恰好等于 \( x\) 与

\( \bar{a}=\begin{pmatrix}\bar{a_1}\\ \bar{a_2}\\ \vdots\\ \bar{a_n}\end{pmatrix}\)

的内积。证毕。

其实追溯起来,这两种证法完全一样,因为这里的 \( a\) 代表的向量就是 \( \sum_{i=1}^n\varphi(e_i)\)。但是,这样理解之后,就把内积和矩阵的乘积联系在一起了。

部分习题解答:

17 证明如果 \( P\in \mathcal{L}(V)\) 满足 \( P^2=P\) 并且 \( \mathrm{null}\,P\) 中的任何向量都垂直于 \( \mathrm{range}\,P\) 中的任何向量,那么 \( P\) 是个正交投影映射。
证明:满足 \( P^2=P\) 的线性变换,它的值域与零空间满足
\( \mathrm{range}\,P\oplus\mathrm{null}\,P=V\)
因为值域中的任何向量 \( v=Pu\),如果也在零空间中,即 \( Pv=P^2u=Pu=0\),那么可见 \( v=0\)。再根据秩-零度定理得上式。
那么由题设条件,有 \( \mathrm{null}\,P=(\mathrm{range}\,P)^\perp\)
那么 \( \forall v=Pu+w, Pu\in\mathrm{null}\,P, w\in\mathrm{range}\,P\),有 \( Pv=P^2u=Pu\),这说明 \( v\) 在 \( P\) 的作用下相当于 \( v\) 向 \( \mathrm{range}\,P\) 的正交投影。

18 证明如果 \( P\in \mathcal{L}(V)\) 满足 \( P^2=P\) 并且 \( \|Pv\|\le\|v\|\),那么 \( P\) 是个正交投影映射。
证明:根据上题,有\( \mathrm{range}\,P\oplus\mathrm{null}\,P=V\) 。
那么任意向量 \( v=Pu+aw\),有 \( Pv=P^2u=Pu\),且因为 \( \|Pu\|\le\|Pu+aw\|\),根据习题2,得 \( Pu\perp w\),这说明值域中的任意向量(Pv)与零空间中任意向量(w)相互垂直,根据上题,得结论。

20 设 \( T\in\mathcal{L}(V)\) 且 \( U\) 是 \( V\) 的子空间。证明 \( U\) 和 \( U^\perp\) 都是 \( T\) 的不变子空间当且仅当 \( P_UT=TP_U\)。
证明:如果 \( U\) 和 \( U^\perp\) 都是 \( T\) 的不变子空间,那么任意向量 \( v=u+w, u\in U,w\in U^\perp\),有 \( P_UTv=P_U(Tu+Tw)=Tu=TP_Uv\)。
如果 \( P_UT=TP_U\),那么 \( P_{U^\perp}T=T-P_UT=T-TP_U=TP_{U^\perp}\),并且 \( \forall u\in U, Tu=TP_Uu=P_UTu\in U\)。同理可证正交补也是不变子空间。

26 取定一个向量 \( v\in V\),定义 \( T\in\mathcal{L}(V, F)\) 为 \( Tu=\langle u,v\rangle\)。对于 \( a\in F\),找到 \( T^*a\) 的表达式。
解:(本题可以用矩阵分析或内积表达式分析)
因为 \( \langle u,T^*a\rangle=\langle Tu,a\rangle=\langle \langle u,v\rangle,a\rangle=\langle u,av\rangle\),故 \( T^*a=av\)。

28 设 \( T\in\mathcal{L}(V), \lambda\in F\)。证明 \( \lambda\) 是 \( T\) 的特征值当且仅当 \( \bar{\lambda}\) 是 \( T^*\) 的特征值。
证明:\( \lambda\) 是 \( T\) 的特征值当且仅当 \( T-\lambda I\) 不可逆,即 \( \mathrm{null}\,(T-\lambda I)\not=\{0\}\),当且仅当 \( \mathrm{range}\,(T^*-\bar{\lambda}I)=\mathrm{null}\,(T-\lambda I)^\perp\not=V\),表明 \( T^*-\bar{\lambda}I\) 不可逆。

平行四边形法则与勾股定理–内积与范数

所谓的范数,就是向量长度这个概念在一般向量空间中的推广。简单地讲就是从向量空间 \( V\) 到数域 \( \mathbf{F}\) 的一个函数 \( |\cdot|\),满足如下条件:
1) \( \forall v\in V,|v|\ge 0\),并且 \( |v|=0\) 当且仅当 \( v=0\)。
2) \( |av|=|a| |v|\)
3) \( |u+v|\le |u|+|v|\)

在一个内积空间中,由内积表达式 \( \sqrt{\langle v,v\rangle}\) 就可以定义出一个范数,这个范数称为由内积诱导的范数。

不是所有的范数都是由内积诱导出来的。例如,在 \( \mathbb{R}^2\) 中,定义范数 \( |(x,y)|=|x|+|y|\),它确实是范数但没有内积可以诱导出这个范数。因为,内积诱导的范数满足平行四边形法则: \[ |u+v|^2+|u-v|^2=2|u|^2+2|v|^2\] 即平行四边形四边的平方和等于两对角线的平方和。而上面举的例子显然不满足这个特性。

那么是不是一个范数只要满足平行四边形法则,它就必然是由某个内积诱导出来的呢?答案是肯定的。证明见下面。

那么平行四边形法则到底是什么东西?为什么有这么大的魔力,使它成为一个范数是否有内积背景的唯一门槛?

Continue reading

Linear Algebra Done Right第五章注记和部分习题

注记部分:

1 不同特征值对应的特征向量线性无关的证明

在第一章注记中已经说明,如果对每个 \( k=2,3,4,\dots,n\),都有 \( (V_1+V_2+\dots+V_{k-1})\cap V_k=\{0\}\) ,那么子空间 \( V_1,V_2,\dots,V_k\) 的和是直和,从而在各个子空间中分别选取线性无关的向量,它们放在一起也是线性无关的。

这里,两个不同特征值所对应的特征子空间的交集显然是{0},这是因为 \( T\) 在这两个子空间中的作用是不同的,不可能存在一个非零向量经过 \( T\) 的变换之后既是原来的 \( \lambda_1\) 倍又是原来的 \( \lambda_2\) 倍。
接下来就是仿此用数学归纳法证明 \( (V_1+V_2+\dots+V_{k-1})\cap V_k=\{0\}\)。因为 \( V_1\oplus V_2\oplus\dots\oplus V_{k-1}\) 是直和,其中的任何一个非零向量可唯一分解为 \( v=v_1+v_2+\dots+v_{k-1}\),经过 \( T\) 变换之后变成 \( \lambda_1v_1+\lambda_2v_2+\dots+\lambda_{k-1}v_{k-1}\),然后用直和的性质证明这是 \( Tv\) 表示成 \( v_1,v_2,\dots,v_{k-1}\) 线性组合的唯一方式,从而不可能出现在 \( V_k\) 中。

2 不变子空间的一些性质

以下几个命题是比较显然的:

命题1:设 \( U, V\) 是 \( T\) 的两个不变子空间,那么它们的和 \( U+V\)、它们的交 \( U\cap V\) 也是 \( T\) 的不变子空间。

命题2:设 \( U\) 是 \( T\) 和 \( S\) 的不变子空间,那么 \( U\) 也是 \( T+S\)、\( TS\) 和 \( ST\) 的不变子空间。

推论3:设 \( U\) 是 \( T\) 的不变子空间,\( p(z)\) 是数域 \( \mathbf{F}\) 上的多项式,那么 \( U\) 也是 \( p(T)\) 的不变子空间。

在分析线性变换的过程中,非平凡的不变子空间是很珍贵的,通过这几个命题,我们可以用已有的珍贵的非平凡不变子空间再构造出更多的非平凡不变子空间。比如,如果 \( T\) 不可逆,那么 \( \mathrm{null}\,T\)、\( \mathrm{range}\,T\) 都是非平凡的不变子空间。从而 \( \mathrm{null}\,T+\mathrm{range}\,T\)、\( \mathrm{null}\,T\cap\mathrm{range}\,T\) 等等都是 \( T\) 的不变子空间,从而也是 \( p(T)\) 的不变子空间。(尽管这样做也可能无法得到新的非平凡的不变子空间)

3 “复数空间上线性变换都可表示成上三角矩阵”的证明

本章对这个定理的证明中,在假设结论对所有小于 \( \mathrm{dim}\,V\) 维的空间都成立并证明结论对 \( V\) 也成立的时候,先将 \( T\) 已知的一个一维特征子空间搁置一旁,转而考虑 \( \mathrm{range}\,(T-\lambda I)\),这是 \( T\) 的不变子空间,且维数小于 \( \mathrm{dim}\,V\),但是不一定只比 \( V\) 小一维,它的维数取决于 \( \mathrm{null}\,(T-\lambda I)\) 的维数。这样就给分析的思路增加了一些难度和不确定性。当然,幸运的是最后还是顺利地完成了证明,让人觉得这个证明太巧妙了,怎么最初就能想到要考察 \( \mathrm{range}\,(T-\lambda I)\) 呢?
但是仿照第九章证明实数空间类似性质的定理的证明方法,可以做出一个更朴实更自然的证明。
证明:假设在维数小于 \( \mathrm{dim}\,V\) 的空间上的所有线性变换都可以找到一组基底使得其对应的矩阵是上三角阵,那么在 \( V\) 中的一个线性变换 \( T\),因为至少有一个特征值,也就可以找到一个一维的特征子空间 \( U\),再取子空间 \( W\) 使得 \( U\oplus W=V\)。这样 \( W\) 只比 \( V\) 少了一维 ,但是不一定是 \( T\) 的不变子空间。我们将 \( Tv\) 分解为 \( Tv=P_{W,U}Tv+P_{U,W}Tv\),在子空间 \( W\) 中可以找到一组基底 \( v_1,v_2,\dots,v_{\mathrm{dim}V-1}\) 使得线性变换 \( (P_{W,U}T)|_W\) 的矩阵是上三角矩阵,在 \( U\) 中取非零向量 \( u\),那么 \( T\) 在基底 \( u,v_1,v_2,\dots,v_{\dim V-1}\) 下依然是上三角矩阵(要看清这一点,只需考察基底的各个元素在线性变换 \( T\) 下的行为)。

4 “奇数维空间上的线性变换必有特征值”的证明

本章的证明方法在本章看来技巧性显得太强了。但其实,如果看到第九章再回过头来看这个定理,是比较显然的。因为不管是实数向量空间还是复数向量空间,线性变换的矩阵都可以是分块上三角矩阵,且对角线上每一块都是1×1或2×2阶的矩阵。那么对于奇数维空间,分块上三角矩阵的对角线上不可能都是2×2阶的矩阵,从而线性变换必然有一维的不变子空间。本章不能直接引用第九章的结论,所以本章的证明其实是利用了第九章的思维方法。现在,我把它写得跟第九章的方法更接近一些,也显得更平易近人一些。
证明:对于一维空间的情形,很显然命题是成立的。假设命题对于维数小于 \( \dim V\) 的奇数维空间都成立,现证明命题对奇数维空间 \( V\) 也成立。可以取一个一维或二维的不变子空间 \( U\)。如果 \( U\) 是一维的,那么命题得证,如果 \( U\) 是二维的,那么朝着证明 \( T\) 有分块上三角矩阵的方向(也是本命题递归的需要),取 \( W\) 使得 \( V=U\oplus W\),然后将 \( Tv\) 写为 \( Tv=P_{U,W}Tv+P_{W,U}Tv\)。如果要证明\( T\) 有分块上三角矩阵,那么接下来的分析方向是应用递归假设取一组基底使得 \( (P_{W,U}T)|_W\) 的矩阵是分块上三角矩阵。但这里因为要尽快证明 \( T\) 特征值存在,我们把 \( (P_{W,U}T)|_W\) 的一个特征向量 \( v\) 优先取过来,那么 \( U\oplus\{av\,|\,a\in F\}\) 就形成了 \( T\) 的一个不变子空间。取 \( U\) 的基底 \( u_1,u_2\),那么 \( T|_{U\oplus\{av\,|\,a\in F\}}\) 在 \( u_1,u_2,v\) 这组基底下的矩阵是如下形式的:
\( \begin{pmatrix}a&b&c\\ d&e&f\\ 0&0&\lambda\end{pmatrix}\)
从这个矩阵中可以很容易看出 \( \lambda\) 就是特征值,因为 \( T-\lambda I\) 将一个三维空间映射成了二维空间。这一点类似于”上三角矩阵的对角线元素都是特征值”的证明。

其实我觉得既然在本章中证明了复数空间线性变换的矩阵可以上三角化,那么实数空间相应的结论也应该放在这一章,这样既显得结构合理,又不至于使某些定理的证明看上去那么奇巧。

部分习题解答:

4 设 \( S,T\in \mathcal{L}(V)\) 且 \( ST=TS\),证明 \( \mathrm{null}\,(T-\lambda I)\) 是 \( S\) 的不变子空间。
证明:设 \( v\in\mathrm{null}\,(T-\lambda I)\),那么 \( (T-\lambda I)v=0\),由 \( ST=TS\),得
\( (T-\lambda I)Sv=S(T-\lambda I)v=0\) 即 \( Sv\in\mathrm{null}\,(T-\lambda I)\)。

11 设 \( S,T\in \mathcal{L}(V)\),证明 \( ST\) 和 \( TS\) 有相同的特征值。
证明:只需证明 \( ST\) 的特征值都是 \( TS\) 的特征值。取非零向量 \( v\),因为当 \( STv=\lambda v\) 时,\( TSTv=\lambda Tv\)。如果 \( Tv\not=0\),那么我们可以判断 \( Tv\) 就是 \( TS\) 对应 \( \lambda\) 的特征向量;如果 \( Tv=0\),那么相应地 \( \lambda=0\),需要证明 \( TS\) 也有特征值0。因为 \( T\) 不可逆,所以 \( TS\) 不可逆,故 \( TS\) 有特征值0。

13 设 \( T\in \mathcal{L}(V)\),任何一个维数为 \( \mathrm{dim}\,V-1\) 的子空间都是 \( T\) 的不变子空间,证明 \( T=aI\)。
证明:当 \( V\) 的维数小于3时,结论显然成立。当维数大于等于3时,设 \( v\in V, v\not=0\),将 \( v\) 扩充为 \( V\) 的一个基底 \( v,e_1,e_2,\dots,e_n\)。考察 \( Tv=av+a_1e_1+\dots+a_ne_n\),我们每次去掉一个 \( e_i\) 取剩下的基底元素张成一个 \( n=\mathrm{dim}\,V-1\) 维子空间 \( U_i=\mathrm{span}(v,e_1,\dots,e_{i-1},e_{i+1},\dots,e_n)\),因为它是不变子空间,所以 \( Tv\in U_i\),故 \( a_i=0\),因此 \( Tv=av\)。仿照第三章习题24中的做法证明 \( T=aI\)(参见本章第12题)。

15 设 \( \mathbf{F}=\mathbf{C}, T\in \mathcal{L}(V), p\in P(C), a\in C\),证明 \( a\) 是 \( p(T)\) 的特征值当且仅当存在某个 \( T\) 的特征值 \( \lambda\),有 \( a=p(\lambda)\)。
证明:如果有某个 \( T\) 的特征值 \( \lambda\) 满足 \( p(\lambda)=a\),\( \lambda\) 对应的特征向量为 \( v\),那么 \( p(T)v=p(\lambda)v=av\),\( a\) 是 \( p(T)\) 的特征值。
如果 \( a\) 是 \( p(T)\) 的特征值,其特征向量为 \( v\),那么 \( p(T)v-av=0\),将 \( p(T)-aI\) 分解为一次因式的乘积,有 \( (T-x_1)(T-x_2)\dots(T-x_m)v=0\),那么必有某个 \( x_i\) 使得 \( T-x_iI\) 不可逆,从而 \( x_i\) 是 \( T\) 的某个特征值。而 \( x_i\) 又是方程 \( p(x)=a\) 的根,从而证得必要性。

16 上面一题的结论当 \( \mathbf{C}\) 替换成 \( \mathbf{R}\) 时不成立。
证明:在 \( \mathbf{R}^2\) 上的逆时针旋转 \( \frac{\pi}{2}\) 的旋转变换 \( T\),-1是 \( T^2\) 的特征值,但 \( T\) 本身没有实数特征值。

21 设 \( P\in \mathcal{L}(V)\) 且 \( P^2=P\),证明 \( V=\mathrm{null}\,P\oplus\mathrm{range}\,P\)。
证明:根据秩-零度定理,只需证明 \( \mathrm{null}\,P\cap\mathrm{range}\,P=\{0\}\)。
设 \( v\in\mathrm{null}\,P\cap\mathrm{range}\,P\),那么 \( v=Pu\),且 \( Pv=0\)。因为 \( P^2=P\),所以 \( v=Pu=P^2u=Pv=0\)。

Linear Algebra Done Right第三章注记和部分习题

注记部分:

1 线性无关性和线性相关性在线性映射作用下的表现

你可能听说过向量空间同构这个概念,两个向量空间 U 和 V,如果它们之间存在可逆的线性映射 T,那么这两个向量空间同构。
从向量空间本身的性质来讲,两个同构的向量空间可以不分你我,对应的向量之间有相同的线性关系,整个空间的维数也相同。
设 \( u_1,u_2,\dots,u_r\in U\),那么 \( u_1,u_2,\dots,u_r\) 线性相关(无关),当且仅当 \( Tu_1,Tu_2,\dots,Tu_r\) 也线性相关(无关)。这是因为,\( T\) 和 \( T^{-1}\) 都是线性映射,因此 \( a_1u_1+a_2u_2+\dots +a_ru_r=0\) 当且仅当 \( a_1Tu_1+a_2Tu_2+\dots +a_rTu_r=0\)。
那么,如果无法保证 \( T\) 是可逆的,我们只能保证当 \( u_1,u_2,\dots,u_r\) 线性相关时 \( Tu_1,Tu_2,\dots,Tu_r\) 也线性相关,或者当 \( Tu_1,Tu_2,\dots,Tu_r\) 线性无关时 \( u_1,u_2,\dots,u_r\) 也线性无关。这是很简单的道理。

那么当 \( T\) 不是单射时,如果 \( u_1,u_2,\dots,u_r\) 线性无关,什么时候可以保证 \( Tu_1,Tu_2,\dots,Tu_r\) 也是线性无关的呢?即还需要给 \( u_1,u_2,\dots,u_r\) 增加什么样的条件才能保证 \( Tu_1,Tu_2,\dots,Tu_r\) 线性无关?
欲使 \( Tu_1,Tu_2,\dots,Tu_r\) 线性无关,需要方程 \( a_1Tu_1+a_2Tu_2+\dots +a_rTu_r=0\) 没有非零解,而此即方程 \( T(a_1u_1+a_2u_2+\dots +a_ru_r)=0\)。欲使此方程没有非零解,需要当 \( a_1,a_2,\dots,a_r\) 不全为零时 \( a_1u_1+a_2u_2+\dots +a_ru_r\not\in \textrm{null }T\),也即 \( \textrm{span}(u_1,u_2,\dots,u_r)\cap \textrm{null }T=\{0\}\)。

因此,有下面的命题:

命题1: \( T\) 是从向量空间 \( U\) 到 \( V\) 的线性映射,\( u_1,u_2,\dots,u_r\in U\),那么当且仅当 \( u_1,u_2,\dots,u_r\) 线性无关,并且 \( \textrm{span}(u_1,u_2,\dots,u_r)\cap \textrm{null }T=\{0\}\) 时,\( Tu_1,Tu_2,\dots,Tu_r\) 线性无关。

从这个命题出发,不但能启发出值域-零度定理,还可以得到书上关于值域-零度定理的证明思路。并且,这个命题本身应该也是比较重要的。

2 反向思考值域-零度定理

如果不知道值域-零度定理,是否可以知道从低维空间到高维空间没有满的线性映射?
因为 \( Tu_1,Tu_2,\dots,Tu_r\) 线性无关时 \( u_1,u_2,\dots,u_r\) 也线性无关,这表明值域的维数不可能比定义域的维数大。

我们知道当取定义域中的一组基底 \( u_1,u_2,\dots,u_n\) 后,\( \textrm{range }T=\textrm{span}(Tu_1,Tu_2,\dots,Tu_n)\)。如果值域的维数比定义域的维数小,那么小了多少由什么来决定的呢?
我们知道在值域的维数比定义域小的时候 \( Tu_1,Tu_2,\dots,Tu_n\) 不可能线性无关。那么在 \( Tu_1,Tu_2,\dots,Tu_n\) 中选取极大线性无关组 \( Tu_1,Tu_2,\dots,Tu_r\) ,其它 \( Tu_i\) 可以用这 r 个向量线性表示,即 \( Tu_{r+i}=f_i(Tu_1,Tu_2,\dots,Tu_r)\) 也即 \( T(u_{r+i}-f_i(u_1,u_2,\dots,u_r))=0\)。因此 \( u_{r+i}-f_i(u_1,u_2,\dots,u_r)\in\textrm{null }T\)。设 \( v_i=u_{r+i}-f_i(u_1,u_2,\dots,u_r)\),注意到在定义域中,\( u_1,u_2,\dots,u_n\) 线性无关,因此 \( u_1,u_2,\dots,u_r,u_{r+1}-f_1(u_1,u_2,\dots,u_r),\dots,u_n-f_{n-r}(u_1,u_2,\dots,u_r)\) 也线性无关。而 \( v_i=u_{r+i}-f_i(u_1,u_2,\dots,u_r)\in\textrm{null }T\),因此 \( \textrm{null }T\supset \textrm{span}(v_1,v_2,\dots,v_{n-r})\)。接下来就是想办法证明 \( \textrm{null }T=\textrm{span}(v_1,v_2,\dots,v_{n-r})\),从而 \( \textrm{dim null }T=n-r\)。
\( \forall w\in\textrm{null }T, w=u+v\) 其中 \( u\in\textrm{span}(u_1,u_2,\dots,u_r), v\in\textrm{span}(v_1,v_2,\dots,v_{n-r})\)。那么有 \( v=w-u\in\textrm{null }T\)。因 \( Tu_1,Tu_2,\dots,Tu_r\) 线性无关,根据命题1,可知 \( v=0\)。这样就有 \( \textrm{null }T=\textrm{span}(v_1,v_2,\dots,v_{n-r})\),从而 \( \textrm{dim null }T=n-r\)。因此值域-零度定理成立。

当然,在历史上,这个值域-零度定理绝对不是从这样的抽象符号和理论的思考中得到的,早在线性代数发展的早期,人们的主要精力集中在对线性方程组的解结构的研究,人们可能是通过线性方程组系数矩阵的秩与解空间维数之间的关系看到了秩-零度定理,从而在后来推广到一般的线性映射上来的。

一个数域 \( K\) 上的有限维的线性空间,都同构于 \( K^n\),在有限维线性空间之间的映射也可以与数域上的矩阵构成空间同构,对线性映射零空间的研究也完全等同于对数域上的线性方程组的解空间的研究,那么为什么还会有这种抽象符号表达的线性代数体系呢?它是从什么时候开始出现,它的始作俑者又是谁?它存在的意义究竟有多大呢?

3 值域-零度定理与商空间

对值域-零度定理最透彻最符合直觉的解释是利用商空间和第一同构定理。这方面在一些线性代数书中已经涉及到(如李炯生、查建国版本《线性代数》),请在网络上搜索这方面的内容。

4 映射的逆、左逆与右逆(参见本章练习14与15)

设 \( f\) 是集合 \( M\) 到 \( N\) 的映射,\( i_M\) 和 \( i_N\) 分别是 \( M\) 和 \( N\) 上的单位映射。如果存在 \( N\) 到 \( M\) 的映射 \( g\) 使得 \( f\circ g=i_N\) 则称 \( g\) 是 \( f\) 的右逆,如果存在 \( N\) 到 \( M\) 的映射 \( h\) 使得 \( h\circ f=i_M\),则称 \( h\) 是 \( f\) 的左逆。

命题2: \( f\) 有左逆,当且仅当 \( f\) 是单射;\( f\) 有右逆,则 \( f\) 是满射。如果承认选择公理,那么 \( f\) 有右逆,当且仅当 \( f\) 是满射。
证明: 如果 \( f\) 有左逆,即存在 \( N\) 到 \( M\) 的映射 \( h\) 使得 \( h\circ f=i_M\),那么 \( f(x)=f(y)\Rightarrow (h\circ f)(x)=(h\circ f)(y)\Rightarrow x=y\)。这说明 \( f\) 是单射。
如果 \( f\) 是单射,我们可以构造 \( f\) 的左逆 \( h\) 如下:取定 \( x_0\in M\),\( \forall y\in N\),如果\( \exists x\in M,f(x)=y\),则定义 \( h(y)=x\),否则令 \( h(y)=x_0\)。这样定义的 \( h\) 就是 \( f\) 的左逆。
如果 \( f\) 有右逆,即存在 \( N\) 到 \( M\) 的映射 \( g\) 使得 \( f\circ g=i_N\),那么\( \forall y\in N, g(y)\in M\) 且 \( f(g(y))=y\)。
如果 \( f\) 是满射,我们可以用选择公理构造 \( f\) 的右逆如下:\( \forall y\in N\),从 \( y\) 的原像集合中选取一个 \( x\),令 \( g(y)=x\)。

一般来讲,如果一个映射只有左逆或只有右逆,那么它的左逆或右逆都不是唯一的。但是如果一个映射既有左逆又有右逆,那么它的左逆和右逆都是相等的。

命题3:\( f\) 既有左逆又有右逆当且仅当 \( f\) 是一一映射。并且此时 \( f\) 的左逆与右逆是唯一确定且相等的。
证明:利用命题2证明第一条,因为 \( f\) 是一一映射,并不需要选择公理。
欲证第二条,首先证明 \( f\) 的所有左逆相等,所有右逆相等。
设 \( g\) 与 \( g’\) 是 \( f\) 的右逆,有 \( f\circ g=f\circ g’\),那么因为 \( f\) 同时有左逆,取 \( f\) 的左逆 \( h\),有 \( h\circ f\circ g=h\circ f\circ g’\),即 \( g=g’\)。即所有右逆彼此相等。
同理可证所有左逆彼此相等。
接下来证明左逆等于右逆。
设 \( h\) 与 \( g\) 分别是 \( f\) 的左逆与右逆,那么 \( g\circ f=(h\circ f)\circ (g\circ f)=h\circ (f\circ g)\circ f=h\circ f=i_M\)。这说明右逆同时也是左逆,因此右逆等于左逆。

如果\( f\) 是一一映射时,就把 \( f\) 的左逆或右逆称为 \( f\) 的逆。

部分习题解答:

2 例举一个函数 \( f : \mathbf{R}^2\rightarrow \mathbf{R}\) 使得 \( f(av)=af(v)\) 对任意 \( a\in \mathbf{R},v\in \mathbf{R}^2\),但是 \( f\) 不是线性映射。
解答:设 \( f(x,y)=\sqrt{x^2+y^2}\textrm{sgn }x\),这个函数满足题设条件但不是线性函数。

4 设 \( T\) 是向量空间 \( V\) 到数域 \( \mathbf{F}\) 的线性函数,证明如果 \( u\in V,u\not\in \textrm{null }T\),则 \( V=\textrm{null }T\oplus\{au : a\in\mathbf{F}\}\)。
证明:设 \( \textrm{dim null }T=r\),因为 \( u\in V,u\not\in \textrm{null }T\),所以 \( \textrm{dim }(\textrm{null }T\oplus\{au : a\in\mathbf{F}\})=r+1\) (这两个子空间的和是直和)。因 \( \textrm{dim range }T=1\),故 \( \textrm{dim }V=\textrm{dim }(\textrm{null }T\oplus\{au : a\in\mathbf{F}\})\),因此 \( V=\textrm{null }T\oplus\{au : a\in\mathbf{F}\}\)

11 证明如果 \( V\) 上存在一个线性映射 \( T\) 且它的值域与零空间都是有限维的,那么 \( V\) 是有限维的。
证明:因为书上证明值域-零度定理时是以 \( V\) 是有限维空间为基础,所以直接用这个定理不妥。
设 \( T\) 的值域维数为 r,零空间维数为 s,我们可以取任意维数的子空间,比如,r+s+1 维的子空间,将 \( T\) 限制在这个子空间中,然后利用值域-零度定理,可断定这个子空间的像的维数大于 r,已经超过了整个定义域的像的维数了。

16 设 \( U\) 和 \( V\) 是有限维向量空间,并且 \( S\in L(V,W), T\in L(U,V)\),证明
\( \textrm{dim null }ST \le\textrm{dim null }S+\textrm{dim null }T\)
证明:因为 \( STv=0\) 当且仅当 \( Tv\in\textrm{null }S\),故\( \textrm{null }ST=\{v | Tv\in\textrm{null }S\}\)。设 \( W=\{v | Tv\in\textrm{null }S\}\),考虑 \( R=T|_W\),有
\( \textrm{dim null }ST=\textrm{dim null }R+\textrm{dim range }R\le\textrm{dim null }T+\textrm{dim null }S\)

22 设 \( V\) 是有限维向量空间且 \( S,T\in L(V)\)。证明 \( ST\) 可逆当且仅当 \( S\) 与 \( T\) 都可逆。
证明:必要性,\( ST\) 可逆当且仅当 \( \textrm{dim range }ST=\textrm{dim }V\)。因为 \( \textrm{dim range }ST\le \textrm{dim range }S\) 与 \( \textrm{dim range }ST\le \textrm{dim range }T\),所以 \( S\) 与 \( T\) 都可逆。
充分性,当 \( S\)、\( T\) 都可逆时,\( T^{-1}S^{-1}\) 就是 \( ST\) 的逆。

23 设 \( V\) 是有限维向量空间且 \( S,T\in L(V)\),证明 \( ST=I\) 当且仅当 \( TS=I\)
证明:根据上题,如果 \( ST=I\) 或 \( TS=I\) 那么 \( S\) 与 \( T\) 都可逆。则 \( ST=I\) 当且仅当 \( S=T^{-1}\),当且仅当 \( TS=I\)。

24 设 \( V\) 是有限维向量空间且 \( T\in L(V)\),证明 \( T=aI\) 当且仅当对任何线性映射 \( S\in L(V)\),有 \( ST=TS\)。
证明: 如果\( T=aI\) 则显然 \( ST=TS\)。
如果对任何线性算子 \( S\) 有 \( ST=TS\),那么在 \( V\) 中任取非零向量 \( v\),取 \( v,e_1,e_2,\dots,e_n\) 成为 \( V\) 的基底,定义线性映射 \( S\) 使得 \( Sv=v, Se_i=0, i=1,2,\dots,n\)。则 \( Tv=TSv=STv=S(av+a_1e_1+\dots+a_ne_n)=av\)。也就是说任意非零向量 \( v\),存在一个数 \( a\) 使得 \( Tv=av\)。
下面证明任意两个方向上所对应的 a 都相等。
设 \( v_1,v_2\not=0, Tv_1=a_1v_1,Tv_2=a_2v_2\),如果 \( a_1\not=a_2\),则这两个向量线性无关,考虑 \( T(v_1+v_2)=a_3(v_1+v_2)=a_1v_1+a_2v_2\),即 \( (a_3-a_1)v_1+(a_3-a_2)v_2=0\),因此 \( a_1=a_3=a_2\),矛盾。
因此 \( T=aI\)。

第四章 多项式 为非重点章节,并且内容未超出高中数学知识,故略过。