1 2 3 4 »

再谈矩阵与矩阵乘法

以前写了几篇相关的文章,见
《图示矩阵分块乘法》《理解矩阵与矩阵乘积(三)》《理解矩阵与矩阵乘积(二)》《理解矩阵与矩阵乘积(一)》
如果你从网上搜“理解矩阵”或“矩阵乘积”,还可以搜到孟岩写的系列文章《理解矩阵》以及很多其他作者写的文章。尽管经过很多人的努力,试图说清楚矩阵和矩阵的乘积的最本质的意义,这个问题似乎还在困扰着很多人。

我对矩阵和矩阵乘积的意义的认识,基本上在《图示矩阵分块乘法》中已经阐述,但之所以还要写这篇文章,是因为不论是我的文章,还是网络上其他相关文章,都没有做到把这个问题彻底讲清楚,我是学数学的,和很多其他学数学的人一样习惯上以数学抽象的概念去解释另一个概念,所以讲到矩阵总是会提向量空间,会提向量,但工科的学生往往是不会接触向量空间的概念,所以这种解释虽然我们看起来很直观,对工科的学生往往就很难理解了。还有一般的教材里都会讲到的从线性映射的复合的观点去定义矩阵的乘法,但仍然解释不清乘法规则的本质,尤其解释不了矩阵乘法为什么可以分块进行。

我博士的课题是研究随机矩阵,我的导师之一有无线通讯的背景,所以我有幸接触到一个能够更加直观阐释矩阵的概念和矩阵乘法规则的通讯模型,它虽然是个具体的模型,但我认为它有可能触及到了矩阵和矩阵乘法的最本质的东西。

如图一,考虑在 A 地建有一个发射站,其中有 n 个发射塔,B 地一个接收站,有 m 个接受塔。他们之间要传递的是一组由n 个数组成的信息 (x1,x2,...,xn),这样,这组信息可以由这n个发射塔同时发出,然后m个接收塔会同时收到它们发送过来的数据。

telecom
图一:无线通讯模型,发射-接收

但因为距离等因素的影响,每个发射塔发出的信息到不同的接收塔的过程中会有不同程度的衰减,比如第一个发射塔发出的信息x1到第一个接收塔就变成了 a11x1,等等,它们对应的关系可以列成一个方阵:

接收B\ 发射A    1             2             3         ......            n
1                     a11          a12         a13                       a1n
2                     a21          a22         a23                       a2n
...                     .....           ....          ....                         ....
m                    am1         am2         am3                     ann

这个对应关系的表格其实就是我们的矩阵了。有人可能觉得这只是形式上的对应关系,这些元素只是形式上构成了一个矩阵的形状,和我们数学上的矩阵有什么关系呢?矩阵的乘法在哪里呢?其实关系大得很。考虑一下发射站每发射一条信息 (x1,x2,...,xn),那么在接收站接收到的信息会是什么样子?比如第一个接收塔接到的是所有发射塔给它发的信息,那就是 y1=a11x1+a12x2+...+a1nxn,同理第二个接收塔收到的是 y2=a21x1+a22x2+...+a2nxn,等等。
如果凭直观感觉,如果很多发射塔同时发射信息,所有的接收塔收到的都是这些信息相互混杂的结果,似乎接收端很难分辨还原出原始的信息,就像一群人同时向另一群人喊话,每个人听到的只有混在一起的噪声,根本听不清谁到底说了什么,但是从数学上分析一下会发现,只要接收塔不比发射塔少,只要这个方阵的性质足够好,接收端就可以综合所有接收到的信息并计算还原出原始信息,这就是对线性方程组的研究得出的结论。

接下来考虑,如果B只是个中转站,它也要把它接受到的所有信息原封不动地传给C,那就是下图这样:

telecom2
图二:无线通讯模型:发射-中转-接收

那么C最后接到的信息会是什么样?如果像刚才那样分析从B到C的过程,那C接到的信息就是 z1=b11y1+b12y2+...+b1mym; z2=b21y1+...+b2mym,等等。但是,我现在想把B这个中转站从图中隐去,我想直接制定一个从A到C的发射-接收转换列表,我应该怎么制定呢?怎样才能把下面这个列表填完整呢?

接收C\ 发射A    1             2             3         ......            n
1                       ?
2
...
r

根据这个表中元素的定义,第一行第一列的元素(记为c11)应该是最原始的信息中的第一个元素 x1 被发射到最终位置C的第一个接收塔的过程中的衰减系数,而从图中不难看出,这个信息元 x1 首先经过一次衰减到达B的m个中转塔,也就有了 m 个分身a11x1, a21x1,...,am1x1,然后这m个分身又分别经过第二次衰减,并集合到C的第一个接收塔那里,于是变成了 a11b11x1+a21b12x1+...+am1b1mx1,那么自然就有
c11=a11b11+a21b12+...+am1b1m。
同理,A的第 i 个发射塔发出的信息要经过 B 的所有中转塔才能最终到达C处的第 j 个接收塔,这就是乘法矩阵中的 cij 要这样定义的原因。对应下面这个矩阵乘法BA的示意图:发射数据 xi 与矩阵 A 的第i列元素相乘之后到达 B 的 m 个中转塔,得到 yk=akixi,然后中转塔的这 m 个数据又分别和矩阵 B 的第 j 行元素乘积,并在 C 的第 j 个塔那里整合起来,于是就有了 cij 的又乘又加的表达式。
telecom3

这个模型里的通信模型只是用来帮助理解和想象,现实生活中有很多模型都可以体现这样的运算关系,比如把通信站换成物流公司,把信息换成货物,矩阵的元素换成路程或运输成本,这就变成了一个物流模型;把信息换成空间中的向量,每个通信塔换成空间的基底,这就能解释空间中的线性映射,等等。

下面接着用通信模型解释矩阵的分块运算。首先理解什么是矩阵的一个子块:让我们先回到(图一)的没有中转站而只有发射和接收站的情形,然后考虑,原有的系统支持n个信息同时发射,但假设我现在要发射的信息没有那么多,只有 m(<n) 个分量,那么我可以只用其中的m 个发射塔;同时因为发射的数据减少了,也就不需要那么多接收塔了,所以我可以把其中的一些发射塔和接收塔关闭。假设剩下的塔之间传递信息的转换关系不变,那么剩下的那些塔就是原来的一个子系统。因为有些塔不工作,所以我也无需考虑跟它们相关的衰减系数,我们把原来矩阵中所有和关闭的塔相关联的行或列都去掉,剩下的矩阵就是这个子系统对应的衰减系数矩阵。

这样就好解释了为什么矩阵分块的乘法也具有同样的运算法则:还是考虑(图二)描述的发射-中转-接收模型,但我们这次以不同的眼光看:我们把发射、中转和接收塔都分别编组,把一组通信塔看成一个整体,那么一个发射组+一个中转组+一个接收组就构成了一个子系统,它们中间的衰减矩阵自然是大矩阵里的子块;而如果我们对这些子系统进行分析,它们之间的传递关系自然和把它们当成单个通信塔的情形是一模一样的:以下是我以前的文章《图示矩阵分块乘法》里贴过的图,想象每个方格里是一组通信塔,再结合那篇文章中论述的向量空间的模型,就不难理解其中的道理了。
zrclip-003n7bdf3aa5.png

最后多说几句我对线性代数中“线性”的认识。我们上面所有的分析,都是在我们所描述的系统可以分拆这个假设的基础上的,也就是上面所说,假定它的任何一个子系统的运行状态不受系统其它部分的干扰,只有这样,我们才能把输入的原始信息分成若干分量,它们通过系统传递之后再进行整合;也只有这样,我们把系统进行分拆,分别研究各个子系统之后再进行综合才是有意义的。所以,线性代数就是拆拆合合的技术,“线性”是我们进行拆拆合合的基础。

图示矩阵分块乘法

在本博客文章《理解矩阵与矩阵乘积(三)》六、矩阵分块的实质中,已经提到过矩阵分块乘法是有清晰的几何意义的。写那篇文章的时候我的头脑中还浮现出一个图表,为什么矩阵乘法和分块的乘法有一样的计算规则,在图表中一目了然。但当时嫌画图太麻烦没有画出来。几个月过去了,那篇文章的浏览量也不小,但似乎那篇文章说得还不够清楚。因此这里把当时想到的图表补充进来。


图示:2x3与3x2分块矩阵的乘法

Continue reading

Linear Algebra Done Right第十章注记和部分习题

L\inear Algebra Done Right 还有一章总结没有写,现在我的主要数学精力已经转向了另一个更为有趣的方向:复分析,读的是早已经买回的书《复分析,可视化方法》。这是一本读来让人心潮澎湃的书,曾经读了这本书的第一章,开设这个博客很大一部分原因还是想写写读这本书时的一些感受和记录它当中的问题。但三年多没有碰过数学我的数学能力已经回退到最原始状态了。它的译后记中说需要读者"比较认真地读过微积分和线性代数",可是不光线性代数方面本来当初学得就不扎实,就连几年前十分拿手的数学分析我也基本上忘光了(当然初等微积分还记得一些)。我想务必要让自己的数学能力恢复一下再来读这本书,所以后来就读了《L\inear Algebra Done Right》并作了这些札记。

注记部分:

1 一个线性变换可以表示成  ST-TS (其中  S T 也是线性变换)的充要条件

我们知道一个变换如果可以写成两个线性变换的运算  ST-TS 的形式,因为  \mathrm{trace}\,(ST-TS)=0,那么这个线性变换就必须也满足迹为零。但是,是否只要满足这一个条件就够了呢?

这个问题我发在了百度贴吧中,不久被"四元数"解答了,讨论过程见
http://tieba.baidu.com/f?kz=847919631

需要补充的是他提出的另外一个命题:任何一个 trace 为 0 的矩阵都相似于一个对角线上都是 0 的矩阵,或者说,trace 为 0 的线性变换在某组基底下的矩阵其对角线上的元素都为 0。

我们先对二阶矩阵证明一个更强的命题:

命题1:对于一般的2阶方阵,如果这个方阵不是单位阵或单位阵的倍数,那么必然可以相似于一个在对角上含有 0 的矩阵。
证明:设这个方阵为

 \begin{pmatrix}a&b \\ c&d\end{pmatrix}

如果  a,d 其一为 0 则命题得证。故以下假设  ad\not=0
如果  b=c=0,那么可以断定  a\not=d,我们考虑以下相似变换

 \begin{pmatrix}1&k \\ 0&1\end{pmatrix}\begin{pmatrix}a&0 \\ 0&d\end{pmatrix}\begin{pmatrix}1&-k \\ 0&1\end{pmatrix}=\begin{pmatrix}a&kd-ka \\ 0&d\end{pmatrix}

 k\not=0 即可把右上角元素变为非零。故以下假设  b\not=0。那么考虑以下相似变换

 \begin{pmatrix}1&0 \\ -k&1\end{pmatrix}\begin{pmatrix}a&b \\ c&d\end{pmatrix}\begin{pmatrix}1&0 \\ k&1\end{pmatrix}=\begin{pmatrix}a+kb&b \\ c-ka+kd-k^2b&d-kb\end{pmatrix}

由于  b\not=0,那么我们总能取到适当的  k 使得  a+kb=0 c-kb=0。证毕。

再往下就可按照"四元数"说的方式证明结论。

部分习题解答:

8 V 是内积空间且  v,w\in V。定义  T\in\mathcal L(V) Tu=\langle u,v\rangle w,找到  \mathrm{trace}\,T 的表达式。
解1:首先注意到如果  e_1,\dots,e_n V 的标准正交基底,那么

 \mathrm{trace}\,T=\sum_{i=1}^n\langle Te_i,e_i\rangle

 e_1=w/|w|,将其扩充成标准正交基底  e_1,\dots,e_n,那么

 \mathrm{trace}\,T=\sum_{i=1}^n\langle Te_i,e_i\rangle=\langle w,v\rangle

如果  w=0 则显然这个表达式也成立。
解2:也可以用  v 代替上面的  w 做同样的分析,设  e_1=v/|v| 并且  e_1,\dots,e_n 是标准正交基底,那么由于  Te_2=\dots=Te_n=0,则

 \mathrm{trace}\,T=\langle Te_1,e_1\rangle=\langle w,v\rangle

9 证明如果  P\in\mathcal L(V) 满足  P^2=P,那么  \mathrm{trace}\,P 是非负整数。
证明:由前几章习题知如果  P^2=P,那么  \mathrm{range},P\oplus\mathrm{null},P=V
 \mathrm{range},P \mathrm{null},P 中分别取基底,可以组成  V 的基底,并且由于在  \mathrm{range},P 中的每一个向量  v=Pu Pv=P^2u=Pu=v,从而在这组基底下  P 对应的矩阵是对角矩阵,其对角线上的元素只有 1 或 0,它们的和是个非负整数。

15 T\in\mathcal L(V),证明如果对任意  S\in\mathcal L(V) 都有  \mathrm{trace}\,ST=0,那么  T=0
证明: T 在某基底下的矩阵是  A,取  S 是在同样的基底下对应矩阵  A^H(共轭转置)的线性映射,那么显然
 \mathrm{trace}\,ST=\mathrm{trace}\,A^HA=\sum |a_{ij}|^2,由题设条件有  a_{ij}=0,故  T=0

(16题可以用15题的方法,也可用8题解答中用到的事实。17题应用16题结论,注意不等式右边等于  \mathrm{trace}\,T^*T,当选用标准正交基底使得  T 对应上三角矩阵时,可看出左边是小于等于  |Te_1|^2+\dots+|Te_n|^2 的。19题也可用16题的结论,并利用  \mathrm{trace}\,T^*T=\mathrm{trace}\,TT^*,证得  |T^*e_i|=|Te_i|,注意这是对任意标准正交基底都成立的,也就是把任意一个非零向量标准化并扩充成标准正交基底即可得  |T^*v|=|Tv|。)

18 V 是内积空间,证明  \langle S,T\rangle=\mathrm{trace}\,(ST^*) 定义了  \mathcal L(V) 上的内积。
证明:根据 16 题结论,可得  \langle T,T\rangle=\mathrm{trace}\,(TT^*)\ge 0 并且当且仅当  T=0 \langle T,T\rangle=0
由迹的性质,有  \langle S+W,T\rangle=\langle S,T\rangle+\langle W,T\rangle \langle kS,T\rangle=k\langle S,T\rangle 以及
 \langle S,T\rangle=\mathrm{trace}\,(ST^*)=\overline{\mathrm{trace}\,(TS^*)}=\overline{\langle T,S\rangle}
因此  \langle S,T\rangle=\mathrm{trace}\,(ST^*) 定义了  \mathcal L(V) 上的内积。

Linear Algebra Done Right第九章注记和部分习题

注记部分:

1 定理 9.9 的另一种证明

前一章的注记部分中已叙述了复数向量空间上的相应结果的另一种证明,这一章充分利用上一章的结论,就可以用更简单的方式证明实数向量空间的结果--本章定理 9.9。

这个定理重述起来太长,所以这里省略。定理的 (a) 部分与上一章证法完全一样,也不用重复了(注意本章的情形与上一章定理8.10 的情形有些不同,在8.10中的矩阵完全是上三角的,而这里是分块上三角的。好在不论是书上的证明还是我们自己的证明都可以忽略这个区别,因为对角线上二维矩阵块都是没有特征值的,从而减去  \lambda I 之后都是可逆的,考察证明过程,可知只要对角线上的二阶矩阵块都是可逆的,那么对角线上独立的 0 的个数就等于  \dim\mathrm{null}\,T^n)。那么这里只需考虑 (b) 的证明。首先证明以下引理,其实是比较简单也比较重要的结论:

引理1(兼答习题2和习题5): V 是二维实向量空间, T\in\mathcal L(V),那么  T 有特征值当且仅当  T 的特征多项式有实数根。
证明: T 的特征多项式为  p(T),根据定理9.7 前面两段的描述,不论  T 有没有特征值,都有  p(T)=0
那么,如果  T 有特征值,即存在实数  \lambda 和非零向量  v 使得  Tv=\lambda v,则  p(T)v=p(\lambda)v=0,因此  p(\lambda)=0 从而  \lambda p 的实数根。
反之,如果  p 有实根,那么  p(T)=(T-\lambda_1 I)(T-\lambda_2 I)=0 从而  \lambda_1,\lambda_2 其中必有特征值。

现在可以用这个引理把定理9.9 的 (b) 情形转化为 (a) 情形:

 T 的矩阵为

 \begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_m\end{pmatrix}

要考虑的特征多项式为  p(T)=T^2+\alpha T+\beta I,那么考虑  p(T) 的矩阵,其对角线上的矩阵块分别为
 p(A_1),\dots,p(A_m)
如果  A_i 是 1x1 阶矩阵,即是一个实数,那么因为  p 无实根,所以  p(A_i)\not=0;如果  A_i 是 2x2 的矩阵且不以  p 为特征多项式,那么因为  A_i 没有特征值,所以  p(A_i) 将是可逆的;如果  A_i 的特征多项式就是  p,那么  p(A_i)=0,所以,在  p(T) 的矩阵中,其对角线上独立的 0 (即不包含在某个非零的二阶矩阵块中的0)都来源于以  p 为特征多项式的那些小矩阵块,0的个数是  \dim\mathrm{null}\,p(T)^{\dim V},所以有  \frac{1}{2}\dim\mathrm{null}\,p(T)^{\dim V} 个二阶矩阵块以  p 为特征多项式。

部分习题解答:

3 A 是分块对角矩阵

 A=\begin{pmatrix}A_1&& 0 \\ &\ddots& \\ 0&&A_m\end{pmatrix}

其中  A_j 为方阵,证明  A 的特征值的集合等于  A_1,\dots,A_m 特征值集合的并集。
4 A 是分块对角矩阵

 A=\begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_m\end{pmatrix}


其中  A_j 为方阵,证明  A 的特征值的集合等于  A_1,\dots,A_m 特征值集合的并集。
证明:两个题目只需利用以下事实:矩阵  A 可逆当且仅当  A_1,\dots,A_m 都可逆;矩阵  A 不可逆当且仅当存在  A_j 不可逆。以下证明这个事实。
 A 对应的映射为  T,记

 \begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_k\end{pmatrix}


对应的  T 的不变子空间为  U_k
当某个  A_j 不可逆时,考虑子矩阵

\begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_j\end{pmatrix}

它是  T 在不变子空间  U_j 上的限制  T|_{U_j} 对应的矩阵。从而可以找到一个非零向量  v\in U_j,v\not\in U_{j-1} 使得  Tv\in U_{j-1}。则  T 把子空间  U_{j-1}\oplus\mathrm{span}{v} 映射到了比它低一维的子空间  U_{j-1} 中。所以  \mathrm{null}\,T\not={0},即  T 不可逆, A 不可逆。
反之,如果每个  A_j 都可逆,那么显然  T 作用在基底上得到的向量组  Te_1,\dots,Te_n (它们的坐标是  A 的列向量)是线性无关的。

注:这两题也可以把对角线上的每个矩阵子块都分别化成分块上三角的,自然得出结论。

8 证明不存在  T\in\mathcal L(\mathbf R^7) 使得  T^2+T+I 是幂零变换。
证明:第一,因为  T^2+T+I 无实数根,所以根据本章结论, \dim\mathrm{null}\,(T^2+T+I)^{\dim V} 是偶数,不可能等于 7。
第二,奇数维的实数向量空间上的线性变换有特征值,即存在实数  \lambda 和非零向量  v 使得  Tv=\lambda v,那么  (T^2+T+I)^{\dim V}v=(\lambda^2+\lambda+1)^7v\not=0
(10题可利用8题的结论,11题利用10题的结论)

14 V 是 2 维向量空间而  T\in\mathcal L(V),证明如果
 \begin{pmatrix}a&b \\ c&d\end{pmatrix}
 T 的矩阵,那么  T 的特征多项式为  p(z)=(z-a)(z-d)-bc
证明:如果  V 是实向量空间而  T 没有特征值,那么根据特征多项式的定义,结论显然成立。
如果  T 有两个相异的特征值,那么因为  p(T)=0,可知  T 的两个特征值都是  p 的根,根据特征多项式的定义知结论成立。
如果  T 只有一个特征值  \lambda,此时分两种情形:第一,如果这个特征值的特征子空间维数为2,即  T=\lambda I,那么必有  b=c=0,且  a=d=\lambda,结论成立;第二,如果这个特征值的特征子空间只有1维,那么存在非零向量  v 使得  (T-\lambda I)v\not=0。因  \lambda p 的其中一个根,所以  p(z)=(z-\lambda' )(z-\lambda),因此有  p(T)v=(T-\lambda' I)(T-\lambda I)v=0。因为  (T-\lambda I)v\not=0 且已经假设  T 只有一个特征值,所以  \lambda'=\lambda p(z)=(z-\lambda)^2

Linear Algebra Done Right第八章注记和部分习题

注记部分:

1  \dim\mathrm{null}\,T^k 随着 k 的增加量

 \dim\mathrm{null}\,T^k 是 k 的单调递增函数,而且当 k 达到某一个数值之后, \dim\mathrm{null}\,T^k 就恒定不变了。但是书上并没有说它的增加有何规律,是每次都增加相同的维数,还是增加的维数可能有变化?换句话说, \dim\mathrm{null}\,T^{k+1}-\dim\mathrm{null}\,T^k 有什么规律?它是恒定不变的,还是忽大忽小的,或是有什么别的规律没有?

首先想象  \mathrm{null}\,T^{k+1} \mathrm{null}\,T^k 多出来的维数是从哪来的?有些向量在  \mathrm{null}\,T^{k+1} 里,却不在  \mathrm{null}\,T^k 里,那么  T^k 作用在这些向量上不等于零,但再用  T 作用一下就变成零了,也就是  T^kv\not=0, TT^kv=0,那么  T^kv\in\mathrm{null}\,T,且  T^kv\in\mathrm{range}\,T^k。那么我们猜想,是否应有

 \dim\mathrm{null}\,T^{k+1}=\dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k)+\dim\mathrm{null}\,T^k

成立?或者,等价地(利用值域-零度定理),有

 \dim\mathrm{range}\,T^k=\dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k)+\dim\mathrm{range}\,T^{k+1}

成立?

答案是肯定的,因为  U=\mathrm{range}\,T^k T 的不变子空间,设  S=T|_U,那么  \mathrm{null}\,S=\mathrm{null}\,T\cap U \mathrm{range}\,S=\mathrm{range}\,T^{k+1},则由值域-零度定理  \dim U=\dim\mathrm{null}\,S+\dim\mathrm{range}\,S 可得结论。

这样,因为  \dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k) 随着 k 增加而单调递减,那么  \dim\mathrm{null}\,T^k 的增量也单调递减,直到某个整数使其增量为零,那么  \dim\mathrm{null}\,T^k \dim\mathrm{range}\,T^k 就都不会变化了。

此时,用  T^k 代替  T,再利用增量公式,因为

 \dim\mathrm{null}\,T^{2k}=\dim(\mathrm{null}\,T^k\cap\mathrm{range}\,T^k)+\dim\mathrm{null}\,T^k=\dim\mathrm{null}\,T^k

所以这个时候  \dim(\mathrm{null}\,T^k\cap\mathrm{range}\,T^k)=0,故有

 \mathrm{null}\,T^k\cap\mathrm{range}\,T^k={0}

 \mathrm{null}\,T^k\oplus\mathrm{range}\,T^k=V

2 定理 8.10 的另一个证明

定理8.10: T\in\mathcal L(V), \lambda\in\mathrm F,那么如果在一组基底下  T 的矩阵是上三角的,则  \lambda 在对角线上出现的次数等于  \dim\mathrm{null}\,(T-\lambda I)^{\dim V}
证明:不失一般性,我们还是设  \lambda=0
设在一组基底  e_1,e_2,\dots,e_n T 的矩阵为  A,为上三角矩阵,那么 0 就会出现在对角线上。我们证明的思路是另外找到一组基底,使得  T 的矩阵对角线上的 0 都集中在左上角,同时 0 的个数不变,即

 \begin{pmatrix}0&&&&&* \\ &\ddots&&&& \\ &&0&&& \\ &&&\lambda_1&&\\ &&&&\ddots& 0 \\&&&&&\lambda_r\end{pmatrix}

那么左上角是个幂零矩阵, T^n 在这个子空间上是零,其对应子空间的维数等于对角线上 0 的个数,同时  \mathrm{range}\,T^n 的维数是对角线上非零元素的个数,即证得结论。
为了把对角线上的 0 都移动至左上角,第一步,从对角线左上角算起第一个 0 入手,如果它就在第一行第一列,那么第一步完成。否则,假设第一个 0 在第 m 行第 m 列,那么考虑矩阵的前 m 行前 m 列的元素构成的子矩阵,设其为

 \begin{pmatrix}\lambda_1&&&* \\ &\ddots&& \\ &&\lambda_{m-1}& \\ &&&0\end{pmatrix}

它是  T U=\mathrm{span},(e_1,e_2,\dots,e_m) 上的限制  T|_U 的矩阵。显然  T|_U 有特征值 0,设对应的特征向量为  v,并且因为  T \mathrm{span},(e_1,e_2,\dots,e_{m-1}) 上是可逆的,所以  v\not\in\mathrm{span},(e_1,e_2,\dots,e_{m-1}),那么  \mathrm{span},(v,e_1,e_2,\dots,e_{m-1})=U。我们把向量组  v,e_1,e_2,\dots,e_{m-1} 作为  U 的新基底,那么  T|_U 在这一组基底下的矩阵是

 \begin{pmatrix}0&&&* \\ &\lambda_1&& \\ &&\ddots& \\ &&&\lambda_{m-1}\end{pmatrix}

 U 的新基底替换原来的基底之后, T 对应的矩阵的右下角的 n-m 行和 n-m 列构成的子矩阵没有改变。因此,这样的变换并没有增加或减少对角线上 0 的个数。
接下来,用同样的方法处理除第一行与第一列之外的元素构成的矩阵(它对应的映射是  P_WT|_W,其中  W=\mathrm{span},(e_2,e_3,\dots,e_n)),把对角线上的下一个 0 放在第二行第二列的位置。
依此步骤,直到对角线上所有的 0 都移动到左上角。命题得证。

3 引理 8.40 的另一种证明

引理8.40:如果  N\in\mathcal L(V) 是幂零矩阵,那么存在向量  v_1,\dots,v_k\in V 使得
a)  (v_1,Nv_1,\dots,N^{m(v_1)}v1,\dots,v_k,Nv_k,\dots,N^{m(v_k)}v_k) V 的基底;
b)  (N^{m(v_1)}v1,\dots,N^{m(v_k)}v_k) \mathrm{null}\,N 的基底。
证明:因为  \mathrm{null}\,N\subset\mathrm{null}\,N^2\subset\dots\subset\mathrm{null}\,N^r=V,我们取子空间  W_r 使得  \mathrm{null}\,N^r=\mathrm{null}\,N^{r-1}\oplus W_r,那么  W_r 中的任何非零向量  v,有  N^{r-1}Nv=0,N^{r-2}Nv\not=0,因此  Nv\in\mathrm{null}\,N^{r-1},Nv\not\in\mathrm{null}\,N^{r-2}
定义  N(W_r)={Nv:v\in W_r},那么  N(W_r)\subset\mathrm{null}\,N^{r-1} N(W_r)\cap\mathrm{null}\,N^{r-2}={0}。那么存在子空间  W_{r-1},使得  \mathrm{null}\,N^{r-1}=\mathrm{null}\,N^{r-2}\oplus W_{r-1},并且  N(W_r)\subset W_{r-1}
以此类推,取子空间  W_{r-2},\dots,W_2 使得  \mathrm{null}\,N^i=\mathrm{null}\,N^{i-1}\oplus W_i, i=2,3,\dots,r 并且  N(W_{i+1})\subset W_i i=2,3,\dots,r-1
 W_1=\mathrm{null}\,N,那么  W_1,\dots,W_r 满足

 W_1\oplus W_2\oplus\dots\oplus W_r=V

 W_r 的基底  v_1,\dots,v_s,那么  Nv_1,\dots,Nv_s\in W_{r-1},因为  W_r\cap\mathrm{null}\,N={0},所以  Nv_1,\dots,Nv_s 线性无关,向  Nv_1,\dots,Nv_s 中添加向量  v_{s+1},\dots,v_j 使它们成为  W_{r-1} 的基底,并取得向量  N^2v_1,\dots,N^2v_s,Nv_{s+1},\dots,Nv_j,依次类推,最后将所有的向量放在一起,得到

 v_1,Nv_1,\dots,N^{m(v_1)}v1,\dots,v_k,Nv_k,\dots,N^{m(v_k)}v_k

因为出自每个  W_i 的向量组是  W_i 的基底,而诸  W_i 的和又是直和,所以整个向量组是  V 的基底,并且其中  (N^{m(v_1)}v1,\dots,N^{m(v_k)}v_k) W_1=\mathrm{null}\,N 的基底。证毕。

部分习题解答:

3 T\in\mathcal L(V),m 是正整数,且  v\in V 是满足  T^{m-1}v\not=0 T^mv=0 的向量。证明  (v, Tv, T^2v,\dots,T^{m-1}v) 线性无关。
证明: a_1v+a_2Tv+\dots+a_mT^{m-1}v=0,两边用  T^{m-1} 作用,得到  a_1T^{m-1}v=0,由于  T^{m-1}v\not=0,那么  a_1=0
两边用  T^{m-2} 作用,得  a_2=0,等等,可知  a_1=a_2=\dots=a_m=0

5 S,T\in\mathcal L(V)。证明如果  ST 是幂零的,那么  TS 也是幂零的。
证明:如果  ST 是幂零变换,那么  (ST)^{\dim V}=0,因此  (TS)^{\dim V}=(TS)^{\dim V+1}=0

13 V 是 n 维复向量空间,且  T\in\mathcal L(V) 满足  \mathrm{null}\,T^{n-2}\not=\mathrm{null}\,T^{n-1}。证明  T 至多有两个不同的特征值。
证明: \lambda_1,\lambda_2,\dots,\lambda_m T 的全部特征值,那么

 V=\mathrm{null}\,(T-\lambda_1 I)^n\oplus\dots\oplus\mathrm{null}\,(T-\lambda_m I)^n

如果  T 至少有三个特征值,那么以上各个子空间的维数都不超过 n-2。那么在每一个不变子空间中都有  \mathrm{null}\,T^{n-2}=\mathrm{null}\,T^{n-1},则在整个空间中此等式也成立,矛盾。

20 T\in\mathcal L(V) 是可逆变换。证明存在多项式  p\in\mathcal P(F) 使得  T^{-1}=p(T)
证明:映射序列  I,T,T^2,\dots,T^{n^2} 必线性相关,则有不全为零的数  a_0,a_1,\dots,a_{n^2} 使得

 a_0I+\dots+a_{n^2}T^{n^2}=0

设第一个不是零的系数为  a_m,那么因为  T 可逆,上式两边同时乘以  T^{-m}/a_m 则有

 I+\frac{a_{m+1}}{a_m}T+\dots=0

 p(T)=-\frac{a_{m+1}}{a_m}I-\frac{a_{m+2}}{a_m}T-\dots,则有  Tp(T)=I,因此  p(T)=T^{-1}

28 设  a_0,\dots,a_{n-1}\in\mathbf C,某线性变换在标准基底下的矩阵是

 \begin{pmatrix}0&&&&&-a_0 \\ 1&0&&&&-a_1 \\ &1&\ddots&&&-a_2 \\ &&\ddots&&&\vdots \\ &&&&0&-a_{n-2} \\ &&&&1&-a_{n-1}\end{pmatrix}

找到它的最小多项式与特征多项式。
解答:设这组基底为  e_1,e_2,\dots,e_n,那么  e_2=Te_1,e_3=T^2e_1,\dots,e_n=T^{n-1}e_1,并且  T^ne_1=-a_0e_1-a_1Te_1-\dots-a_{n-1}T^{n-1}e_1,设  p(x)=x^n+a_{n-1}x^{n-1}+\dots+a_0,那么  p(T)e_i=p(T)T^{i-1}e_1=0, i=1,2,\dots,n 从而  p(T)=0。又因为  e_1,Te_1,T^2e_1,\dots,T^{n-1}e_1 线性无关,所以  p(x) 就是最小多项式。因为最小多项式为 n 次的,所以特征多项式也为  p(x)

30 设 V 是复向量空间,且  T\in\mathcal L(V)。证明  V 不能分解为  T 的非平凡不变子空间的直和当且仅当  T 的最小多项式形如  (T-\lambda I)^{\dim V},其中  \lambda\in\mathbf C
证明:如果  V 不能分解为  T 的非平凡不变子空间的直和,那么  T 只有一个特征值,设为  \lambda T 的最小多项式是形如  (T-\lambda I)^r 的多项式,其中  r\le\dim V
为证明  r=\dim V,考虑  T 的 Jordan 型矩阵,其次对角线上必定没有 0,即形如

 \begin{pmatrix}\lambda&1&& 0 \\&\lambda&\ddots& \\ &&\ddots&1 \\ 0&&&\lambda\end{pmatrix}

的矩阵,那么如果  k<\dim V,则  (T-\lambda I)^k\not=0,因此其最小多项式为  (T-\lambda I)^{\dim V}
如果  T 的最小多项式形如  (T-\lambda I)^{\dim V},那么  T 只有一个特征值  \lambda,假设  V 可以分解为  T 的非平凡不变子空间的直和,那么因为在每个不变子空间上  (T-\lambda I) 是幂零的,所以最小多项式的次数不超过每个子空间的维数,其必定小于  \dim V,矛盾。