Linear Algebra Done Right第七章注记和部分习题

注记部分:

1 命题 7.2 为何在实数空间不成立?

参见本博客文章《理解复数域上的向量空间(第一篇)》

2 \( U\) 是线性算子 \( T\) 的不变子空间,那么 \( T^*|_U=(T|_U)^*\) 是否成立?

在证明实空间自伴算子谱定理的时候,中间有一部,设 \( S=T|_{U^\perp}\) 然后验证 \( S\) 在 \( U^\perp\) 上也是自伴的。为什么这么验证呢?为什么不根据 \( T\) 是自伴的并且 \( U^\perp\) 是不变子空间这个事实,从而直接说 \( T|_{U^\perp}\) 是自伴的?
这涉及一个问题:如果 \( T\) 是一个一般的映射,\( U\) 是 \( T\) 的不变子空间,那么是否一定有 \( T^*|_U=(T|_U)^*\)?

这是不一定的,设
\( T=\begin{pmatrix}1&1\\ 0&1\end{pmatrix}\)
而 \( U=\{(x,0)\}\) 那么 \( U\) 是 \( T\) 的不变子空间。
那么 \( (T|_U)^*\) 是 \( U\) 上的单位变换,但 \( T^*|_U\) 却把 x 轴映射到了直线 y=x 上。\( U\) 不一定是 \( T^*\) 的不变子空间。

之所以出现这种情况,是因为在伴随的定义中,任意 \( w\),要求取 \( T^*w\) 是满足
\( \forall v, \langle Tv,w\rangle=\langle v,T^*w\rangle\)
的那个唯一的向量。
在 \( U\) 中的任意一个向量 \( w\),如果我们找到 \( (T|_U)^*w\in U\) 满足
\( \forall u\in U, \langle Tu,w\rangle=\langle u,(T|_U)^*w\rangle\)
上式中的 \( u\) 也只是限制在 \( U\) 中的,如果把 \( u\) 的范围扩大到整个空间中,那么上面的内积等式不一定成立。因此 \( (T|_U)^*\) 不一定等于 \( T^*|_U\)。

如果考虑 \( (T|_U)^*\) 和 \( T^*|_U\) 二者的关系,那么下面的事实是成立的:记 \( P_U\) 为到子空间 \( U\) 的正交投影,那么 \( (T|_U)^*=P_UT^*|_U\)。 证明也很容易。这样,\( (T|_U)^*=T^*|_U\) 能够成立的充要条件为 \( U\) 也是 \( T^*\) 的不变子空间。

3 实空间变换矩阵的分块上三角化与实空间的正规、自伴算子谱定理

如果实空间的分块上三角矩阵的相关内容放在第五章的位置,那么实空间的谱理论证明就变得跟复空间谱定理一样容易证明。它们不论从形式上还是从证明方法上都没有什么本质区别。

4 自伴算子乘积什么时候是自伴的?

问题:设 \( S\) 与 \( T\) 都是向量空间 \( V\) 上的自伴算子,那么 \( ST\) 和 \( TS\) 是自伴的吗?
由 \( (ST)^*=T^*S^*=TS\),如果 \( S\) 与 \( T\) 可交换,即 \( ST=TS\),那么有 \( (ST)^*=ST\) 和 \( (TS)^*=TS\),即两者都自伴。反过来若 \( ST\) 自伴,则 \( ST=TS\)。

但是 \( S\) 与 \( T\) 二者不一定是可交换的,反例如下:设
\( S=\begin{pmatrix}0&1\\ 1&0\end{pmatrix},T=\begin{pmatrix}1&0\\ 0&2\end{pmatrix}\)
那么
\( ST=\begin{pmatrix}0&2\\ 1&0\end{pmatrix}\not=\begin{pmatrix}0&1\\ 2&0\end{pmatrix}=TS\)

那么 \( S\) 与 \( T\) 满足什么条件时二者是可交换的呢?以下是一个充要条件:

命题1:设 \( S,T\) 是 \( V\) 上的线性变换,\( T\) 自伴,那么 \( ST=TS\) 当且仅当 \( T\) 的每个特征子空间 \( \mathrm{null}\,(T-\lambda I)\) 是 \( S\) 的不变子空间。
证明:如果 \( ST=TS\),那么 \( \forall v\in\mathrm{null}\,(T-\lambda I), (T-\lambda I)Sv=S(T-\lambda I)v=0\),这说明 \( Sv\in\mathrm{null}\,(T-\lambda I)\),因此 \( \mathrm{null}\,(T-\lambda I)\) 是 \( S\) 的不变子空间。
反过来,如果 \( T\) 的每个特征子空间都是 \( S\) 的不变子空间,那么在一个特征子空间 \( \mathrm{null}\,(T-\lambda I)\) 里的任意一个向量 \( v\),有 \( TSv=\lambda Sv=S(\lambda v)=STv\)。
再由自伴算子的谱定理,
\( V=\mathrm{null}\,(T-\lambda_1I)\oplus\mathrm{null}\,(T-\lambda_2I)\oplus\dots\oplus\mathrm{null}\,(T-\lambda_mI)\)
其中 \( \lambda_1,\lambda_2,\dots,\lambda_m\) 是 \( T\) 的全部特征值,可知任意向量 \( v\),有
\( \displaystyle TSv=\sum_{i=1}^mTSv_i=\sum_{i=1}^mSTv_i=STv\)
证毕。

备注:这个命题是从分析 \( S,T\) 的矩阵关系的过程中得到的,即设 \( T\) 在某正交基底下为对角形,分析另一个矩阵与这个对角矩阵可交换的条件,最后从元素满足的条件总结出这个命题。后来发现第五章习题已经讨论过这个问题的一半了。

5 正定算子的平方根

如果 \( \dim V>1\),那么单位变换 \( I\) 有无穷多个平方根。以二维空间为例,任意一个角度 \( \theta\),变换
\( \begin{pmatrix}\cos\theta&\sin\theta\\ \sin\theta&-\cos\theta\end{pmatrix}\)
都是单位变换的平方根。
如果把上面的变换写成复平面上的变换,那么 \( f(z)=\bar ze^{i\theta}\) 是复平面上单位变换的平方根,即 \( f(f(z))=1\)。它不是复数空间上的线性变换,但是如果把复数域看成实数线性空间,它是线性变换。

\( I\) 的上述形式的平方根都是自伴的,\( I\) 也有非自伴的平方根,比如,只要 \( a^2+bc=1\),那么
\( \begin{pmatrix}a&b\\ c&-a\end{pmatrix}^2=I\)
可见正定算子的平方根可以不是自伴的。

由此可知,一个正定算子,只要有一个特征值的重数超过1(即这个特征值的特征子空间超过一维),那么它有无数个平方根,其中也有无数个自伴的平方根。

如果一个二维空间上的正定算子有两个相异的特征值,那么在某正交基底下它的矩阵为
\( \begin{pmatrix}\lambda_1&0\\ 0&\lambda_2\end{pmatrix}\)
我们要找到它的所有平方根,即找到满足
\( \begin{pmatrix}a&b\\ c&d\end{pmatrix}^2=\begin{pmatrix}a^2+bc&b(a+d)\\ c(a+d)&d^2+bc\end{pmatrix}=\begin{pmatrix}\lambda_1&0\\ 0&\lambda_2\end{pmatrix}\)
的所有矩阵。
因为 \( \lambda_1\not=\lambda_2\),所以\( a^2\not=d^2\),故 \( a+d\not=0\),因此 \( b=c=0\),那么 \( a^2=\lambda_1, d^2=\lambda_2\),这个正定算子只有有限个(4个)平方根。

下面证明一般性结论:
命题2:如果一个 n 维空间上的正定算子 \( B\) 有 n 个相异的特征值,那么它只有有限个(\( 2^n\) 个)平方根,并且其平方根都是自伴的。
证明:如果 \( A^2=B\),那么 \( AB=A^3=BA\),即 \( A\) 与 \( B\) 可交换。因为 \( B\) 自伴,利用命题1,得 \( B\) 的每一个特征子空间(都是一维的)也是 \( A\) 的特征子空间,故可以选一组基底使得 \( A\) 与 \( B\) 的矩阵都是对角形,\( A\) 矩阵对角线上的元素就必须等于 \( B\) 矩阵对角线上相应的元素的平方根,这样的矩阵有 \( 2^n\) 个,且因为正数的平方根都是实数,所以这些矩阵都是实对称矩阵,因此 \( B\) 的平方根都是自伴的。

6 等距变换几个相似概念之间的关系

如果假定 \( T\) 是线性变换,那么以下条件是等价的:
1) \( T\) 是等距变换,即 \( \forall u,v\in V,\|Tu-Tv\|=\|u-v\|\)
2) \( T\) 保持范数,即 \( \forall u\in V,\|Tu\|=\|u\|\)
3) \( T\) 保持内积,即 \( \forall u,v\in V,\langle Tu,Tv\rangle=\langle u,v\rangle\)

但是如果 \( T\) 只是一个普通的变换,而没有线性变换的条件,这三个条件不是等价的。它们的推导关系如下图:

其中的箭头方向是必要条件的方向,双向箭头表示两个等价的命题,单项箭头表示两个命题不等价。下面分别证明如下:

线性等距变换保持内积,这个在书上已有证明;线性等距变换是把零向量映射成零向量的等距变换,这个也是显然的;保持内积的实部在实空间下和保持内积是一回事;因为内积诱导的范数只与内积的实部有关,即 \( \langle u,u\rangle\in\mathbf R\),所以保持内积实部的变换一定也是保持范数的。这些都是比较容易得出的结论,因此只需证明两个命题:保持内积的变换是线性等距变换;一个变换保持内积实部当且仅当它是将零向量映射为零向量的等距变换。

命题3:设 \( T\) 是向量空间 \( V\) 上的变换,如果任意两个向量 \( u,v\),有 \( \langle Tu,Tv\rangle=\langle u,v\rangle\),那么 \( T\) 是线性等距变换。
证明:因为 \( T\) 保持内积,所以它一定是保持范数的,那么只需证明 \( T\) 是线性变换,也就推出它是线性等距变换了。即只需证 \( T(u+v)=Tu+Tv\) 与 \( Tku=kTu\)。为此考察
\( \|Tku-kTu\|^2=\langle Tku,Tku\rangle-\bar k\langle Tku,Tu\rangle\)\( -k\langle Tu,Tku\rangle+k\bar k\langle Tu,Tu\rangle=0\)
其中最后一个等号成立是因为在每一个内积里可以把所有的 \( T\) 都去掉,最终得到0。因此 \( Tku=kTu\)。
同理考察 \( \|T(u+v)-Tu-Tv\|^2\),同样在打开的每一个内积中去掉 \( T\),最终为0。
因此 \( T\) 为线性映射。又因为 \( T\) 保持内积,所以由 \( \|Tv\|^2=\langle Tv,Tv\rangle=\langle v,v\rangle=\|v\|^2\),知 \( T\) 保持长度。由定义 \( T\) 是正交变换。

命题4:设 \( T\) 是向量空间 \( V\) 上的变换,那么 \( \forall u,v\in V,\mathrm{Re}\,\langle Tu,Tv\rangle=\mathrm{Re}\,\langle u,v\rangle\) 当且仅当 \( T\) 是等距变换,并且 \( T(0)=0\)。
证明:由于
\( \|Tu-Tv\|^2=\|Tu\|^2-2\mathrm{Re}\,\langle Tu,Tv\rangle+\|Tv\|^2\)
\( \|u-v\|^2=\|u\|^2-2\mathrm{Re}\,\langle u,v\rangle+\|v\|^2\)
如果 \( T\) 保持内积实部,那么 \( T\) 保持范数,所以 \( T(0)=0\),且上面两式右边相等,故 \( \|Tu-Tv\|=\|u-v\|\),即 \( T\) 是等距变换,。
如果 \( T\) 是等距变换,并且 \( T(0)=0\),那么上面两式左边相等,且 \( \|Tu\|=\|Tu-T0\|=\|u-0\|=\|u\|\),从而 \( \mathrm{Re}\,\langle Tu,Tv\rangle=\mathrm{Re}\,\langle u,v\rangle\)。

以下是两个反例,证明关系图中的两个单项箭头不可能是双向的。

反例1:设 \( f\) 是复数域上的变换,\( f(z)=\bar z\),那么因为 \( |\bar{z_1}-\bar{z_2}|=|z_1-z_2|\) 所以 \( f\) 是复向量空间中的等距变换,并且 \( f(0)=0\),但是 \( f\) 不是线性的,也不保持内积,但是保持内积的实部。

反例2:设 \( f\) 是实数域上的变换,\( f(x)=|x|\),那么 \( f\) 保持范数,但它不保持内积实部,也不是等距变换。

参考文献:
[1] 侯维民. 关于正交变换两种定义方式的探讨 [J]. 高等数学研究, 2005, 8(1): 44-45.
[2] [美] Peter.D.Lax. 线性代数及其应用 [M]. 傅莺莺,沈复兴,译. 北京:人民邮电出版社,2009.

7 极分解的另一种形式

一个线性变换 \( T\) 的极分解 \( T=S\sqrt{T^*T}\) 表明,\( T\) 的作用相当于先在某些方向上进行伸缩变换(半正定变换 \( \sqrt{T^*T}\) 的作用,根据谱定理),然后再进行等距变换 \( S\)。
那么,如果取 \( T^*\) 的极分解 \( T^*=S\sqrt{TT^*}\),则 \( T=\sqrt{TT^*}S^*\),则表明 \( T\) 也可以看作先做等距变换,然后再在某些方向上伸缩。

部分习题解答:

5 证明如果 \( \dim V\ge 2\),那么所有 \( V\) 上的正规算子的集合不是 \( \mathcal L(V)\) 的子空间。
证明:考察下面等式:
\( \begin{pmatrix}2&1\\ -1&2\end{pmatrix}+\begin{pmatrix}2&1\\ 1&2\end{pmatrix}=\begin{pmatrix}4&2\\ 0&4\end{pmatrix}\)
等式左边一个为正规算子,一个为自伴算子,它们的和不是正规的。

7 证明如果 \( T\in\mathcal L(V)\) 是正规算子,那么对所有正整数 k,有 \( \mathrm{null}\,T^k=\mathrm{null}\,T, \mathrm{range}\,T^k=\mathrm{range}\,T\)。
证明:k=1 时命题显然成立。假设当 k=m 时,命题成立,那么 \( \forall v\in \mathrm{null}\,T^{m+1}\),有 \( TT^mv=0\),即 \( T^mv\in\mathrm{null}\,T\) 又因 \( T^mv\in\mathrm{range}\,T\) 且 \( (\mathrm{null}\,T)^\perp=\mathrm{range}\,T\),那么 \( T^mv=0\),根据归纳假设,\( v\in\mathrm{null}\,T\)。可见 \( \mathrm{null}\,T^{m+1}\subset\mathrm{null}\,T\)。另一个方向的包含是显然的,所以 \( \mathrm{null}\,T^{m+1}=\mathrm{null}\,T\),
因为 \( T^k\) 也是正规的,所以 \( \mathrm{range}\,T^k=(\mathrm{null}\,T^k)^\perp\)\( =(\mathrm{null}\,T)^\perp=\mathrm{range}\,T\)。

14 设 \( T\in\mathcal L(V)\) 是自伴算子,\( \lambda\in\mathbf F, \epsilon>0\),证明如果存在向量 \( v\in V\) 满足 \( \|v\|=1\) 且 \( \|Tv-\lambda v\|<\epsilon\),那么 \( T\) 有特征值 \( \lambda’\) 满足 \( |\lambda-\lambda’|<\epsilon\)。
证明:根据自伴算子的谱定理,存在一组正交基底使得 \( T\) 的矩阵是对角矩阵 \( \mathrm{diag}\,(\lambda_1,\lambda_2\dots,\lambda_n)\),那么
\( \min_i |\lambda_i-\lambda|^2\le\sum_{i=1}^n|\lambda_i-\lambda|^2v_i^2=\|Tv-\lambda v\|^2<\epsilon^2\)
取 \( \lambda’\) 是与 \( \lambda\) 最接近的特征值即可。

18 证明如果 \( T\) 是 \( V\) 上的半正定算子,那么对任意正整数 k,\( T^k\) 也是半正定的。
证明:可以用谱定理。这里例举另一个证明。
当 k 为偶数时,有
\( \langle T^kv,v\rangle=\langle T^{\frac{k}{2}}v,T^{\frac{k}{2}}v\rangle\ge 0\)
当 k 为奇数时,有
\( \langle T^kv,v\rangle=\langle TT^{\frac{k-1}{2}}v,T^{\frac{k-1}{2}}v\rangle\ge 0\)

24 设 \( T\in\mathcal L(V)\),\( S\in\mathcal L(V)\) 是 V 上的线性等距变换, \( R\in\mathcal L(V)\) 是 V 上的半正定算子且 \( T=SR\),证明 \( R=\sqrt{T^*T}\)。
证明:因 \( R\) 是半正定算子,所以只需证 \( R^2=T^*T\)。
因 \( R\) 自伴且 \( S\) 是线性等距变换,所以 \( T^*T=RS^{-1}SR=R^2\)。

27 证明或给出反例:如果 \( T\in\mathcal L(V)\),那么 \( T^2\) 的奇异值是 \( T\) 的奇异值的平方。
证明:取 \( T(x,y)=(0,x)\),则 \( T^2=0\),但 \( \sqrt{T^*T}(x,y)=(x,0)\),所以 \( T^2\) 的奇异值都为零,不等于 \( T\) 的奇异值的平方 (1和0)。

理解复数域上的向量空间(第一篇)

线性代数进行到酉空间中的自伴算子、正规算子以及谱定理这部分内容时,会发现很多在复空间中成立的命题在实空间中却未必成立。这种情况多少让人感到有点奇怪,为什么会出现这种情况?
复数域是包含实数域的,我们学习复数之后碰到最多的是相反的情况:原本在实数域上成立的性质在复数域中不一定成立了,比如,实数可以比较大小,但复数没有大小关系;又比如,实数的平方非负,等等。这样的命题见多了,容易使人产生思维定势,认为复数包含实数,因此在复数范围内成立的命题在实数范围内也必然成立,而实数范围成立的命题不一定都能推广到复数。
可尤其是学习到复变函数之后,这种情况似乎反过来了,同样的一个概念,到了复数中反倒比原来实数情况下的相应概念有了更多的内涵。这又是为什么呢?

比如,在”Linear Algebra Done Right” 第七章有个命题 7.2,是说

命题7.2:如果 \( V\) 是复数域上的内积空间,并且 \( T\) 是 \( V\) 上的线性算子,且对任意向量 \( v\),都有 \( \langle Tv,v\rangle=0\),那么 \( T=0\)。
证明:使用恒等式
\( \begin{aligned}\langle Tu,w\rangle=&\frac{\langle T(u+w),u+w\rangle-\langle T(u-w),u-w\rangle}{4}\\ &+\frac{\langle T(u+iw),u+iw\rangle+\langle T(u-iw),u-iw\rangle}{4}i\end{aligned}\)
即可得证。

但是,同样的假设,在实数空间中却得不出同样的结论来,比如,二维空间中把所有向量都逆时针旋转90度角。

可是,在实空间中可以存在旋转90度的映射,为什么在复空间中就没有这种映射?难道就不可以有一个线性变换像实空间中那样把每一个向量都旋转到垂直的位置上吗?

Continue reading

理解矩阵与矩阵乘积(三)

四、线性映射的复合

我们已经定义了行向量与列向量的乘法和矩阵与列向量的乘法,现在还差矩阵与矩阵的乘法没有定义。而矩阵与矩阵的乘法要与线性映射的复合联系起来。

设 \( U\)、\( V\) 和 \( W\) 分别为 r 维、n 维、m 维向量空间。\( g\) 和 \( f\) 分别是 \( U\) 到 \( V\) 和 \( V\) 到 \( W\) 的线性映射,那么易证两个线性映射的复合 \( f\circ g\) 也是线性映射。

取三个向量空间的基底,那么三个向量空间就有了坐标系统,如果知道了 \( f\) 和 \( g\) 在坐标系统下的表达式,即按前面所述,知道了它们对应的矩阵:\( f(v)=Av\),\( g(u)=Bu\),其中 \( A\) 为 \( m\times n\) 阶矩阵,\( B\) 为 \( n\times r\) 阶矩阵,那么 \( f\circ g\) 对应的矩阵是什么呢?

依据直观的推导,\( f\circ g(u)=f(Bu)=A(Bu)=ABu\),好像 \( f\circ g\) 对应的矩阵就是 \( A,B\) 两个矩阵的乘积,但是,我们目前并没有定义它们的乘积是什么,所以最后一个等号目前来讲还是没有意义的。

那么,我们就以求两个线性映射的复合映射所对应的矩阵为目的,定义两个线性映射的复合所对应的矩阵就是这两个映射对应矩阵的乘积,那么这个乘积如何来求呢?

Continue reading

理解矩阵与矩阵乘积(二)

本篇有些内容是孟岩《理解矩阵(三)》中观点的严密化与深化。

数域 \( \mathbf{F}\) 上的两个向量空间 \( U\) 到 \( V\) 的一个映射 \( \varphi\),若保持加法和数量乘法,即满足
\( \varphi(u_1+u_2)=\varphi(u_1)+\varphi(u_2)\)
\( \varphi(ku)=k\varphi(u)\)
则称 \( \varphi\) 为线性映射。

矩阵及矩阵的乘法与线性映射有十分重大的联系。为了看清这一点,我们采取以下步骤:

一、从一维空间谈起

Continue reading

理解矩阵与矩阵乘积(一)

线性代数中,有那么几个神秘又神奇的东西,总是让初学它的人琢磨不透,无法理解。今天讨论线性代数中第二个既基本又神奇的东西:矩阵的乘法。

回想起我们中学的那个时代,从初中到高中,数学课的内容完完全全是初等数学,纯粹的向量思想在数学课上不占有一席之地,中学阶段只有学习物理或复数的时候才能接触一点向量的身影。即使在最应该体现向量思想威力的地方,也因为只讨论二维的简单情形而省略掉了,只剩下纯粹的从几何角度推导代数性质,比如,直线方程,不是用向量法推导直线方程的一般形式,而是用定比分点;两直线垂直的条件,不是用向量内积为零,而是通过斜率的关系,等等。在中学唯一能够从数学课本中接触到的线性代数知识就只有一点点的行列式的简介,从解二元和三元一次方程组引入的行列式,而且属于选学内容,课堂上是不讲的。我当时看了看,觉得真是多此一举,既然一次方程组的解都已经用系数的符号表示出来了,为什么还要用行列式重新表示一遍?表达的内容没变,只是换了一套看上去工整漂亮的写法,有什么意义呢?

在这样的背景下,我进入大学,接触到一门蛮不讲道理的学科–高等代数。本来高中时看到用行列式表示方程的解已经够无聊了,到大学还要把这种无聊继续深入下去。为了一个小小的方程组,不惜动用人类最高的智商来创造一个个精致的概念,又是逆序数又是行列式,又是克莱姆法则,倒是得到了一个很漂亮的结果,但它到底有多少实用和理论的价值?

后来矩阵被定义出来了,那更是个无聊的东西,方程组还是原来那个方程组,只是把系数和未知数一分离,马上就出现了一个新的概念–矩阵。难道就非得把系数单独抽取出来变成矩阵的形式才能用高斯消元法解方程?它不就是方程之间加加减减的过程吗,即便带着未知数又能有多大的妨碍呢?带着未知数就不能讨论方程组的通解了?还定义矩阵的乘积,又把方程组写成一个矩阵和一个向量的乘积,我当时觉得实在是吃饱撑的!方程组还是那个方程组,换一种写法有什么不同?我思考它的时候还是需要把它还原为方程组的样子,倒是费了二遍力。是谁第一个引入了矩阵的概念?他的原始动机到底是什么?他似乎只是为了形式上的化简,并没有引入什么新的观念。但是巧的是这个人的一个无聊发明,竟然发展出一门学科来!不光方程组可以归结为矩阵的乘积,就连二次曲线、二次曲面,也表示成矩阵乘积了,矩阵和它们的乘积系统慢慢地脱离了方程组的范围,开始向其它方向渗透了,并且充斥了数学的大部分江山。这一切是为什么?难道这一切都在矩阵发明者的预料之中?如果发明矩阵的人意识到矩阵将来必有这些重大作用,那么他是怎么想到矩阵的这些应用的?他真的如此天资聪明?如果不是这样,那他为什么要发明矩阵这个东西?难道仅仅是偶然?可是这偶然之举为什么后来又如此巧合地展开出这么多理论?这些问题至今还是想不通。

但是今天的话题只是讨论矩阵和矩阵乘积,所以刚才把话题扯远了。每当想起大一时的代数课,我都要发一些牢骚,可见当时代数给我的影响有多深远!

关于矩阵乘积,比较老旧思想的教材不介绍矩阵乘积有什么意义,为什么要引入矩阵的乘积,只是叙述无端的定义:两个矩阵 \( A_{m\times n}, B_{n\times r}\) 的乘积定义为一个 \( m\times r\) 阶矩阵 C,C 的第 i 行第 j 列的元素是 A 的第 i 行和 B 的第 j 列元素分别相乘并相加的和,即 \[c_{ij}=\sum_{k=1}^n a_{ik}b_{kj}\]

稍微好一点的教材会介绍一些线性映射复合的背景:有三组未知数 \( x=(x_1,x_2,\dots,x_n)^T\)、\( y=(y_1,y_2,\dots,y_m)^T\) 和 \( z=(z_1,z_2,\dots,z_r)^T\),用 \( y_i\) 表示 \( z_i\) 的系数矩阵为 \( A\),用 \( x_i\) 表示 \( y_i\) 的系数矩阵为 \( B\),即
\( z=Ay, y=Bx\)
那么怎样用 \( x_i\) 来表示 \( z_i\)?
经过计算,\( z\) 的第 i 个分量 \( z_i\) 可以写成 \[z_i=\sum_{k=1}^m a_{ik} y_k=\sum_{k=1}^m a_{ik}\sum_{j=1}^n b_{kj} x_j=\sum_{j=1}^n(\sum_{k=1}^m a_{ik} b_{kj})x_j\]
即 \( z_i\) 表示成未知数组 \( x\) 的第 j 个分量 \( x_j\) 的系数是 \[\sum_{k=1}^m a_{ik} b_{kj}\] 因此定义两个矩阵 \( A\) 和 \( B\) 的乘积如上所述。

第一种讲述就是从第二种讲述的思想方法来的,却连定义的背景和来历什么的都没有讲,这显然是十分唐突的。况且这两种矩阵乘积定义的讲述都只是蛮力运算,如果只是为了定义出矩阵乘法的表达式,这两种讲述方式尚可接受,尤其是第二种讲法,提及了矩阵乘法就相当于两个线性变换的复合。但是接下来,要接触到矩阵乘法的更深层次的规律时,这样定义出的矩阵乘法就显得有些奇怪了。

比如,证明两个矩阵乘积的秩定理 \( \mathrm{rank}\,(AB)\le\mathrm{min}\{\mathrm{rank}\,A,\mathrm{rank}\,B\}\),乘积 \( AB\) 的每一列都是 \( A\) 的每一列的线性组合,每一行都是 \( B\) 的每一行的线性组合,从而证明这个不等式。但是,请问您是怎么从一大堆数的计算式子中看出这些关系的?我为什么就没看到?我不但没有看到,就算人家给我指出这种关系,我要想看清这些关系还是要费九牛二虎之力的。如果一个东西我理解起来感觉吃力,那么我会本能地考虑是否是我理解它的方式有问题,它应该还有另外一些更省力的理解途径,或者说,这个东西缺乏直观,如果我能直观地理解它,那么我就可以接受它。所以我想,还是应该有更加便捷的途径可以得到这些关系。其实这个不等式如果从映射复合的值域维数角度看应该是比较简单的,可惜的是当初除了矩阵,没有其它方式可以导出这个结果,向量空间的内容还没有学习到。

再比如,矩阵的分块乘法,为什么分块之后乘法的规则和把每一块看成数的乘法规则是一样的?

又比如,学过内积的坐标计算表达式后,学生会惊奇地发现,矩阵乘法的每个元素都是一个内积,为什么会是这样?内积和矩阵乘法之间为什么会有这么大联系?

面对这些问题,我知道很多人,包括很多老师都会告诉我,这些都是计算的结果,计算的过程书上写的明明白白,没必要去深究它背后有什么机理,只要能够确信这些结论,不用去管这些结论是如何得到的。

但是,我总是觉得,这样的推辞无异于填鸭式教育,蛮不讲理,让人生厌,甚至可能把一个曾经喜爱数学的人搞得从此厌恶这样的无理数学。因为第一,这些东西显得过于巧合了,计算无法解释这些巧合背后是否有更深层次的原因;第二,即使是计算得来的,还是无法解释这些计算的动机是什么,这些计算的结果是如何发现的?总应该有个自然点的理由能够说明为什么某人会去考察这些计算过程并得出结论的吧?总不能说一个人某一天没什么事情闲得无聊了就开始算,然后就发现了某些东西吧?他为什么就能看得那么远就知道他计算的东西最终能带给他不平凡的结果?告诉我一个东西却没有告诉我这个东西是如何发现的,那我怎么能有信心沿着前人的足迹向前探索呢?

今天分析当初的困难,多是因为没有整体思维,无法把矩阵当成一个整体来思考,见到向量可以想到那是空间中的一个箭头,但见到矩阵和矩阵乘法,完全想象不到它的整体是个什么东西,我只能想到它的每个元素就是一堆数经过一堆运算得到的结果。看到书上写的矩阵乘法,我的头脑里就出现了它的运算过程的动画:左边一横,右边一竖,左边一横,右边一竖,除此之外想象不到其他的东西了。听说某位数学家摆弄矩阵就像摆弄整数一样熟练,我当时也试图找到把矩阵当成一个整体的感觉,可是在没有空间直觉支持的情况下这种努力是见不到明显效果的。而且从前思考的都是低维空间的问题,对一维二维空间很熟悉,很少考虑高维空间的问题,对高维空间即不熟悉也不习惯,又没有外人指点矩阵代数究竟有什么几何意义,即使是在低维空间中,也没有用矩阵处理几何问题的经验,所以当时一直冷落代数。

现在觉得,为了培养高维空间对象的整体思维方式,一方面就是加强代数的几何直观,另一方面就是站在变换的角度统一抽象地处理矩阵,而不是仅仅把矩阵只当成一堆数的阵列,用线性变换的观点认识矩阵乘法,而不是把矩阵乘法当成一堆数又乘又加的运算。

基于这种原因,我们将以映射的观点重新认识矩阵与矩阵的乘法。

(待续)