Linear Algebra Done Right第九章注记和部分习题

注记部分:

1 定理 9.9 的另一种证明

前一章的注记部分中已叙述了复数向量空间上的相应结果的另一种证明,这一章充分利用上一章的结论,就可以用更简单的方式证明实数向量空间的结果–本章定理 9.9。

这个定理重述起来太长,所以这里省略。定理的 (a) 部分与上一章证法完全一样,也不用重复了(注意本章的情形与上一章定理8.10 的情形有些不同,在8.10中的矩阵完全是上三角的,而这里是分块上三角的。好在不论是书上的证明还是我们自己的证明都可以忽略这个区别,因为对角线上二维矩阵块都是没有特征值的,从而减去 \( \lambda I\) 之后都是可逆的,考察证明过程,可知只要对角线上的二阶矩阵块都是可逆的,那么对角线上独立的 0 的个数就等于 \( \dim\mathrm{null}\,T^n\))。那么这里只需考虑 (b) 的证明。首先证明以下引理,其实是比较简单也比较重要的结论:

引理1(兼答习题2和习题5):设 \( V\) 是二维实向量空间,\( T\in\mathcal L(V)\),那么 \( T\) 有特征值当且仅当 \( T\) 的特征多项式有实数根。
证明:设 \( T\) 的特征多项式为 \( p(T)\),根据定理9.7 前面两段的描述,不论 \( T\) 有没有特征值,都有 \( p(T)=0\)。
那么,如果 \( T\) 有特征值,即存在实数 \( \lambda\) 和非零向量 \( v\) 使得 \( Tv=\lambda v\),则 \( p(T)v=p(\lambda)v=0\),因此 \( p(\lambda)=0\) 从而 \( \lambda\) 是 \( p\) 的实数根。
反之,如果 \( p\) 有实根,那么 \( p(T)=(T-\lambda_1 I)(T-\lambda_2 I)=0\) 从而 \( \lambda_1,\lambda_2\) 其中必有特征值。

现在可以用这个引理把定理9.9 的 (b) 情形转化为 (a) 情形:

设 \( T\) 的矩阵为 \[ \begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_m\end{pmatrix}\] 要考虑的特征多项式为 \( p(T)=T^2+\alpha T+\beta I\),那么考虑 \( p(T)\) 的矩阵,其对角线上的矩阵块分别为
\( p(A_1),\dots,p(A_m)\)
如果 \( A_i\) 是 1×1 阶矩阵,即是一个实数,那么因为 \( p\) 无实根,所以 \( p(A_i)\not=0\);如果 \( A_i\) 是 2×2 的矩阵且不以 \( p\) 为特征多项式,那么因为 \( A_i\) 没有特征值,所以 \( p(A_i)\) 将是可逆的;如果 \( A_i\) 的特征多项式就是 \( p\),那么 \( p(A_i)=0\),所以,在 \( p(T)\) 的矩阵中,其对角线上独立的 0 (即不包含在某个非零的二阶矩阵块中的0)都来源于以 \( p\) 为特征多项式的那些小矩阵块,0的个数是 \( \dim\mathrm{null}\,p(T)^{\dim V}\),所以有 \( \frac{1}{2}\dim\mathrm{null}\,p(T)^{\dim V}\) 个二阶矩阵块以 \( p\) 为特征多项式。

部分习题解答:

3 设 \( A\) 是分块对角矩阵 \[ A=\begin{pmatrix}A_1&& 0 \\ &\ddots& \\ 0&&A_m\end{pmatrix}\] 其中 \( A_j\) 为方阵,证明 \( A\) 的特征值的集合等于 \( A_1,\dots,A_m\) 特征值集合的并集。
4 设 \( A\) 是分块对角矩阵\[ A=\begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_m\end{pmatrix}\]
其中 \( A_j\) 为方阵,证明 \( A\) 的特征值的集合等于 \( A_1,\dots,A_m\) 特征值集合的并集。
证明:两个题目只需利用以下事实:矩阵 \( A\) 可逆当且仅当 \( A_1,\dots,A_m\) 都可逆;矩阵 \( A\) 不可逆当且仅当存在 \( A_j\) 不可逆。以下证明这个事实。
设 \( A\) 对应的映射为 \( T\),记 \[ \begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_k\end{pmatrix}\]
对应的 \( T\) 的不变子空间为 \( U_k\)
当某个 \( A_j\) 不可逆时,考虑子矩阵 \[\begin{pmatrix}A_1&&* \\ &\ddots& \\ 0&&A_j\end{pmatrix}\] 它是 \( T\) 在不变子空间 \( U_j\) 上的限制 \( T|_{U_j}\) 对应的矩阵。从而可以找到一个非零向量 \( v\in U_j,v\not\in U_{j-1}\) 使得 \( Tv\in U_{j-1}\)。则 \( T\) 把子空间 \( U_{j-1}\oplus\mathrm{span}{v}\) 映射到了比它低一维的子空间 \( U_{j-1}\) 中。所以 \( \mathrm{null}\,T\not={0}\),即 \( T\) 不可逆,\( A\) 不可逆。
反之,如果每个 \( A_j\) 都可逆,那么显然 \( T\) 作用在基底上得到的向量组 \( Te_1,\dots,Te_n\) (它们的坐标是 \( A\) 的列向量)是线性无关的。

注:这两题也可以把对角线上的每个矩阵子块都分别化成分块上三角的,自然得出结论。

8 证明不存在 \( T\in\mathcal L(\mathbf R^7)\) 使得 \( T^2+T+I\) 是幂零变换。
证明:第一,因为 \( T^2+T+I\) 无实数根,所以根据本章结论,\( \dim\mathrm{null}\,(T^2+T+I)^{\dim V}\) 是偶数,不可能等于 7。
第二,奇数维的实数向量空间上的线性变换有特征值,即存在实数 \( \lambda\) 和非零向量 \( v\) 使得 \( Tv=\lambda v\),那么 \( (T^2+T+I)^{\dim V}v=(\lambda^2+\lambda+1)^7v\not=0\)。
(10题可利用8题的结论,11题利用10题的结论)

14 设 \( V\) 是 2 维向量空间而 \( T\in\mathcal L(V)\),证明如果
\( \begin{pmatrix}a&b \\ c&d\end{pmatrix}\)
是 \( T\) 的矩阵,那么 \( T\) 的特征多项式为 \( p(z)=(z-a)(z-d)-bc\)。
证明:如果 \( V\) 是实向量空间而 \( T\) 没有特征值,那么根据特征多项式的定义,结论显然成立。
如果 \( T\) 有两个相异的特征值,那么因为 \( p(T)=0\),可知 \( T\) 的两个特征值都是 \( p\) 的根,根据特征多项式的定义知结论成立。
如果 \( T\) 只有一个特征值 \( \lambda\),此时分两种情形:第一,如果这个特征值的特征子空间维数为2,即 \( T=\lambda I\),那么必有 \( b=c=0\),且 \( a=d=\lambda\),结论成立;第二,如果这个特征值的特征子空间只有1维,那么存在非零向量 \( v\) 使得 \( (T-\lambda I)v\not=0\)。因 \( \lambda\) 是 \( p\) 的其中一个根,所以 \( p(z)=(z-\lambda’ )(z-\lambda)\),因此有 \( p(T)v=(T-\lambda’ I)(T-\lambda I)v=0\)。因为 \( (T-\lambda I)v\not=0\) 且已经假设 \( T\) 只有一个特征值,所以 \( \lambda’=\lambda\),\( p(z)=(z-\lambda)^2\)。

【转】丘成桐:漫谈微分几何

今天很高兴能够在各位面前讲讲我做学问的经验,可以供大家参考一下。我讲「如何学好微分几何」的题目,主要是想跟大家讲讲有关于从前我做学问的态度,因为我是做几何的,所以我就讲做微分几何。很明显的,大部份的同学不会选几何,不过没有关系,其实就是讲讲我做学问的态度。

首先,讲讲我从前的一些经验。我从前在香港长大,在香港念中学、大学,然后到美国念研究所,所以至少在前一半跟大家的经验应该差不了太远,不过是时代有点不同。我在多年前念数学,你们现在念数学,看法上已经有许多不相同,事实上我也不太了解你们现在的想法。不过基本上,我们都是中国文化出生的,所以我想仍有一部份共同的地方。基本上我们是要讲怎么作科学研究,也就是纯科学的研究,我们要看的是我们的志向是怎样的。假如我们想做一个好的科学家,当然我讲的是怎么做一个好的数学家。先说我自己的经验,我从前在香港培正中学念中学的时候,就开始对数学有兴趣。当然还有一些其它的课程,我对数学有兴趣,一方面是受到我家庭的影响,我父亲是做哲学的,所以对于念数学一直都相当鼓励,到了中学以后,我父亲去世了。不过也因此对于自然科学有很浓厚的兴趣。另一方面受老师的影响也很大。我想很重要的当我们开始要做一个学问,尤其是你真的要做一个出色的科学家,跟你的兴趣和你一开始所立下的志向有很大的关系。就是说,开始的时候你期望能够做到什么。假如说开始的时候你根本不想做一个好的科学家,那么你就永远也不可能做一个好的科学家。从前有位大学老师跟我讲说:「假如你不买马票,你永远也中不了。」倒不是说我鼓励你们去买马票,是说假如你不准备做好的科学家,就永远也做不了一个好的科学家。不过是不是讲,你想做一个好的科学家,你就可以做个好的科学家呢?当然不是,你还要有很多其它的因素在里面,我想第一点是要你将做人的目标先决定。

我在国外二十多年了,也教了不少的学生,有些在世界上算是很出名,但有些不是太行。从这方面来讲,比较好的学生和不好的学生我可以晓得不同的经验。我想好的学生大部份一开始就决定他要做到什么程度的科学家,从很早就可以看得出来,因为有了志向以后,才晓得怎么去用功、怎么去花时间在上面。这看起来倒是老生常谈,因为你从小学、中学到大学,大概很多老师都跟你讲同样的意见,可能你听多了都觉得没有什么意思,但是事实上这是成功的第一个因素。我的一位老师跟我讲,你要决定以后你想做什么,讲明了,不是为名就是为利。当时我很惊讶,老师为什么讲这一句话。我们不能否定大部份的想法不是为名就是为利,同时这个想法也推动了不少科学的研究。不过我们也晓得,单是为名为利不可能将科学达到最高峰的研究,我们一定要对这个科学有浓厚的兴趣。我们应当晓得,做科学,我们有一个很纯正的想法,就是对真理的追寻,在真理的背后有一个很漂亮的境界在里面,我们到了一个境界以后,对我们追求学问的人来讲,是无法抗拒的,就算是没有名没有利,我们也希望能够将这个真理搞清楚。举例来讲,如果你喜欢下棋的话,有时你会晓得下到一半的时候,结局会是怎样,你非为名也非为利,当然可以讲说你是为了好胜,但是有时候你总是想追求,想晓得怎么解决这个问题。在科学上来讲我们要追求的是比这个高的境界。我为什么讲为名为利这个事实呢?举例来讲,我们这几年在哈佛大学里教了几个在大学里念数学念得很好的学生,可是到了毕业的时候,我晓得他们明明对数学有很大的兴趣,但是他们选取了完全不同的途径,他们有些人宁愿选取做生意或是到银行里面做事。我并不反对你们去做生意、赚大钱,我失望的缘故是因为这些学生明明是对做学问兴趣特别大,但是他们没有办法去抗拒赚钱的引诱而放弃了继续做学问的前途,有些人甚至过了几年赚了钱,又想重新再做学问,但问题是无论你资质有多好,一般来讲你将做学问的机会放弃以后,再想重新做起将会遇到许多困难。并不是说不可能,也曾有这种情形发生过,但是真正能够达到的情形,几乎是绝无仅有,做学问是不能中断的。我遇见过很多朋友,有些甚至是很有名的数学家,他们有些人会讲我现在一方面做行政的工作,一方面可以做学问,可是事实上,这是没有办法可以达到两者兼顾的情形。我们晓得做学问几乎是全心全意的工作,当对证明追寻的时候,很难说受到其它外界的打扰,仍能够达到很高的成功的。以我的经验来讲,在想问题的时候,晚上睡觉也在想这个问题,躺在床上也在想,早上起床第一件事就是想这个问题。我并不是讲你们也要这样子,我是希望你们在遇到一个问题要解决的时候,你要全力以赴,不可能在中间慢慢想一点而在其它也可以花点功夫,这样精神不集中的态度是不可能做好学问的。我想对大家做个建议,假如你想做个真正的好科学家的话,就不能够再往回走,假如你想做生意,那干脆一开始就不要想这个问题,并不是你要做个好的教员就要照我刚才讲的,要花这么多功夫,倒是要念好科学这是很重要的,所以这是第一点,立志很重要。

第二点我要讲的,我在国外多年,遇见过许多很出名的数学家,甚至许多有名的物理学家我也见过许多。在我认为并没有一个是真正的像一般报纸上所讲的是天才,在我所亲身认识的大科学家,都是经过很大的努力,才能够达到他所达到的成就。我的学生问我:「为什么你做的比我好?」,我说很简单,我比你用功。我在办公室或是在家里边,我天天在想问题,你们在外面玩,而我花了功夫在解决想了很久的问题,我总比你不想、不花时间成就大一点。你可能去听个大科学家或大数学家演讲,你会觉得漂亮得不得了,怎么一个人能够讲得这么好!这个人是个天才!可是你有没有想到,他在后面准备花了多少时间想这个问题?大概你们听过最出名的科学家费因曼,《费因曼物理》注1漂亮得不得了,所有出名的物理学家都这么讲,去听的人不是学生,都是老师或物理学家。费因曼在准备费因曼物理的时候是什么事都不做,就只有脑子在花功夫,整天在想这个问题,跟许多学生不停的在谈这个问题。费因曼是个有名的天才,可是他准备这个研究也花了许多不同的功夫。我想很多出名的科学家在有所表现出不同的时候,你会觉得他是天才,事实上他用在后面的功夫都是很不少的。

有许多很聪明很厉害的人可能是研究生甚至是教授,往往你给他一个问题,他可以很快给你一个答案,同时是很不错的一个答案。可是很多这样出色的学生或是教授,过了很久以后,你总会觉得他没有做出很好的成绩出来。问题是,你解决的问题太容易了;没有再花很多精神去考虑这个问题。尤其在我们中国人最缺乏的,就是在做中学生或是大学生的时候,没有将一个问题从头到尾仔细考虑清楚,并没有真正的全部了解,这是个很重要的问题。从一个很小的问题,我们可以引发很多不同而且有意
思的问题。思考要自己训练,不单是在联考或在大学的时候,老师出个题目,你考了一百分就完了,假如这样的话,你很容易就满足你自己,你不觉得问题有什么意思。往往出名的研究是在很平凡的问题里面,不停的思考所找出来的,很多人因为很快将问题解决了,便不愿再想下去,所以不能够再启发新的东西。科学的研究,不是解决人家已经晓得的问题。当一个科学家问一个好的问题的时候,即是成功的一半。因为科学的推动是从不断的找寻新的问题,新的方向出来的,解决从前的问题虽是个重要的推动方向,可是我们还要找出新的方向,而不单是解决从前的问题。我们知道在物理上解决问题的时候,往往大的或出名的公式是将前面固定的理论推翻,而找出新的路子。为什么大数学家或大物理学家能够做到这个地步呢?因为他们不断的问问题。有时候在一般人来讲很明显的问题,在出名的科学家看起来,就不见得很明显。为什么不明显呢?因为我们有不同层次的问题要一路考虑下去。问问题的能力是一个很重要的训练,并不是花很多功夫就可做到,我想在我们中国的小学、中学或大学里都没有很好的做到这一点,我想从小应该做到这一点的。

在我们来看数学跟其它物理、化学或生物等实验科学有那些不同?物理或化学等科学是从一般实验、现象界所找的题目,最后再经过实验的证实,才能算是个成功的理论。理论物理学家可以发展很多不同漂亮的理论,但最后假如不能够在实验里做出来的话,对物理学家来讲就是一篇废话。数学家有个好处。就是说,我们做了学问,一方面大部份是从一般的科学里面产生给我们的,一方面可以当作文学作品来欣赏。我们的取材多采多姿,一方面是比较基本的,从自然界或物理上的基本粒子、广义相对论、重力场去拿出很多基本的大自然的问题。这方面对近代几何学上的影响很大,另一方面可从比较没那么基本的理论里发生出来。所谓不基本,并不是说不重要。我们要了解到我们有些问题是从工业界来的,譬如说做飞机、做螺丝,甚至做流体变动的问题,都是可产生许多有趣的几何问题或是数学问题。例如说机械人手怎么去拿东西?这都可以看做是基本的几何问题,物理学家不一定有兴趣,可是数学家却有很大的兴趣。另外我们也可以对与实际问题不相近的问题产生兴趣,我们对一个图画得漂不漂亮,我们也可以在数学上研究。几何在数学上的取材有三个不同方向:第一是从基本自然界里产生的问题。从基本粒子、重力场到电磁波基本上如何产生的种种重要几何问题,从表面上你看不出来为什么它跟几何有关,但事实上近代物理将很多这种基本场论的问题变成几何问题,对微分几何来讲有很大的贡献。第二是刚才所讲,工业界与古典力学出了很多很重要的几何问题。第三就是纯粹从美的观点来找问题。举例来讲,从数论里面找了许多很漂亮的问题,尤其是近十或二十年来,大部份重要的数论问题大多是用几何的方法来解决的,这是几何在数学上三个重要的取材方向。

我为什么讲取材的问题呢?因为很多中学生或大学生在念几何或是某些数学课程的时候,认为我们念那个学科就念那个学科就够了,而不要念其它的学问,这是个很错误的观念。因为数学里面每一门的学问都有密切关联的,不单是数学,其实所有的理论科学中间都有很密切的关系。例如我们刚刚所讲的,高能物理与数学的关系,或是化学甚至生物都跟数学有很大的关系,所以我想怎么学几何呢?第一点是当你决定好要做一个好的几何学家时,你一定要广泛的学不同的学问,基础要比较广,如微分方程代数、物理学以及其它学科,至少在心理上有个准备,就是说这些学科将来是对你有帮助的。你听起来会觉得这是很困难的事情,你不可能学会这么多种不同的学问。这主要的分别就是你要有一个层次,你的专科是那一方面,就要多学一点,但不可忘掉其它的学科。有时在某个意义下,我们可以很惊讶的看到同一个学问、同一个命题,在两个不同的学科里面,可以以不同的方法出现,就是说以不同的方法证明。我想主要的原因是根本上这两个学科的分别并不是很大。在几十年前有个出名的物理学家说数学有不可思议的力量。为什么数学能够在物理上有这么大的影响呢?因为从物理学家的看法,数学家祇是在玩一些简单的符号,纯粹是在家里想一些自己的问题,与自然界的关系好象不大,其实这是个错误的想法。我们数学家研究的问题是很具体的,只是有不同的层次,所以有点不同而已。举例来说我们研究微分几何上一个最简单的图形-圆球,这圆球可以说是一个抽象的观念,我们也可以说它是自然界很具体的一部份。也就是说我们将所研究的圆球视为自然界的一部份,其实跟物理的现象差不了太远的。尤其在现代的高能物理里,我们研究基本粒子,尤其到了量子力学的观念以后,因为能量已经到了很高的地步,所以有很多根本没有办法做实验,所以基本上也是在家里或课堂里或办公室里用纸笔来算,这跟数学家想象的差不了太远。假如物理学家可以这么做,表示数学家也能够坐在家里面而对自然界达到某种程度的了解。

为什么我要讲这些呢?这些与微分几何有什么关系呢?我要讲的是你在选题的时候,我们虽然有个自由度对于选题与自然界无关,但是我们也有一个限度在里面,假如我们选的问题与现实相差太远,最后我们的命题会被淘汰掉。在历史上出现很多不同的研究,过了十年、二十年后就完全被淘汰的。你看现在的图书馆里面有许多的文章出现,不过再过个十年八年以后,我想大部份的文章是会被淘汰掉的,根本在整个数学历史上起不了任何作用。这是因为很多的文章实在没有解决问题,其次是对我们研究的对象没有产生任何效果。所以虽然我们数学界不用时间来做证明,可是我们有某种程度的测试。一般来讲,证的很好的数学,二十年或五十年内都可以看到它在现实里出现帮助。我们晓得在这个二十年以来,从前许多不重要的问题,在今日的工程上发生很大的影响。举例来讲,从前在数论里对于质数的搜查这个问题,这完全是一个无聊的命题。就是说一个很大的数,你怎么将它因子分解得很快。近十多年来,在国防科学上这问题变成一个重要的命题,有许多国防科学家在做这方面的研究,所以说数学上的选题很重要。为什么因子分解很重要呢?表面上看来跟真正的用途好象没有什么关联,可是它是一个很自然的问题,一个很大的整数它怎么分解,很快地,表面上并不重要,但可以帮助我们了解质数的分布情形,所以我说选题是一个很重要的问题。我记得从前我们在做大学生的时候,花了很多功夫去念一些文章与参考书,有些对数学来讲是很无意义的,可是反过来说因为花了很多功夫,所以可以了解到有些问题比较重要,有些问题比较不重要,所以花的功夫并没有白费。

其次我们讲做一个学生应该是怎么一个看法。对于做数学或做微分几何来讲,我觉得研究的气氛很要紧,尤其在中国的环境里
,好象是不太容易培养出这种气氛来。假如你旁边的朋友或同学跟你谈的都是其它的问题,譬如说股票涨了或跌了或其它问题,久而久之,你大概对于做学问也没有很大的兴趣,所以培养做学问的态度与你交的朋友、跟的老师的关系很大。如果你们时常讨论学术上的问题,你就不会觉得自己很孤单,能够激励你对数学上有更大的兴趣。假如你自暴自弃,就是说你认为自己不能够在数学上做研究,不能够在数学上达到贡献的话,你永远也达不到,而且同时也影响到你旁边的朋友,使得大家都不能向前走。我们晓得许多出名的数学家甚至在牢里也可以写一些出名的文章,倒不是你永远关在牢里就能做好的文章,是说人在最困难的时候也可以做研究。除了气氛很重要外,你也需要得到先进的支持,从前我们念中学的时候,念了很多关于做学问的方法,从前觉得很好笑,以后念书念得多了以后就觉得这些很重要,事实上这些是很重要的经验。有句话说「学而不思则罔,思而不学则怠」,你单是学而不想是不行的,你单是想而不学也是不行的,这两句话看起来很简单,其实就是怎么分配你的学习跟思想,这是一个很微妙很重要的问题。一个人无论你多用功多天才,你假如不将前人做过的东西去体验去学习,是不可能做好的。这道理很简单,一个人的智能有限,我们不可能与前面十年、五年所有人做过的加起来的智能相比,我们要靠前人的经验,要靠他们的启发,才能够向前迈进,虽然有人自夸的讲比他们加起来都行,我不相信这种情形,也没见过这种情形。所以出名的贡献如爱因斯坦、牛顿的贡献,也是在前人的成果方面再向前走一大步或一小步。所以学是一定要的,可是如果你学过这个东西以后而不去思考,不去消化,就算你可以考第一,考一百分,但是你不想是绝对没有用的。我们看过很多出名的天才,十二岁就拿到学士学位,甚至拿了很高分,可是往往我们看不出他以后的成就。为什么很多所谓的天才在以后的科学发展里没有任何的贡献?这是因为他们没有思考,没有思考在科学上完全不会引起任何的波澜、任何的贡献,对于整个科学完全没有好处。所以学了以后一定要思考,怎么分配你的学习跟思考就往往要有导师的帮忙或是同学的帮忙。所谓的帮忙并不是说老师跟你讲你应当这么做或应当怎么做,这样往往是没有很大的效果,所以我刚刚讲的气氛很重要。从人家用功的程度或是讲话的态度的启发,或是讲话的时候能够去听,追根出什么东西来,从它而得到很大的帮助。从前我到柏克莱去念研究所时,我花了很多功夫去听很多不同的科目,有些人觉得很奇怪,为什么我会去听那些课?我觉得这些课对我有好处,过了几十年后我还是觉得有好处。有些课在我去听的当时可能不懂,可是听了还是觉得有好处,因为一个人的脑袋的想法并不是那么简单的,有时候某些东西当时可能不懂,可是慢慢的就能领悟很多东西。我举例来讲,我做博士论文的时候,我刚好要用到群论的东西,当时我问过许多专家,但是都不懂,我突然想到从前在某一课上听过一个有关这方面的论文,我忘了当时讲什么课,但我记得大概在那里可以找这方面的文章,所以我花了2天的时间在图书馆,结果给我找到差不多是我所要的文章。假如当初不去听这门课的话,我完全没有这个机会,所以有时候听一门不懂的课,有很多不同的帮助,所以很多研究生我跟他们讲,你们去听课不一定要懂,你坐在那边总比不坐在那边好,你不坐在那边的话,你完全不可能知道有其它的方法。

我想最后还是你对整个学问有多大兴趣的问题,假如你对这个学问兴趣不大的话,你没办法长年累月的坐在图书馆,坐在办公厅里,或是坐在一个课堂上听课,所以你一定要先决定你对这学问的兴趣有多大,当然做研究还有许多其它方面比较复杂的原因,以后有机会我们再讲下去。我想现在你们在大学的阶段,最要紧的是决定以后你要做什么东西,其它的可能就容易做到了。

Linear Algebra Done Right第八章注记和部分习题

注记部分:

1 \( \dim\mathrm{null}\,T^k\) 随着 k 的增加量

\( \dim\mathrm{null}\,T^k\) 是 k 的单调递增函数,而且当 k 达到某一个数值之后,\( \dim\mathrm{null}\,T^k\) 就恒定不变了。但是书上并没有说它的增加有何规律,是每次都增加相同的维数,还是增加的维数可能有变化?换句话说,\( \dim\mathrm{null}\,T^{k+1}-\dim\mathrm{null}\,T^k\) 有什么规律?它是恒定不变的,还是忽大忽小的,或是有什么别的规律没有?

首先想象 \( \mathrm{null}\,T^{k+1}\) 比 \( \mathrm{null}\,T^k\) 多出来的维数是从哪来的?有些向量在 \( \mathrm{null}\,T^{k+1}\) 里,却不在 \( \mathrm{null}\,T^k\) 里,那么 \( T^k\) 作用在这些向量上不等于零,但再用 \( T\) 作用一下就变成零了,也就是 \( T^kv\not=0, TT^kv=0\),那么 \( T^kv\in\mathrm{null}\,T\),且 \( T^kv\in\mathrm{range}\,T^k\)。那么我们猜想,是否应有 \[ \dim\mathrm{null}\,T^{k+1}=\dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k)+\dim\mathrm{null}\,T^k\] 成立?或者,等价地(利用值域-零度定理),有 \[ \dim\mathrm{range}\,T^k=\dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k)+\dim\mathrm{range}\,T^{k+1}\] 成立?

答案是肯定的,因为 \( U=\mathrm{range}\,T^k\) 是 \( T\) 的不变子空间,设 \( S=T|_U\),那么 \( \mathrm{null}\,S=\mathrm{null}\,T\cap U\),\( \mathrm{range}\,S=\mathrm{range}\,T^{k+1}\),则由值域-零度定理 \( \dim U=\dim\mathrm{null}\,S+\dim\mathrm{range}\,S\) 可得结论。

这样,因为 \( \dim(\mathrm{null}\,T\cap\mathrm{range}\,T^k)\) 随着 k 增加而单调递减,那么 \( \dim\mathrm{null}\,T^k\) 的增量也单调递减,直到某个整数使其增量为零,那么 \( \dim\mathrm{null}\,T^k\) 和 \( \dim\mathrm{range}\,T^k\) 就都不会变化了。

此时,用 \( T^k\) 代替 \( T\),再利用增量公式,因为 \[ \dim\mathrm{null}\,T^{2k}=\dim(\mathrm{null}\,T^k\cap\mathrm{range}\,T^k)+\dim\mathrm{null}\,T^k=\dim\mathrm{null}\,T^k\] 所以这个时候 \( \dim(\mathrm{null}\,T^k\cap\mathrm{range}\,T^k)=0\),故有 \[ \mathrm{null}\,T^k\cap\mathrm{range}\,T^k={0}\] 和 \[ \mathrm{null}\,T^k\oplus\mathrm{range}\,T^k=V\)

2 定理 8.10 的另一个证明

定理8.10:设 \( T\in\mathcal L(V), \lambda\in\mathrm F\),那么如果在一组基底下 \( T\) 的矩阵是上三角的,则 \( \lambda\) 在对角线上出现的次数等于 \( \dim\mathrm{null}\,(T-\lambda I)^{\dim V}\)。
证明:不失一般性,我们还是设 \( \lambda=0\)。
设在一组基底 \( e_1,e_2,\dots,e_n\) 下 \( T\) 的矩阵为 \( A\),为上三角矩阵,那么 0 就会出现在对角线上。我们证明的思路是另外找到一组基底,使得 \( T\) 的矩阵对角线上的 0 都集中在左上角,同时 0 的个数不变,即 \[ \begin{pmatrix}0&&&&&* \\ &\ddots&&&& \\ &&0&&& \\ &&&\lambda_1&&\\ &&&&\ddots& 0 \\&&&&&\lambda_r\end{pmatrix}\] 那么左上角是个幂零矩阵,\( T^n\) 在这个子空间上是零,其对应子空间的维数等于对角线上 0 的个数,同时 \( \mathrm{range}\,T^n\) 的维数是对角线上非零元素的个数,即证得结论。
为了把对角线上的 0 都移动至左上角,第一步,从对角线左上角算起第一个 0 入手,如果它就在第一行第一列,那么第一步完成。否则,假设第一个 0 在第 m 行第 m 列,那么考虑矩阵的前 m 行前 m 列的元素构成的子矩阵,设其为 \[ \begin{pmatrix}\lambda_1&&&* \\ &\ddots&& \\ &&\lambda_{m-1}& \\ &&&0\end{pmatrix}\] 它是 \( T\) 在 \( U=\mathrm{span},(e_1,e_2,\dots,e_m)\) 上的限制 \( T|_U\) 的矩阵。显然 \( T|_U\) 有特征值 0,设对应的特征向量为 \( v\),并且因为 \( T\) 在 \( \mathrm{span},(e_1,e_2,\dots,e_{m-1})\) 上是可逆的,所以 \( v\not\in\mathrm{span},(e_1,e_2,\dots,e_{m-1})\),那么 \( \mathrm{span},(v,e_1,e_2,\dots,e_{m-1})=U\)。我们把向量组 \( v,e_1,e_2,\dots,e_{m-1}\) 作为 \( U\) 的新基底,那么 \( T|_U\) 在这一组基底下的矩阵是 \[ \begin{pmatrix}0&&&* \\ &\lambda_1&& \\ &&\ddots& \\ &&&\lambda_{m-1}\end{pmatrix}\] 用 \( U\) 的新基底替换原来的基底之后,\( T\) 对应的矩阵的右下角的 n-m 行和 n-m 列构成的子矩阵没有改变。因此,这样的变换并没有增加或减少对角线上 0 的个数。
接下来,用同样的方法处理除第一行与第一列之外的元素构成的矩阵(它对应的映射是 \( P_WT|_W\),其中 \( W=\mathrm{span},(e_2,e_3,\dots,e_n)\)),把对角线上的下一个 0 放在第二行第二列的位置。
依此步骤,直到对角线上所有的 0 都移动到左上角。命题得证。

3 引理 8.40 的另一种证明

引理8.40:如果 \( N\in\mathcal L(V)\) 是幂零矩阵,那么存在向量 \( v_1,\dots,v_k\in V\) 使得
a) \( (v_1,Nv_1,\dots,N^{m(v_1)}v1,\dots,v_k,Nv_k,\dots,N^{m(v_k)}v_k)\) 是 \( V\) 的基底;
b) \( (N^{m(v_1)}v1,\dots,N^{m(v_k)}v_k)\) 是 \( \mathrm{null}\,N\) 的基底。
证明:因为 \( \mathrm{null}\,N\subset\mathrm{null}\,N^2\subset\dots\subset\mathrm{null}\,N^r=V\),我们取子空间 \( W_r\) 使得 \( \mathrm{null}\,N^r=\mathrm{null}\,N^{r-1}\oplus W_r\),那么 \( W_r\) 中的任何非零向量 \( v\),有 \( N^{r-1}Nv=0,N^{r-2}Nv\not=0\),因此 \( Nv\in\mathrm{null}\,N^{r-1},Nv\not\in\mathrm{null}\,N^{r-2}\)。
定义 \( N(W_r)={Nv:v\in W_r}\),那么 \( N(W_r)\subset\mathrm{null}\,N^{r-1}\) 且 \( N(W_r)\cap\mathrm{null}\,N^{r-2}={0}\)。那么存在子空间 \( W_{r-1}\),使得 \( \mathrm{null}\,N^{r-1}=\mathrm{null}\,N^{r-2}\oplus W_{r-1}\),并且 \( N(W_r)\subset W_{r-1}\)。
以此类推,取子空间 \( W_{r-2},\dots,W_2\) 使得 \( \mathrm{null}\,N^i=\mathrm{null}\,N^{i-1}\oplus W_i, i=2,3,\dots,r\) 并且 \( N(W_{i+1})\subset W_i\),\( i=2,3,\dots,r-1\)。
令 \( W_1=\mathrm{null}\,N\),那么 \( W_1,\dots,W_r\) 满足 \[ W_1\oplus W_2\oplus\dots\oplus W_r=V\] 取 \( W_r\) 的基底 \( v_1,\dots,v_s\),那么 \( Nv_1,\dots,Nv_s\in W_{r-1}\),因为 \( W_r\cap\mathrm{null}\,N={0}\),所以 \( Nv_1,\dots,Nv_s\) 线性无关,向 \( Nv_1,\dots,Nv_s\) 中添加向量 \( v_{s+1},\dots,v_j\) 使它们成为 \( W_{r-1}\) 的基底,并取得向量 \( N^2v_1,\dots,N^2v_s,Nv_{s+1},\dots,Nv_j\),依次类推,最后将所有的向量放在一起,得到 \[ v_1,Nv_1,\dots,N^{m(v_1)}v1,\dots,v_k,Nv_k,\dots,N^{m(v_k)}v_k\] 因为出自每个 \( W_i\) 的向量组是 \( W_i\) 的基底,而诸 \( W_i\) 的和又是直和,所以整个向量组是 \( V\) 的基底,并且其中 \( (N^{m(v_1)}v1,\dots,N^{m(v_k)}v_k)\) 是 \( W_1=\mathrm{null}\,N\) 的基底。证毕。

部分习题解答:

3 设 \( T\in\mathcal L(V)\),m 是正整数,且 \( v\in V\) 是满足 \( T^{m-1}v\not=0\) 但 \( T^mv=0\) 的向量。证明 \( (v, Tv, T^2v,\dots,T^{m-1}v)\) 线性无关。
证明:设 \( a_1v+a_2Tv+\dots+a_mT^{m-1}v=0\),两边用 \( T^{m-1}\) 作用,得到 \( a_1T^{m-1}v=0\),由于 \( T^{m-1}v\not=0\),那么 \( a_1=0\);
两边用 \( T^{m-2}\) 作用,得 \( a_2=0\),等等,可知 \( a_1=a_2=\dots=a_m=0\)。

5 设 \( S,T\in\mathcal L(V)\)。证明如果 \( ST\) 是幂零的,那么 \( TS\) 也是幂零的。
证明:如果 \( ST\) 是幂零变换,那么 \( (ST)^{\dim V}=0\),因此 \( (TS)^{\dim V}=(TS)^{\dim V+1}=0\)。

13 设 \( V\) 是 n 维复向量空间,且 \( T\in\mathcal L(V)\) 满足 \( \mathrm{null}\,T^{n-2}\not=\mathrm{null}\,T^{n-1}\)。证明 \( T\) 至多有两个不同的特征值。
证明:设 \( \lambda_1,\lambda_2,\dots,\lambda_m\) 是 \( T\) 的全部特征值,那么 \[ V=\mathrm{null}\,(T-\lambda_1 I)^n\oplus\dots\oplus\mathrm{null}\,(T-\lambda_m I)^n\] 如果 \( T\) 至少有三个特征值,那么以上各个子空间的维数都不超过 n-2。那么在每一个不变子空间中都有 \( \mathrm{null}\,T^{n-2}=\mathrm{null}\,T^{n-1}\),则在整个空间中此等式也成立,矛盾。

20 设 \( T\in\mathcal L(V)\) 是可逆变换。证明存在多项式 \( p\in\mathcal P(F)\) 使得 \( T^{-1}=p(T)\)。
证明:映射序列 \( I,T,T^2,\dots,T^{n^2}\) 必线性相关,则有不全为零的数 \( a_0,a_1,\dots,a_{n^2}\) 使得 \[ a_0I+\dots+a_{n^2}T^{n^2}=0\] 设第一个不是零的系数为 \( a_m\),那么因为 \( T\) 可逆,上式两边同时乘以 \( T^{-m}/a_m\) 则有 \[ I+\frac{a_{m+1}}{a_m}T+\dots=0\] 设 \( p(T)=-\frac{a_{m+1}}{a_m}I-\frac{a_{m+2}}{a_m}T-\dots\),则有 \( Tp(T)=I\),因此 \( p(T)=T^{-1}\)。

28 设 \( a_0,\dots,a_{n-1}\in\mathbf C\),某线性变换在标准基底下的矩阵是 \[ \begin{pmatrix}0&&&&&-a_0 \\ 1&0&&&&-a_1 \\ &1&\ddots&&&-a_2 \\ &&\ddots&&&\vdots \\ &&&&0&-a_{n-2} \\ &&&&1&-a_{n-1}\end{pmatrix}\] 找到它的最小多项式与特征多项式。
解答:设这组基底为 \( e_1,e_2,\dots,e_n\),那么 \( e_2=Te_1,e_3=T^2e_1,\dots,e_n=T^{n-1}e_1\),并且 \( T^ne_1=-a_0e_1-a_1Te_1-\dots-a_{n-1}T^{n-1}e_1\),设 \( p(x)=x^n+a_{n-1}x^{n-1}+\dots+a_0\),那么 \( p(T)e_i=p(T)T^{i-1}e_1=0, i=1,2,\dots,n\) 从而 \( p(T)=0\)。又因为 \( e_1,Te_1,T^2e_1,\dots,T^{n-1}e_1\) 线性无关,所以 \( p(x)\) 就是最小多项式。因为最小多项式为 n 次的,所以特征多项式也为 \( p(x)\)。

30 设 V 是复向量空间,且 \( T\in\mathcal L(V)\)。证明 \( V\) 不能分解为 \( T\) 的非平凡不变子空间的直和当且仅当 \( T\) 的最小多项式形如 \( (T-\lambda I)^{\dim V}\),其中 \( \lambda\in\mathbf C\)。
证明:如果 \( V\) 不能分解为 \( T\) 的非平凡不变子空间的直和,那么 \( T\) 只有一个特征值,设为 \( \lambda\),\( T\) 的最小多项式是形如 \( (T-\lambda I)^r\) 的多项式,其中 \( r\le\dim V\)。
为证明 \( r=\dim V\),考虑 \( T\) 的 Jordan 型矩阵,其次对角线上必定没有 0,即形如 \[ \begin{pmatrix}\lambda&1&& 0 \\&\lambda&\ddots& \\ &&\ddots&1 \\ 0&&&\lambda\end{pmatrix}\] 的矩阵,那么如果 \( k<\dim V\),则 \( (T-\lambda I)^k\not=0\),因此其最小多项式为 \( (T-\lambda I)^{\dim V}\)。
如果 \( T\) 的最小多项式形如 \( (T-\lambda I)^{\dim V}\),那么 \( T\) 只有一个特征值 \( \lambda\),假设 \( V\) 可以分解为 \( T\) 的非平凡不变子空间的直和,那么因为在每个不变子空间上 \( (T-\lambda I)\) 是幂零的,所以最小多项式的次数不超过每个子空间的维数,其必定小于 \( \dim V\),矛盾。

Linear Algebra Done Right第七章注记和部分习题

注记部分:

1 命题 7.2 为何在实数空间不成立?

参见本博客文章《理解复数域上的向量空间(第一篇)》

2 \( U\) 是线性算子 \( T\) 的不变子空间,那么 \( T^*|_U=(T|_U)^*\) 是否成立?

在证明实空间自伴算子谱定理的时候,中间有一部,设 \( S=T|_{U^\perp}\) 然后验证 \( S\) 在 \( U^\perp\) 上也是自伴的。为什么这么验证呢?为什么不根据 \( T\) 是自伴的并且 \( U^\perp\) 是不变子空间这个事实,从而直接说 \( T|_{U^\perp}\) 是自伴的?
这涉及一个问题:如果 \( T\) 是一个一般的映射,\( U\) 是 \( T\) 的不变子空间,那么是否一定有 \( T^*|_U=(T|_U)^*\)?

这是不一定的,设
\( T=\begin{pmatrix}1&1\\ 0&1\end{pmatrix}\)
而 \( U=\{(x,0)\}\) 那么 \( U\) 是 \( T\) 的不变子空间。
那么 \( (T|_U)^*\) 是 \( U\) 上的单位变换,但 \( T^*|_U\) 却把 x 轴映射到了直线 y=x 上。\( U\) 不一定是 \( T^*\) 的不变子空间。

之所以出现这种情况,是因为在伴随的定义中,任意 \( w\),要求取 \( T^*w\) 是满足
\( \forall v, \langle Tv,w\rangle=\langle v,T^*w\rangle\)
的那个唯一的向量。
在 \( U\) 中的任意一个向量 \( w\),如果我们找到 \( (T|_U)^*w\in U\) 满足
\( \forall u\in U, \langle Tu,w\rangle=\langle u,(T|_U)^*w\rangle\)
上式中的 \( u\) 也只是限制在 \( U\) 中的,如果把 \( u\) 的范围扩大到整个空间中,那么上面的内积等式不一定成立。因此 \( (T|_U)^*\) 不一定等于 \( T^*|_U\)。

如果考虑 \( (T|_U)^*\) 和 \( T^*|_U\) 二者的关系,那么下面的事实是成立的:记 \( P_U\) 为到子空间 \( U\) 的正交投影,那么 \( (T|_U)^*=P_UT^*|_U\)。 证明也很容易。这样,\( (T|_U)^*=T^*|_U\) 能够成立的充要条件为 \( U\) 也是 \( T^*\) 的不变子空间。

3 实空间变换矩阵的分块上三角化与实空间的正规、自伴算子谱定理

如果实空间的分块上三角矩阵的相关内容放在第五章的位置,那么实空间的谱理论证明就变得跟复空间谱定理一样容易证明。它们不论从形式上还是从证明方法上都没有什么本质区别。

4 自伴算子乘积什么时候是自伴的?

问题:设 \( S\) 与 \( T\) 都是向量空间 \( V\) 上的自伴算子,那么 \( ST\) 和 \( TS\) 是自伴的吗?
由 \( (ST)^*=T^*S^*=TS\),如果 \( S\) 与 \( T\) 可交换,即 \( ST=TS\),那么有 \( (ST)^*=ST\) 和 \( (TS)^*=TS\),即两者都自伴。反过来若 \( ST\) 自伴,则 \( ST=TS\)。

但是 \( S\) 与 \( T\) 二者不一定是可交换的,反例如下:设
\( S=\begin{pmatrix}0&1\\ 1&0\end{pmatrix},T=\begin{pmatrix}1&0\\ 0&2\end{pmatrix}\)
那么
\( ST=\begin{pmatrix}0&2\\ 1&0\end{pmatrix}\not=\begin{pmatrix}0&1\\ 2&0\end{pmatrix}=TS\)

那么 \( S\) 与 \( T\) 满足什么条件时二者是可交换的呢?以下是一个充要条件:

命题1:设 \( S,T\) 是 \( V\) 上的线性变换,\( T\) 自伴,那么 \( ST=TS\) 当且仅当 \( T\) 的每个特征子空间 \( \mathrm{null}\,(T-\lambda I)\) 是 \( S\) 的不变子空间。
证明:如果 \( ST=TS\),那么 \( \forall v\in\mathrm{null}\,(T-\lambda I), (T-\lambda I)Sv=S(T-\lambda I)v=0\),这说明 \( Sv\in\mathrm{null}\,(T-\lambda I)\),因此 \( \mathrm{null}\,(T-\lambda I)\) 是 \( S\) 的不变子空间。
反过来,如果 \( T\) 的每个特征子空间都是 \( S\) 的不变子空间,那么在一个特征子空间 \( \mathrm{null}\,(T-\lambda I)\) 里的任意一个向量 \( v\),有 \( TSv=\lambda Sv=S(\lambda v)=STv\)。
再由自伴算子的谱定理,
\( V=\mathrm{null}\,(T-\lambda_1I)\oplus\mathrm{null}\,(T-\lambda_2I)\oplus\dots\oplus\mathrm{null}\,(T-\lambda_mI)\)
其中 \( \lambda_1,\lambda_2,\dots,\lambda_m\) 是 \( T\) 的全部特征值,可知任意向量 \( v\),有
\( \displaystyle TSv=\sum_{i=1}^mTSv_i=\sum_{i=1}^mSTv_i=STv\)
证毕。

备注:这个命题是从分析 \( S,T\) 的矩阵关系的过程中得到的,即设 \( T\) 在某正交基底下为对角形,分析另一个矩阵与这个对角矩阵可交换的条件,最后从元素满足的条件总结出这个命题。后来发现第五章习题已经讨论过这个问题的一半了。

5 正定算子的平方根

如果 \( \dim V>1\),那么单位变换 \( I\) 有无穷多个平方根。以二维空间为例,任意一个角度 \( \theta\),变换
\( \begin{pmatrix}\cos\theta&\sin\theta\\ \sin\theta&-\cos\theta\end{pmatrix}\)
都是单位变换的平方根。
如果把上面的变换写成复平面上的变换,那么 \( f(z)=\bar ze^{i\theta}\) 是复平面上单位变换的平方根,即 \( f(f(z))=1\)。它不是复数空间上的线性变换,但是如果把复数域看成实数线性空间,它是线性变换。

\( I\) 的上述形式的平方根都是自伴的,\( I\) 也有非自伴的平方根,比如,只要 \( a^2+bc=1\),那么
\( \begin{pmatrix}a&b\\ c&-a\end{pmatrix}^2=I\)
可见正定算子的平方根可以不是自伴的。

由此可知,一个正定算子,只要有一个特征值的重数超过1(即这个特征值的特征子空间超过一维),那么它有无数个平方根,其中也有无数个自伴的平方根。

如果一个二维空间上的正定算子有两个相异的特征值,那么在某正交基底下它的矩阵为
\( \begin{pmatrix}\lambda_1&0\\ 0&\lambda_2\end{pmatrix}\)
我们要找到它的所有平方根,即找到满足
\( \begin{pmatrix}a&b\\ c&d\end{pmatrix}^2=\begin{pmatrix}a^2+bc&b(a+d)\\ c(a+d)&d^2+bc\end{pmatrix}=\begin{pmatrix}\lambda_1&0\\ 0&\lambda_2\end{pmatrix}\)
的所有矩阵。
因为 \( \lambda_1\not=\lambda_2\),所以\( a^2\not=d^2\),故 \( a+d\not=0\),因此 \( b=c=0\),那么 \( a^2=\lambda_1, d^2=\lambda_2\),这个正定算子只有有限个(4个)平方根。

下面证明一般性结论:
命题2:如果一个 n 维空间上的正定算子 \( B\) 有 n 个相异的特征值,那么它只有有限个(\( 2^n\) 个)平方根,并且其平方根都是自伴的。
证明:如果 \( A^2=B\),那么 \( AB=A^3=BA\),即 \( A\) 与 \( B\) 可交换。因为 \( B\) 自伴,利用命题1,得 \( B\) 的每一个特征子空间(都是一维的)也是 \( A\) 的特征子空间,故可以选一组基底使得 \( A\) 与 \( B\) 的矩阵都是对角形,\( A\) 矩阵对角线上的元素就必须等于 \( B\) 矩阵对角线上相应的元素的平方根,这样的矩阵有 \( 2^n\) 个,且因为正数的平方根都是实数,所以这些矩阵都是实对称矩阵,因此 \( B\) 的平方根都是自伴的。

6 等距变换几个相似概念之间的关系

如果假定 \( T\) 是线性变换,那么以下条件是等价的:
1) \( T\) 是等距变换,即 \( \forall u,v\in V,\|Tu-Tv\|=\|u-v\|\)
2) \( T\) 保持范数,即 \( \forall u\in V,\|Tu\|=\|u\|\)
3) \( T\) 保持内积,即 \( \forall u,v\in V,\langle Tu,Tv\rangle=\langle u,v\rangle\)

但是如果 \( T\) 只是一个普通的变换,而没有线性变换的条件,这三个条件不是等价的。它们的推导关系如下图:

其中的箭头方向是必要条件的方向,双向箭头表示两个等价的命题,单项箭头表示两个命题不等价。下面分别证明如下:

线性等距变换保持内积,这个在书上已有证明;线性等距变换是把零向量映射成零向量的等距变换,这个也是显然的;保持内积的实部在实空间下和保持内积是一回事;因为内积诱导的范数只与内积的实部有关,即 \( \langle u,u\rangle\in\mathbf R\),所以保持内积实部的变换一定也是保持范数的。这些都是比较容易得出的结论,因此只需证明两个命题:保持内积的变换是线性等距变换;一个变换保持内积实部当且仅当它是将零向量映射为零向量的等距变换。

命题3:设 \( T\) 是向量空间 \( V\) 上的变换,如果任意两个向量 \( u,v\),有 \( \langle Tu,Tv\rangle=\langle u,v\rangle\),那么 \( T\) 是线性等距变换。
证明:因为 \( T\) 保持内积,所以它一定是保持范数的,那么只需证明 \( T\) 是线性变换,也就推出它是线性等距变换了。即只需证 \( T(u+v)=Tu+Tv\) 与 \( Tku=kTu\)。为此考察
\( \|Tku-kTu\|^2=\langle Tku,Tku\rangle-\bar k\langle Tku,Tu\rangle\)\( -k\langle Tu,Tku\rangle+k\bar k\langle Tu,Tu\rangle=0\)
其中最后一个等号成立是因为在每一个内积里可以把所有的 \( T\) 都去掉,最终得到0。因此 \( Tku=kTu\)。
同理考察 \( \|T(u+v)-Tu-Tv\|^2\),同样在打开的每一个内积中去掉 \( T\),最终为0。
因此 \( T\) 为线性映射。又因为 \( T\) 保持内积,所以由 \( \|Tv\|^2=\langle Tv,Tv\rangle=\langle v,v\rangle=\|v\|^2\),知 \( T\) 保持长度。由定义 \( T\) 是正交变换。

命题4:设 \( T\) 是向量空间 \( V\) 上的变换,那么 \( \forall u,v\in V,\mathrm{Re}\,\langle Tu,Tv\rangle=\mathrm{Re}\,\langle u,v\rangle\) 当且仅当 \( T\) 是等距变换,并且 \( T(0)=0\)。
证明:由于
\( \|Tu-Tv\|^2=\|Tu\|^2-2\mathrm{Re}\,\langle Tu,Tv\rangle+\|Tv\|^2\)
\( \|u-v\|^2=\|u\|^2-2\mathrm{Re}\,\langle u,v\rangle+\|v\|^2\)
如果 \( T\) 保持内积实部,那么 \( T\) 保持范数,所以 \( T(0)=0\),且上面两式右边相等,故 \( \|Tu-Tv\|=\|u-v\|\),即 \( T\) 是等距变换,。
如果 \( T\) 是等距变换,并且 \( T(0)=0\),那么上面两式左边相等,且 \( \|Tu\|=\|Tu-T0\|=\|u-0\|=\|u\|\),从而 \( \mathrm{Re}\,\langle Tu,Tv\rangle=\mathrm{Re}\,\langle u,v\rangle\)。

以下是两个反例,证明关系图中的两个单项箭头不可能是双向的。

反例1:设 \( f\) 是复数域上的变换,\( f(z)=\bar z\),那么因为 \( |\bar{z_1}-\bar{z_2}|=|z_1-z_2|\) 所以 \( f\) 是复向量空间中的等距变换,并且 \( f(0)=0\),但是 \( f\) 不是线性的,也不保持内积,但是保持内积的实部。

反例2:设 \( f\) 是实数域上的变换,\( f(x)=|x|\),那么 \( f\) 保持范数,但它不保持内积实部,也不是等距变换。

参考文献:
[1] 侯维民. 关于正交变换两种定义方式的探讨 [J]. 高等数学研究, 2005, 8(1): 44-45.
[2] [美] Peter.D.Lax. 线性代数及其应用 [M]. 傅莺莺,沈复兴,译. 北京:人民邮电出版社,2009.

7 极分解的另一种形式

一个线性变换 \( T\) 的极分解 \( T=S\sqrt{T^*T}\) 表明,\( T\) 的作用相当于先在某些方向上进行伸缩变换(半正定变换 \( \sqrt{T^*T}\) 的作用,根据谱定理),然后再进行等距变换 \( S\)。
那么,如果取 \( T^*\) 的极分解 \( T^*=S\sqrt{TT^*}\),则 \( T=\sqrt{TT^*}S^*\),则表明 \( T\) 也可以看作先做等距变换,然后再在某些方向上伸缩。

部分习题解答:

5 证明如果 \( \dim V\ge 2\),那么所有 \( V\) 上的正规算子的集合不是 \( \mathcal L(V)\) 的子空间。
证明:考察下面等式:
\( \begin{pmatrix}2&1\\ -1&2\end{pmatrix}+\begin{pmatrix}2&1\\ 1&2\end{pmatrix}=\begin{pmatrix}4&2\\ 0&4\end{pmatrix}\)
等式左边一个为正规算子,一个为自伴算子,它们的和不是正规的。

7 证明如果 \( T\in\mathcal L(V)\) 是正规算子,那么对所有正整数 k,有 \( \mathrm{null}\,T^k=\mathrm{null}\,T, \mathrm{range}\,T^k=\mathrm{range}\,T\)。
证明:k=1 时命题显然成立。假设当 k=m 时,命题成立,那么 \( \forall v\in \mathrm{null}\,T^{m+1}\),有 \( TT^mv=0\),即 \( T^mv\in\mathrm{null}\,T\) 又因 \( T^mv\in\mathrm{range}\,T\) 且 \( (\mathrm{null}\,T)^\perp=\mathrm{range}\,T\),那么 \( T^mv=0\),根据归纳假设,\( v\in\mathrm{null}\,T\)。可见 \( \mathrm{null}\,T^{m+1}\subset\mathrm{null}\,T\)。另一个方向的包含是显然的,所以 \( \mathrm{null}\,T^{m+1}=\mathrm{null}\,T\),
因为 \( T^k\) 也是正规的,所以 \( \mathrm{range}\,T^k=(\mathrm{null}\,T^k)^\perp\)\( =(\mathrm{null}\,T)^\perp=\mathrm{range}\,T\)。

14 设 \( T\in\mathcal L(V)\) 是自伴算子,\( \lambda\in\mathbf F, \epsilon>0\),证明如果存在向量 \( v\in V\) 满足 \( \|v\|=1\) 且 \( \|Tv-\lambda v\|<\epsilon\),那么 \( T\) 有特征值 \( \lambda’\) 满足 \( |\lambda-\lambda’|<\epsilon\)。
证明:根据自伴算子的谱定理,存在一组正交基底使得 \( T\) 的矩阵是对角矩阵 \( \mathrm{diag}\,(\lambda_1,\lambda_2\dots,\lambda_n)\),那么
\( \min_i |\lambda_i-\lambda|^2\le\sum_{i=1}^n|\lambda_i-\lambda|^2v_i^2=\|Tv-\lambda v\|^2<\epsilon^2\)
取 \( \lambda’\) 是与 \( \lambda\) 最接近的特征值即可。

18 证明如果 \( T\) 是 \( V\) 上的半正定算子,那么对任意正整数 k,\( T^k\) 也是半正定的。
证明:可以用谱定理。这里例举另一个证明。
当 k 为偶数时,有
\( \langle T^kv,v\rangle=\langle T^{\frac{k}{2}}v,T^{\frac{k}{2}}v\rangle\ge 0\)
当 k 为奇数时,有
\( \langle T^kv,v\rangle=\langle TT^{\frac{k-1}{2}}v,T^{\frac{k-1}{2}}v\rangle\ge 0\)

24 设 \( T\in\mathcal L(V)\),\( S\in\mathcal L(V)\) 是 V 上的线性等距变换, \( R\in\mathcal L(V)\) 是 V 上的半正定算子且 \( T=SR\),证明 \( R=\sqrt{T^*T}\)。
证明:因 \( R\) 是半正定算子,所以只需证 \( R^2=T^*T\)。
因 \( R\) 自伴且 \( S\) 是线性等距变换,所以 \( T^*T=RS^{-1}SR=R^2\)。

27 证明或给出反例:如果 \( T\in\mathcal L(V)\),那么 \( T^2\) 的奇异值是 \( T\) 的奇异值的平方。
证明:取 \( T(x,y)=(0,x)\),则 \( T^2=0\),但 \( \sqrt{T^*T}(x,y)=(x,0)\),所以 \( T^2\) 的奇异值都为零,不等于 \( T\) 的奇异值的平方 (1和0)。

理解复数域上的向量空间(第一篇)

线性代数进行到酉空间中的自伴算子、正规算子以及谱定理这部分内容时,会发现很多在复空间中成立的命题在实空间中却未必成立。这种情况多少让人感到有点奇怪,为什么会出现这种情况?
复数域是包含实数域的,我们学习复数之后碰到最多的是相反的情况:原本在实数域上成立的性质在复数域中不一定成立了,比如,实数可以比较大小,但复数没有大小关系;又比如,实数的平方非负,等等。这样的命题见多了,容易使人产生思维定势,认为复数包含实数,因此在复数范围内成立的命题在实数范围内也必然成立,而实数范围成立的命题不一定都能推广到复数。
可尤其是学习到复变函数之后,这种情况似乎反过来了,同样的一个概念,到了复数中反倒比原来实数情况下的相应概念有了更多的内涵。这又是为什么呢?

比如,在”Linear Algebra Done Right” 第七章有个命题 7.2,是说

命题7.2:如果 \( V\) 是复数域上的内积空间,并且 \( T\) 是 \( V\) 上的线性算子,且对任意向量 \( v\),都有 \( \langle Tv,v\rangle=0\),那么 \( T=0\)。
证明:使用恒等式
\( \begin{aligned}\langle Tu,w\rangle=&\frac{\langle T(u+w),u+w\rangle-\langle T(u-w),u-w\rangle}{4}\\ &+\frac{\langle T(u+iw),u+iw\rangle+\langle T(u-iw),u-iw\rangle}{4}i\end{aligned}\)
即可得证。

但是,同样的假设,在实数空间中却得不出同样的结论来,比如,二维空间中把所有向量都逆时针旋转90度角。

可是,在实空间中可以存在旋转90度的映射,为什么在复空间中就没有这种映射?难道就不可以有一个线性变换像实空间中那样把每一个向量都旋转到垂直的位置上吗?

Continue reading