再谈矩阵与矩阵乘法

以前写了几篇相关的文章,见
《图示矩阵分块乘法》《理解矩阵与矩阵乘积(三)》《理解矩阵与矩阵乘积(二)》《理解矩阵与矩阵乘积(一)》
如果你从网上搜“理解矩阵”或“矩阵乘积”,还可以搜到孟岩写的系列文章《理解矩阵》以及很多其他作者写的文章。尽管经过很多人的努力,试图说清楚矩阵和矩阵的乘积的最本质的意义,这个问题似乎还在困扰着很多人。

我对矩阵和矩阵乘积的意义的认识,基本上在《图示矩阵分块乘法》中已经阐述,但之所以还要写这篇文章,是因为不论是我的文章,还是网络上其他相关文章,都没有做到把这个问题彻底讲清楚,我是学数学的,和很多其他学数学的人一样习惯上以数学抽象的概念去解释另一个概念,所以讲到矩阵总是会提向量空间,会提向量,但工科的学生往往是不会接触向量空间的概念,所以这种解释虽然我们看起来很直观,对工科的学生往往就很难理解了。还有一般的教材里都会讲到的从线性映射的复合的观点去定义矩阵的乘法,但仍然解释不清乘法规则的本质,尤其解释不了矩阵乘法为什么可以分块进行。

我博士的课题是研究随机矩阵,我的导师之一有无线通讯的背景,所以我有幸接触到一个能够更加直观阐释矩阵的概念和矩阵乘法规则的通讯模型,它虽然是个具体的模型,但我认为它有可能触及到了矩阵和矩阵乘法的最本质的东西。

如图一,考虑在 A 地建有一个发射站,其中有 n 个发射塔,B 地一个接收站,有 m 个接受塔。他们之间要传递的是一组由n 个数组成的信息 (x1,x2,...,xn),这样,这组信息可以由这n个发射塔同时发出,然后m个接收塔会同时收到它们发送过来的数据。

telecom
图一:无线通讯模型,发射-接收

但因为距离等因素的影响,每个发射塔发出的信息到不同的接收塔的过程中会有不同程度的衰减,比如第一个发射塔发出的信息x1到第一个接收塔就变成了 a11x1,等等,它们对应的关系可以列成一个方阵:

接收B\ 发射A    1             2             3         ......            n
1                     a11          a12         a13                       a1n
2                     a21          a22         a23                       a2n
...                     .....           ....          ....                         ....
m                    am1         am2         am3                     ann

这个对应关系的表格其实就是我们的矩阵了。有人可能觉得这只是形式上的对应关系,这些元素只是形式上构成了一个矩阵的形状,和我们数学上的矩阵有什么关系呢?矩阵的乘法在哪里呢?其实关系大得很。考虑一下发射站每发射一条信息 (x1,x2,...,xn),那么在接收站接收到的信息会是什么样子?比如第一个接收塔接到的是所有发射塔给它发的信息,那就是 y1=a11x1+a12x2+...+a1nxn,同理第二个接收塔收到的是 y2=a21x1+a22x2+...+a2nxn,等等。
如果凭直观感觉,如果很多发射塔同时发射信息,所有的接收塔收到的都是这些信息相互混杂的结果,似乎接收端很难分辨还原出原始的信息,就像一群人同时向另一群人喊话,每个人听到的只有混在一起的噪声,根本听不清谁到底说了什么,但是从数学上分析一下会发现,只要接收塔不比发射塔少,只要这个方阵的性质足够好,接收端就可以综合所有接收到的信息并计算还原出原始信息,这就是对线性方程组的研究得出的结论。

接下来考虑,如果B只是个中转站,它也要把它接受到的所有信息原封不动地传给C,那就是下图这样:

telecom2
图二:无线通讯模型:发射-中转-接收

那么C最后接到的信息会是什么样?如果像刚才那样分析从B到C的过程,那C接到的信息就是 z1=b11y1+b12y2+...+b1mym; z2=b21y1+...+b2mym,等等。但是,我现在想把B这个中转站从图中隐去,我想直接制定一个从A到C的发射-接收转换列表,我应该怎么制定呢?怎样才能把下面这个列表填完整呢?

接收C\ 发射A    1             2             3         ......            n
1                       ?
2
...
r

根据这个表中元素的定义,第一行第一列的元素(记为c11)应该是最原始的信息中的第一个元素 x1 被发射到最终位置C的第一个接收塔的过程中的衰减系数,而从图中不难看出,这个信息元 x1 首先经过一次衰减到达B的m个中转塔,也就有了 m 个分身a11x1, a21x1,...,am1x1,然后这m个分身又分别经过第二次衰减,并集合到C的第一个接收塔那里,于是变成了 a11b11x1+a21b12x1+...+am1b1mx1,那么自然就有
c11=a11b11+a21b12+...+am1b1m。
同理,A的第 i 个发射塔发出的信息要经过 B 的所有中转塔才能最终到达C处的第 j 个接收塔,这就是乘法矩阵中的 cij 要这样定义的原因。对应下面这个矩阵乘法BA的示意图:发射数据 xi 与矩阵 A 的第i列元素相乘之后到达 B 的 m 个中转塔,得到 yk=akixi,然后中转塔的这 m 个数据又分别和矩阵 B 的第 j 行元素乘积,并在 C 的第 j 个塔那里整合起来,于是就有了 cij 的又乘又加的表达式。
telecom3

这个模型里的通信模型只是用来帮助理解和想象,现实生活中有很多模型都可以体现这样的运算关系,比如把通信站换成物流公司,把信息换成货物,矩阵的元素换成路程或运输成本,这就变成了一个物流模型;把信息换成空间中的向量,每个通信塔换成空间的基底,这就能解释空间中的线性映射,等等。

下面接着用通信模型解释矩阵的分块运算。首先理解什么是矩阵的一个子块:让我们先回到(图一)的没有中转站而只有发射和接收站的情形,然后考虑,原有的系统支持n个信息同时发射,但假设我现在要发射的信息没有那么多,只有 m(<n) 个分量,那么我可以只用其中的m 个发射塔;同时因为发射的数据减少了,也就不需要那么多接收塔了,所以我可以把其中的一些发射塔和接收塔关闭。假设剩下的塔之间传递信息的转换关系不变,那么剩下的那些塔就是原来的一个子系统。因为有些塔不工作,所以我也无需考虑跟它们相关的衰减系数,我们把原来矩阵中所有和关闭的塔相关联的行或列都去掉,剩下的矩阵就是这个子系统对应的衰减系数矩阵。

这样就好解释了为什么矩阵分块的乘法也具有同样的运算法则:还是考虑(图二)描述的发射-中转-接收模型,但我们这次以不同的眼光看:我们把发射、中转和接收塔都分别编组,把一组通信塔看成一个整体,那么一个发射组+一个中转组+一个接收组就构成了一个子系统,它们中间的衰减矩阵自然是大矩阵里的子块;而如果我们对这些子系统进行分析,它们之间的传递关系自然和把它们当成单个通信塔的情形是一模一样的:以下是我以前的文章《图示矩阵分块乘法》里贴过的图,想象每个方格里是一组通信塔,再结合那篇文章中论述的向量空间的模型,就不难理解其中的道理了。
zrclip-003n7bdf3aa5.png

最后多说几句我对线性代数中“线性”的认识。我们上面所有的分析,都是在我们所描述的系统可以分拆这个假设的基础上的,也就是上面所说,假定它的任何一个子系统的运行状态不受系统其它部分的干扰,只有这样,我们才能把输入的原始信息分成若干分量,它们通过系统传递之后再进行整合;也只有这样,我们把系统进行分拆,分别研究各个子系统之后再进行综合才是有意义的。所以,线性代数就是拆拆合合的技术,“线性”是我们进行拆拆合合的基础。

怎样用一般幂函数的积分公式理解y=1/x的积分

前一篇文章用了做定积分最原始的方法——分割做和取极限的方法重新理解了y=1/x积分中自然对数的来源。本篇文章回答上一篇中提出的问题:怎样把y=1/x的积分嵌入到常规幂函数积分公式\int x^a\mathrm dx=x^{a+1}/(a+1)+C中。

如果你试图从公式\int x^a\mathrm dx=x^{a+1}/(a+1)+C推导y=1/x的积分,多半会失败,因为把a=-1带进去,等式右边的分母为零,分子在x\neq 0时变成了1,整个式子变得没有意义。实际上y=1/x是幂函数里唯一一个另类,它的积分非但不能简单地从普通幂函数积分公式中得出,其结果反而超越了幂函数的范围。怎样理解这样的不和谐?昨天因为写前一篇文章的缘故,头脑中闪过另外一个念头,最后竟然成功地解释通了这个困扰多年的问题。

这个解释使用幂函数求导公式

(x^a)'=ax^{a-1},\> x>0


以后的推导中我们都假定x>0,不加赘述。为了使等式右边宝贵的x^{a-1}不被取0值的a破坏,我们把a移到等式左边:

\frac{(x^a)'}{a}=x^{a-1}


接下来注意,当a=0时,等式右边就是我们想要的x^{-1},但等式左边变成了0/0。这时自然想到用极限的过程代替直接取值,即令a\to 0,看看等式左边趋于什么极限?这时a就被理解成一个变量了,我们还是用字母y代替a比较好,同时,这里的导数也变成了偏导数:

\frac{\partial _x x^y}{y}=x^{y-1}


变一下形式理解等式左边:

\frac{\partial_x x^y-\partial_x x^0}{y}=x^{y-1}


y\to 0,得到

\left. \partial_y(\partial_x x^y)\right |_{y=0}=x^{-1}


如果两个偏导符号可以换序,那么我们就能够得到

\partial_x(\left. \partial_y x^y\right|_{y=0})=x^{-1}


这样等式左边括号里面的函数就是我们要求的函数。括号里面的函数是什么呢?\partial_y x^y这是个指数函数的求导,\partial_y x^y=\partial_y e^{y\ln x} =x^y\ln x,所以括号里的函数正是\left. \partial_y x^y\right|_{y=0}=\ln x,于是有

(\ln x)'=\frac{1}{x}


那么上面的两个偏导符号是否可以换序呢?从多元变量分析中得知,当两个二阶偏导数之一在点(x,0)的某个邻域内存在且连续时,两个二阶偏导可以换序。那么计算其中一个二阶偏导数得到(注意:这里只能考察这个二阶偏导,因为另一个二阶偏导在计算的过程中应用了对数函数的导数,这在此时是不合理的。)

\partial_y(\partial_x x^y)=x^{y-1}+yx^{y-1}\ln x


容易知道它在(x,0)附近都是连续的,这样就保证了这种做法的合理性。

这种方法表面上是兜了一大圈,但它也提供给我们另外的信息:y=1/x的积分其实没有那么特殊,它是普通幂函数积分公式的一个极限结果。

用定积分的定义计算双曲线下方图形的面积

这篇文章中的内容是逛百度贴吧时的一个意外收获,贴子地址为

http://tieba.baidu.com/p/3475129628

利用微积分的知识可知,反比例函数 y=1/x 的不定积分是 \int \frac{1}{x}\mathrm d x=\ln x+C,由此得出,贴子中出现的阴影部分的面积要用对数表示,设A的纵坐标和  B的横坐标分别是yx,那么这个面积是1+\ln x+\ln y。由此也可以得出,当xy都趋于无穷大时,面积的表达式也趋于无穷大,所以双曲线与坐标轴之间的面积为无穷大。

很多人在学习数学的时候仅仅满足于知道一个结论,或者满足于弄懂书上给的证明,就以上提出的面积问题,通过牛顿-莱布尼茨公式求面积的方法自然是非常普适的方法,任何人也不会怀疑由它得出的结论。但是,从我一开始初学微积分的时候就对这个结论充满好奇,总是在想,如此简单的反比例函数怎么和对数函数联系在一起了呢?反比例函数仅比多项式函数稍微复杂了一点,为什么它的积分是个超越函数?而且,这是幂函数里唯一的一个“特殊分子”:其他的幂函数的积分都还差不多是幂函数,只有y=1/x这个怪物。

牛顿-莱布尼茨公式是一种解释,但这种解释很难让人有切实的体会。受上面那篇贴子中问题的启示,我找到了另外一种更直观、更初等的计算这个面积的方法,可以让人在图中切切实实地“看到”一个对数函数出现的过程。需要用到的知识:定积分计算面积的思想方法(分割、做和、取极限),以及一个有关e的极限:\lim_{x\to 0}(1+x)^{\frac{1}{x}}=e。我将以问题的形式启发读者自己去完成这个计算过程。

首先,解决贴子中的问题:不用微积分的知识,只用初等方法,证明y=1/x下方图形的面积是无穷大。

1) 在双曲线上任意一点向两坐标轴做垂线,证明这两条垂线与坐标轴形成的矩形的面积与点的位置无关,这个面积是多少?
2) 用上述特性在双曲线与坐标轴之间做出无穷多个互不重叠的矩形,并且每个矩形的面积不小于一个定值,比如0.9。(提示:先做出一个面积为1的正方形,再做出一个 1)中所描述的矩形,二者重叠部分的面积有什么特点?)

然后,计算双曲线下方[1,t]之间曲边梯形的面积:
3) 将 2) 中的矩形面积不断减小,比如,让所有矩形的面积都等于\epsilon(那个正方形除外),这些矩形的宽度就会不断减小,[1,t]之间的曲边梯形就会逐渐被一些面积相等的矩形所铺满。计算[1,t]之间矩形的个数,并用\epsilon表示。
4)计算这些矩形的总面积,并计算当\epsilon\to 0时的极限。证明这些小矩形的宽度随着\epsilon\to 0而趋于零。根据反比例函数在[1,t]上的可积性,这些矩形总面积的极限就是曲边梯形的面积。

至此,你应该看到对数和e分别是在哪一个步骤里出现了。下面是一个额外的问题:
5)为了比较y=1/xy=1/x^2的差别,把这套策略改造一下应用到函数y=1/x^2上,并解释为什么对数函数没有出现在y=1/x^2的下方。

我在写测度论的教材

上了研究生之后很少写博客了,一是因为没有太多时间,二是因为写东西的速度很少能跟得上接触新东西的速度,博客的“笔记”功能也就名不副实了,只能挑选一些特别大的主题记录一下.

现在,利用假期时间我计划写一本有关测度和积分理论的教材,没有人要求我写,也不指望拿这个去赚稿费,完全凭借兴趣,而且还要留一些时间学习新知识,所以假期的时间能写到哪就写到哪.

本书包含测度论和积分论中最基本的内容,我设想的完整目录结构如下:

绪论:从面积到测度,从黎曼积分到勒贝格积分
0.1 对面积的回顾
0.2 积分的物理与几何意义
0.3 为何要扩展Jordan 测度和黎曼积分. . . . . . . . . . . . . . . . . . . . . . . .
0.4 如何扩展测度和积分. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
第一章测度理论
1.1 集合类、集合序列的极限. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 乘积空间中的半环与-环,Borel 域. . . . . . . . . . . . . . . . . . . . . . . .
1.3 一般测度论,测度的延拓. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 集合的极限与测度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
附录1.A 有关可数个正数的和的讨论. . . . . . . . . . . . . . . . . . . . . . . . . . .
第二章积分理论
2.1 可测函数与简单函数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 可测函数的积分. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 积分的性质,单调收敛原理、Fatou 引理以及控制收敛原理. . . . . . . . . . .
2.4 与黎曼积分的关系. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
第三章各种收敛性
第四章几个常用公式在新积分下的讨论
4.1 Foubini 定理:重积分与累次积分的关系. . . . . . . . . . . . . . . . . . . . . .
4.2 含参变量积分的连续性与可导性. . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 积分的变量替换公式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 分部积分公式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 牛顿-莱布尼茨公式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
第五章函数空间Lp
5.1 定义与完备性讨论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 几个子集的稠密性. .

当然,假期时间很短暂,不可能把整本书用一个假期都写完,争取写完前三章.从今天开始,我会分章把初稿贴在这里.

目前已完成“绪论”部分:下载链接在这.在绪论这一章回顾了初等教育中对长度、面积、体积的认识过程,并在此基础上介绍了Jordan和Lebesgue发展测度与积分理论的思路,为接下来的章节做必要的铺垫.

2014/07/27 更新:第一章已经完成,可以下载,同时删除旧文件.在第一章中主要讲述测度论的基础知识,包括半环、环、sigma环以及sigma域等重要概念,以及在这些集类上建立的测度理论.本章主要参考严加安《测度论讲义》以及徐森林《实变函数论》,同时零星参考其它几本测度论或实变教材,其中有几本是国外教材.在吸收各个教材的优点的同时,笔者还提出了自己对这方面知识的系统总结,并对一些定理和命题做出自己的证明方法,对一些问题提出了自己的见解.

2017/01/19 有很多人期待第二章,现在把未完成的第二章先放上来,但因为都是两年多前写的部分,当初就没来得及校对,再加上时过境迁,所以已放上来的部分都权且作为参考。有些打字错误因为现在没有带 ctex 的环境所以暂时只能这样。
测度与积分理论 第二章

函数e^{x^2} 的原函数为什么“积不出来”?

在大学学过微积分或数学分析的人都知道,有些函数的原函数是“积不出来”的,即不是初等函数。大多数的分析学教材讲到这个问题的时候都只是简单提到这个结果,即没有提到如何证明,因为太复杂,又没有说想要证明这样的结论到底需要哪方面的知识。
最近我得到一份巴黎高等师范学校1995年的入学考试题,以问题和提示的形式指导考生完整地证明 \int e^{t^2}\,\mathrm d t 的非初等性,以及它的理论基础:微分域中的刘维尔(Liouville)定理。

我大一的时候就对这个问题很好奇,所以借此机会做了这份试卷并将试卷翻译成中文,把它的证明方法介绍给国内的数学爱好者。另外原题中有些印刷错误,翻译时顺便改正了。

1,做这份试卷需要两方面的基础:复变函数和抽象代数理论。要知道巴黎高师虽然是法国顶尖的数学学府,但这份试题毕竟只是针对高中毕业并上过两年大学预科的学生,学历水平相当于国内大学三年级。因此,凡是国内大学数学专业并学过这两门课的学生都可以试做这份试题。
2,考试时间是4小时,但几乎不可能在短短4小时之内把这份题完整做出来,实际选拔是按照分数高低排序的。
3,这套题中有一些关于复变函数的结论是直接被承认的,比如“复数域的某个开集上定义的所有解析函数构成一个整环”,建议读者将这样的命题也证明出来,至少要知道为什么。
4,做过这份试题之后可以思考下面几个函数,判断它们的原函数是否是初等函数:
1) \frac{e^z}{z^n}; 2) \frac{\sin z}{z^n}; 3) z\tan z; 4) z^z
提示:试题中的做法都是代数的,但有些问题用复分析的理论能更轻松地看出结论,比如上面的第一个例子,应用试题第VI部分的某结论并结合留数定理,就会迎刃而解。

PDF下载:
ENS1995-Maths-zh_CN
法语原版可以在这里找到:
http://pomux.free.fr/corriges-1995/pdf/m95lm1ea.pdf
(如果链接失效,可直接google搜索 ens 1995 maths)

今天把我在Master2时写的论文放在这里,里面包含所有这个问题的答案(法语版),仅供参考。
M1 Mémoire