概率,是研究不确定的事物,而数学的特点是精确,用数学的方法研究概率,就是给不确定性以精确的描述,这两种特性的矛盾在我初学概率的时候给我提出了很多的疑问。
比如,某件事发生的概率是1/2,到底应该怎样理解,应该怎样定义这个概率?如果说,概率是实验次数无限增大时频率的极限,那么由于每次实验结果都是随机的,你如何证明这种极限的存在性?如果经过大量次数的实验,此事发生的频率总是接近1/2,那也无法精确地定义它的概率就是1/2,因为你无法确定它不是别的与1/2很接近的数,比如501/1000。如果说,概率是所有可能结果中,此结果所占的比例,那问题又有了,如何确定所有结果中,每一个都是等可能的?另外,你如何知道经过很多次试验它的频率就一定接近于这个比例呢?
上面讨论的问题分两类,一类是古典概率中等可能性的确定,一类是概率定义的严格化。下面分别讨论这两个问题。
一、古典概率中等可能性的确定
在古典概率中,抛一枚硬币,出现正反两面有相同的可能性,那么抛两枚硬币,可能出现的结果有正正、正反、反正、反反四种结果。这四种结果也是等可能的。但是,抛两枚硬币结果的等可能性,是否依赖于抛一枚硬币结果的等可能性?也就是说,只有在抛每一枚硬币时,出现每一面的机会均等的时候,才能保证抛两枚硬币时四种结果是等可能的。从直观上这样想是合理的,但是如果可以从理论上推导出这种蕴含关系不是更好吗?
如果上面这个问题从直观上不得不接受,那么下面这个问题就稍微难接受一些:将三个不同的球随机地抽取出来进行排列,共六种排列方法,这六种方法等可能。为什么?因为假定每次抽取球的时候都是从剩下的球堆里随机地抽取。但是,每一步抽取,剩下的球都少一只,也就意味着下一次抽取时,已被抽出的球没有可能再次被抽取,而剩下的球每一颗被抽到的概率都增大了。这样就造成了每颗球处境的不同,也意味着每一次抽球的情况都有变化。但是为什么最后的结果是平等的呢?
再如,陈希孺《概率论与数理统计》例1.1分赌注问题,甲胜两局乙胜一局,如果接下来一局甲又胜,那么没必要再赌一局,这样,继续比赛的结果就应该是三种:甲,乙甲,乙乙。为什么不是三种结果等可能?
在n个不同的数之中随机可重复地取出r个数进行组合,共有 \(\binom{n+r-1}{r}\) 种方式,那么每一种方式是等可能的吗?比如,在1,2两个数中随机可重复抽取两个做组合,共三种可能:{1,2}, {1,1}, {2,2}。那么出现 {1,2} 的概率是1/3吗?仔细分析可知这是错的,组合 {1,2} 出现的概率应是1/2,另外两种组合的概率各是1/4。
可见,第一,等可能性绝不是自然就成立的,需要进行分析;第二,多次试验的复合结果的等可能性应该蕴含在每次试验结果的等可能中,应该由后者推出前者。
推导可重复排列或不重复排列各个结果之间的等可能性可以用概率的乘法公式:\[P(A_1A_2\dots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\dots P(A_n|A_1\dots A_{n-1})\] 这个公式的解释是,一个由 n 个事件组合而成的事件,它的概率等于第一个事件的概率乘以第二个事件在第一个事件出现时的条件概率,再乘以第三个事件在前两个事件出现是的条件概率,等等。具体应用到抛 n 个硬币和排列 n 个球的问题中:
在抛硬币时,假设各次试验之间毫无影响,那么每次试验出现正或反的概率为 1/2。因此,第 i 次出现正或反的概率是 1/2,那么抛 n 枚硬币出现每一个组合结果的概率为 \[P(A_1A_2\dots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\dots P(A_n|A_1\dots A_{n-1})=(\frac{1}{2})^n\] 在排列小球问题中,容易算出 \[P(A_i|A_1A_2\dots A_{i-1})=\frac{1}{i}\] 因此出现每一种结果的概率自然是 \( 1/n! \) 。
分赌注享问题中也可以这样详细讨论。
在可重复排列中,因为步骤的顺序不重要,不能用这个公式计算每种结果的概率。但是,我们可以这样算:比如,三个数 1,2,3 中可重复抽取三次,组合成 {1,1,2} 的概率,首先,需要三次中抽出两次 1,其概率为 \( \binom{3}{2}(\frac{1}{3})^2\frac{2}{3} \)。在这个事件出现的情况下,再计算有一次抽取 2 的概率,因为三次中两次抽了1,只剩下一次,可能抽取2或3,各有 1/2 的可能性,所以最后结果为这两个概率的乘积,即 1/9。这与下面的方法计算结果是一样的:n 个数可重复取 r 个排列的方法数为 \(n^r\),在某种组合中假设共出现 k1 次 1,k2 次 2,… kn 次 n ( ki=0,1,2,…,r 且 k1+k2+…+kn=r),那么出现这种组合的方法数为 \[\frac{r!}{k_1!k_2!\dots k_n!}\] 故出现这种组合的概率为 \[\frac{r!}{n^r k_1!k_2!\dots k_n!}\] 可见这个问题中的等可能性是藏在排列中的。
二、概率的严格定义
频率的稳定性表明,大量的不确定事件中可以蕴含一种确定性。概率就是刻画这种不确定当中的确定性。概,就是大概,概率就是刻画可能性的大小,就是在大量重复试验中我们可以期待某种结果出现的大致比例。首先,它作为一个数学概念,必须要有一个严格的定义,必须要知道到底哪一个数可以作为某件事的概率。但是,任何有限次试验,某种事件出现的频率只能在某个范围内波动,并不是完全固定的,这样就给以频率定义概率带来麻烦。所以,在数学上,采取的是迂回定义的方式,既首先给概率一个精确的定义,给每一个事件按某种方式赋予一个数值,然后证明,在大量重复试验下,事件出现的频率按某种方式接近这个数值。至于这个频率最终总是接近于概率的问题,会在后续关于大数定理的讨论中加以分析。
另,读了两章第三版的《概率论基础》,还是觉得这本书的表述更严谨,例子又多,例子组织得更好,又有一本配套的学习指导,尤其是其中的教学札记讲述得很精彩,所以决定还是以这本书为基础去讨论问题。但是不可否认的是陈希孺的书中对概念的直观阐述也很有启发性,比如第一章习题中针对条件概率的一些问题,将是下一篇文章的主题之一。