Probability-Theory

本文作为概统学习的提要。

授课教师为 郑志浩 老师。

第一章 概率论的基本概念:#

样本空间、随机事件#

基本概念;#

  • 必然现象:一定条件下必然发生的现象称为
  • 随机现象
    • 不止一种可能结果;
    • 个别试验中无法预知哪个结果会发生;
    • 大量重复试验中其结果发生呈现一定规律性的现象;
  • 随机试验:对随机现象进行观察、记录或试验;
    • 可以在相同的条件下重复进行;
    • 每次试验可能出现的结果是不确定的,但能事先知道试验的所有可能的结果;
    • 每次试验前不能阈值哪一个结果会发生;
  • 样本空间:随机试验所有可能结果构成的集合;
  • 样本点:样本空间中的任意一个元素;
  • 随机事件/事件:样本空间的任意子集,也即样本点的组合;
    • 特别的,只含有一个样本点的事件称为 随机事件
  • 事件发生:某一实验的结果(即样本点)属于某一事件,就称该事件发生;
    • 所以事件发生的基本逻辑是或,而不是与;

    • 必然事件:在任意一次试验中必然会发生的事件称为必然事件。例如样本空间S代表的事件;
    • 不可能事件:任何实验中出现的结果都不会属于该集合,例如空集。

事件的相互关系#

事件的相互关系本质上是集合的相互关系,因此下面只简单地列出事件之间的关系及其定义。

  1. 事件的包含和相等;
  2. 事件的和/或与积/与;
  3. 事件的互斥:事件和事件的积事件是空集。
  4. 逆/对立事件,其中是整个样本空间,并记
  5. 差事件,也即从事件中减去事件;
  6. 串联/并联系统:一个系统损坏/不损坏,系统就损坏/不损坏;

频率与概率:#

对事件发生可能性进行定量分析。

  • 频率:重复试验次,某事件发生了次,则记在这次实验中发生的频率。
    • 频率的性质;
    • 第三个性质可以推广至多个 两两互不相容的事件

  • 概率:称当试验次数充分大时的稳定值为事件的概率。
    • 概率必然满足三条公理:非负性,规范性,可列可加性;
    • 推论
      1. ,则有,从而;
      2. 容斥原理;简单来说就是,并集等于其中一个集,加上剩余的部分,剩余的部分等于另外一个集减去公共的部分。如果公共的部分是由多个交集构成的

等可能概型:#

样本空间中样本点出现的可能性相等,例如抛硬币实验。

  • 等可能概型/古典概型:满足
    1. 样本空间样本点有限;
    2. 出现每一个样本点的概率相等;
      的试验。从而推得等可能概型中,任意事件的概率等于 该事件包含的样本点数/样本总点数

条件概率:#

事件B发生时,A发生的概率。

本质为研究的样本空间的转移。

  • 条件概率
    • 可视为在缩小的样本空间中对事件的概率度量。

    • 条件概率当然满足基本的概率的性质。虽然我们转移了样本空间,但是没有改变本质。
  • 乘法公式:两个事件积事件的概率等于一个事件的概率乘以在这个事件发生的条件下另一个事件的条件概率。
    • 由于条件概率也是概率,所以条件概率也有乘法公式。
  • 全概率公式:直接计算某一事件概率较难的时候,可以分类讨论。用公式来描述就是
    • 划分/完备事件组:由一个样本空间划分成的两两互斥的事件组。严谨的说就是设为某试验(样本空间为)的一组事件,那么

      • ;

      有了上面这个定义,我们就可以给出全概率公式;

    • 全概率公式:设为某样本空间的一个划分,那么

    • 贝叶斯公式:将条件概率公式使用全概率公式替换;

      • 若将事件视为试验结果,划分视为导致发生的种种原因,则贝叶斯公式可以 由果导因。比如书上的例 1.4.6;

事件的独立性与独立试验:#

事件的独立性,就是说(设甲乙事件相互独立)甲事件发生不发生,对乙事件没什么影响。从概率论的角度来说,甲事件发生不发生,都不会使乙事件的概率增加或减少。也就是这意味着,也就是虽然我们换了一个样本空间去观察(甲事件发生/不发生),被观察的事件在这个样本空间中所占的比例还是不变。

从组合?的角度去理解,既然两件事是相互独立的,那么两时共同发生的概率就由分步乘法原理得到,应为

  • 两两独立:任选两事件均独立;
  • 相互独立:任选任意多个事件均独立。

第二章 随机变量及其概率分布:#

为了更有效地用数学方法描述随机试验的结果, 人们将随机试验的结果数量化, 引入随机变量的概念, 并研究随机变量的概率分布.

随机变量:#

随机试验的结果分为 示数型/示性型。前者结果可使用数来表示,而后者则稍微困难一点,比如硬币朝上的一面是?明天的天气是?为了能够使用更多的数学方法来描述与研究随机现象,人们往往会将示性型的结果数量化,也就是 将随机试验的记过对应到数,这种实值函数称为 随机变量,也就是 随随机试验结果而变的量

离散型随机变量:#

  • 离散型随机变量:称那些所有可能取值为有限个/可列个(后者则是离散数学中提到的 可数)的随机变量为离散型随机变量。
    • 离散型随机变量的概率分布律/列:若为离散型随机变量,可能取值为,那么称概率分布律/列,简称为 分布律/列

      此分布律满足正定性和规范性。

  • 一些重要的离散性随机变量:
    • 0-1分布:可用表示,或者
    • 二项分布,相应的试验称为 重伯努利试验
    • 泊松分布:的泰勒展开。
    • 帕斯卡分布/负二项分布:直至发生次所需要的(伯努利)试验次数。记为,其计算方法为,前次事件中,发生了该事件,且第次该事件也发生。

随机变量的概率分布函数:#

实际上有许多随机变量的取值是不可列的,比如距离、身高等等。

事实上,我们也不关心这类量取某一定值的概率,而是关系其落在某些区域的可能性大小…下面我们引入概率分布函数的概念。

  • 概率分布函数称为随机变量的概率分布函数,简称为分布函数。其有如下性质:
    • 单调不减
    • 右连续;

连续型随机变量#

相对于离散型随机变量而言。

  • 连续型随机变量:若存在非负的实值函数使得,则称为连续性随机变量,称概率密度函数 ,简称为 密度函数
    • 本身不是概率,而是概率的密度,反映了在某一点附近概率的集中程度。

  • 一些重要的连续型随机变量
    • 均匀分布:,记作
    • 正态分布:,简称正态变量,记为
      • 标准正态分布:
    • 指数分布:满足的分布,标准式为,记作
  • 其他的连续型随机变量
    • 分布:其详细意义参考 gamma分布和泊松分布的关系。
    • 二参数威布尔分布
    • beta分布:与二项分布类似。

随机变量函数的分布:#

根据随机变量的分布,求这一变量的函数分布。(即已知,求)

总之,求随机变量函数的分布问题实际上就是找等价事件问题。

例:
alt textalt text

第三章 多维随机变量及其分布#

引入:

在第 2 章中, 我们研究了单个随机变量的概率分布问题, 但在实际问题中, 对有些随机现象的研究, 需引入 两个甚至多个随机变量来描述随机试验的结果 . 例如, 要分析某射手平面靶射击情况, 弹着点的位置需用离开靶心的水平距离和垂直距离两个变量来刻画; 再如, 要分析某地区居民的生活状况, 常需同时考虑居民的收入、 支出、 住房面积等多个变量及这些变量之间的关系, 在本章中,我们将着重研究二维随机变量及其概率分布, 对于n(n > 2) 维随机变量的定义及性质, 可由二维情形类似推广而得

  • 二维随机变量/二维随机向量:设随机试验的样本空间为为定义在样本空间上的两个实值单值函数,则称 有序二元整体二维随机变量二维随机向量。常简记为,并称的两个分量。

二维离散型随机变量#

联合分布:#

  • 联合(概率)分布律:称联合分布律。也可以使用列表的方式表示。
    • 性质:正定性(概率大于零),正规性(概率和为1)。
  • 边际(概率)分布律同理可得。
  • 条件分布律

二维随机变量的分布函数:#

  • 二维随机变量的联合分布函数
    • 性质:类比一维。
  • 边际分布函数
  • 条件分布函数:常简记为
    • 离散型
    • 连续型
      • 二者都可以使用极限定义。

二维连续型随机变量#

二维连续型随机变量实际上是一维的拓展,不论是形式还是性质都和一维很相似,这里有些内容我们就忽略掉了。只给出较为重要的性质/定理。

设二维随机变量的联合分布函数为 ,若存在二元非负函数 使得对任意的实数 则称二维连续型随机变量,并称 联合概率密度函数,简称 联合密度函数

  • 二维连续型随机变量也有边际分布,也即,当然就有相应的边际密度函数
  • 二维连续型随机变量也有条件分布,也即,当然就有相应的条件密度函数
  • 常见的两个二元分布:
    • 二元均匀分布
    • 二元正态分布

随机变量的独立性:#

当然是这个式子从而得到由于我们的积分是黎曼积分,因此这个条件只要 几乎处处成立。(允许有有限个点不满足上式)

这个式子可以推广到任意维度

多元随机变量函数的分布:#

本节主要是卷积的引入

第四章 随机变量的数字特征#

数学期望#

随机变量的 数学期望 又称为 均值,简称期望,可以理解为随机变量在平均意义上的代表。

这种代表实际上是执行了无穷多次相同随机试验的平均结果。

基本概念#

  • 离散型随机变量的数学期望/均值:称级数绝对收敛 时,为对应离散型随机变量的 数学期望/均值,否则称随机变量的数学期望 不存在
    • 为什么需要绝对收敛?因为离散型随机变量的数学期望应当于其概率分布律中的各项 排列次序无关,这需要绝对收敛的约束。

  • 连续型随机变量的数学期望/均值。存在条件为有界;
    • 事实上,若有界,实际上意味着此积分收敛。

  • 常见分布的期望
    分布名称 期望值

随机变量函数的数学期望#

本节内容计算的数学期望,也即。核心计算方法为,期望存在条件为有界。

上述计算方法也可以拓展到多维随机变量函数。

数学期望的性质:#

总结为

  • 线性
  • 独立可乘性,当且仅当这个随机变量相互独立。
    • 本质上是联合密度函数的独立可拆分性。

条件数学期望:#

本节内容不做要求

由于条件分布函数也是分布函数,因而它也有数学期望,简称为 条件期望。但由于条件期望的 条件 是变量,从而条件期望不是一个数,而是跟条件相关的函数。

方差、变异系数#

方差 刻画了随机变量取值分散程度。我们用来表示,记为,其正平方根称为 标准差

也就是说,方差是随机变量 分散程度的平均,也是 一种期望

方差存在的条件可以用期望的条件来推导。

基本内容:#

  • 基本公式
  • 常见分布的方差
    分布名称 方差
  • 方差的性质:(都是我自己起的名字)
    • 倍乘平方性
    • 平移不变性
    • 2-norm最值性
    • 独立可分性
      • 本质上还是期望的独立可分性。

    • 边界条件
    • 第三条性质实际上反映了 均值是2-范数意义下,点集(随机变量)的最优代表元

标准化随机变量与变异系数:#

根据随机变量的方差和期望,可以构造 标准化随机变量此变量的方差为1,均值为0。

事实上, 引入标准化变量主要是为了消除由于计量单位的不同而给随机变量带来的一些影响,例如: 进行精密测量时, 对于某物长度的考察当然可以用cm 作为单位, 得到随机变量 , 也可以用 mm 作为单位, 得到随机变量, 那么 , 从而 的分布有所不同. 这显然不太合理. 但通过标准化变换, 就可以消除这种不合理性. 之前常用的标准正态变量也是一般正态变量经标准化变换得到的.

类似地, 度量分布离散性的数字特征——方差,也会由于这种量纲上的不同而不同, 如上例中, 若 的方差为 ,则的方差为 , 若以此认为 较之 更为分散, 显然是不合理的

为了消除量纲及取值大小(包含单位不同)的影响, 常用无量纲的 变异系数作为衡量指标。它反映了 随机变量在以它的中心位置为标准时,其值的离散程度

协方差与相关系数:#

对于多维随机变量,人们除考虑每一个分量的中心位置和离散程度,并由此来了解各个分量各自的部分特性外,还常常对它们之间的关系产生兴趣,在本节我们将介绍反映两个变量间线性关系的两个数字特征——协方差与相关系数

协方差:#

由于独立时从而我们认为此式可以反应的某种关系,因而我们有

  • 协方差也即协方差是二元随机变量函数期望
    • 直接使用定义计算协方差往往比较麻烦,而我们可以使用 来作为替代公式进行计算。

  • 协方差的性质
    • 自反性
    • 正定性
    • 倍乘性
    • 线性
    • 向量/柯西不等式取等条件为两随机变量严格线性相关。
    • 协方差就是一种 内积

相关系数:#

显然协方差也是有量纲的,取值依赖于单位,因而我们需要将其标准化,这就是 相关系数

  • 相关系数:记 相关系数。有时也简记为,等价于两标准化变量的协方差。

不相关:#

这里的 “不相关”, 实质上指的是 “不线性相关”,表示的是两个随机变量之间不存在线性关系,但可以存在非线性的函数关系。

从而有如下定理:

  • 独立性定理:对于两个相互独立的随机变量,若其方差存在,则一定不相关;但若其不相关,则未必独立.反之,若相关则一定不独立。
    • 条件中的 若其方差存在 保证了两随机变量不全是常数。

第五章 大数定律及中心极限定理#

从前面四章的介绍中, 我们知道随机现象的规律性要在大量试验中重复考察才能体现出来, “大量” 这一特点就意味着对极限定理研究的必要性.极限定理是概率论的重要内容, 也是数理统计学的基石之一, 长期以来, 对极限定理的研究所形成的概率论分析方法影响着概率论的发展, 同时, 新的极限理论问题也在实际研究和应用中不断产生和解决. 极限定理主要包括随机变量及其分布的极限性质和收敛性的一些结果,其中大数定律及中心极限定理这两类是极限定理中的基本理论. 大数定律主要探讨随机变量序列的平均在一定条件下的稳定性规律; 大量的随机变量之和的分布在一定条件下可以用正态分布去逼近, 这就是中心极限定理的主要研究内容, 我们将在本章介绍这两类极限定理.

大数定律#

  • 依概率收敛:,这是概率意义下的收敛,而不是数学意义上一般的收敛。因为对于更大的数有可能存在超越这个界的数,但是其极限必然是趋向于这个值的。
  • 马尔可夫不等式:若随机变量阶矩存在,则
    • 本质上是期望在计算的时候,就把概率的信息包括进去了,因此我们可以使用期望来估计概率.

    • 使用该不等式的时候,只需要在需要估计的时候 截断 即可。

  • 切比雪夫不等式:取马尔可夫不等式的,则有
    • 本质上是方差在计算的时候,就把概率的信息包括进去了。估计的时候一样 截断 即可。

  • 弱大数定律:大量测算值的算术平均具有一定的稳定性。
    • 这个大数定律是不少其他大数定律的客观背景。比如 伯努利大数定律辛钦大数定律

中心极限定理#

自从高斯在研究测量误差时导出了正态分布,人们在以后的生活和实践中越来越意识到正态分布的常见性和重要性, 这不仅因为很多随机变量的分布是正态分布, 还由于现实世界中许多研究对象是受大量的相互独立的随机因素影响着, 而其中每一个个别因素在总的影响中所起的作用都微乎其微, 这样的对象往往就近似地服从正态分布,这就是中心极限定理的客观背景. 粗略而言, 中心极限定理主要描述了大量的随机变量之和的分布可用正态分布来逼近.

独立同分布情形:#

  • Lindeberg-Levy CLT:独立同分布随机变量在变量数极大情况下可以近似为标准正态分布。
  • De Moivre-Laplace CLT重伯努利试验的极限情况是正态分布

独立不同分布情形:#

  • Lyapunov CLT:

第六章 统计量与抽样分布#

之前的内容是概率论,接下来的学习就是数理统计的部分。

数理统计 是研究数据的学科。主要包括收集数据/分析数据/由数据得出结论的一组概念、原则和方法,数理统计可以说是为了概率论而服务的,因为概率的前置数据来源于此。

随机样本与统计量#

随机样本#

  • 总体:研究对象的全体;

    • 总体容量:总体中所包含的个体数量;
      • 有限总体:容量有限的总体;
      • 无限总体:容量无限的总体;
  • 个体:总体中的每个成员;

  • 经典的数据收集方法

    1. 通过抽样调查收集数据
    2. 通过试验收集数据

一般而言,研究对象本身有很多 指标,例如调查大学生可以考虑身高、体重等等指标,其中有主次之分。

总体的某个指标,对不同的个体来说有不同的取值,这些取值构成一个分布,因此可以看成一个随机变量,有时候就把 称为总体,假设其分布函数为 也称这个是总体。

如果我们关心总体的两个或者两个以上的指标,就可以用随机向量来表示,为了方便就不再区分总体和相应的指标。

在实际中,总体的分布一般是未知的,或具有某种形式,但其中包含着位置参数。数理统计的主要任务就是从总体中抽取一部分个体,根据这部分个体的数据对总体分布或者其中的位置参数给出推断,被抽取的部分个体 被称为总体的一个 样本,相应的数量称为 样本容量

假设我们从总体中随机地抽取个个题,随着抽取个体的不同,指标 的取值也不同,分别记为 ,称其为 随机样本,按照不同的抽取方法可以得到不同的随机样本。如果在抽取样本时确保总体中的每个个体被抽中的概率相同,且每个个体独立抽取,且抽取出的个体与总体有相同的而非内部函数那么抽取出来的样本就被称为 简单随机样本(或 i.i.d. 样本),相应的抽样方式称为 简单随机抽样

对所抽取的样本进行观测,得出一组实数,这组实数称为样本的一个 样本值(或 观测值)。

如果总体的分布函数为,那么样本的联合分布函数

连续型分布的总体只需将上式的分布函数改为总体的密度函数即可。

统计量#

样本是进行统计推断的依据,在获得样本之后,就要根据样本进行统计分析并对总体进行统计推断。当然我们需要加工、整理样本,从中提取出有用的信息,然后根据这些信息对总体做出推断。也即我们会研究样本上的函数,我们称之为 统计量。比如均值,比如方差,都是统计量。

三个分布,#

统计量的分布称为抽样分布,因为统计量的分布是基于抽样出的结果、抽样的方式计算出来的。在某些特殊情形下,可以给出某些统计量的精确分布。

  • 分布: 起源于,假设这个标准化的变量是正态分布的,然后进行求和即可。