Menu
    1. 概率论的基本概念
      1. 随机试验
      2. 样本空间、随机事件
        1. 样本空间
        2. 随机事件
        3. 事件间的关系与事件的运算
          1. 子事件
          2. 相等事件
          3. 和事件
          4. 差事件
          5. 积事件
          6. 互斥事件(互不相容)
          7. 互逆事件(对立事件)
          8. 完全事件组
          9. 交换律
          10. 结合律
          11. 分配律
          12. 德·摩根律
      3. 频率与概率
        1. 频率
          1. 定义
          2. 性质
        2. 概率
          1. 定义
            1. 非负性
            2. 规范性
            3. 可列可加性
          2. 性质
      4. 等可能概型(古典概型)
        1. 古典概型计算公式
        2. 实际推断原理
      5. 条件概率
        1. 条件概率
          1. 非负性
          2. 规范性
          3. 可列可加性
        2. 乘法定理
        3. 全概率公式和贝叶斯公式
          1. 全概率公式
          2. Bayes(贝叶斯)公式
      6. 独立性
        1. 独立重复试验
        2. 性质
        3. 互斥、互逆与独立性之间的关系
    2. 随机变量及其分布
      1. 随机变量
      2. 离散型随机变量及其分布律
        1. 0-1 分布(两点分布)
        2. 伯努利试验、二项分布
          1. Binomial Distribution(二项分布)
          2. Poisson (泊松)分布
            1. 泊松定理
          3. 几何分布
          4. 超几何分布
          5. 负二项分布(Pascal 分布)
          6. 离散均匀分布
      3. 随机变量的分布函数
        1. 定义
        2. 性质
      4. 连续型随机变量及其概率密度
        1. 均匀分布
        2. 指数分布
        3. 正态分布(高斯分布,Gauss)
          1. 标准正态分布 N(0,1)
      5. 随机变量的函数的分布
    3. 多维随机变量及其分布
      1. 二维随机变量
      2. 边缘分布
      3. 条件分布
      4. 相互独立的随机变量
      5. 两个随机变量的函数的分布
        1. 二维均匀分布
        2. 二维正态分布
      6. 随机变量的独立性和相关性
      7. 两个随机变量的函数的分布
        1. $Z=X+Y$的分布
        2. $Z=\frac{Y}{X}$的分布、$Z=XY$的分布
        3. $M=\max\lbrace X,Y\rbrace $的分布、$N=\min{X,Y}$的分布
        4. 离散型
        5. 连续型
        6. 重要公式与结论
    4. 随机变量的数字特征
      1. 数学期望
        1. 离散型
        2. 连续型
        3. 性质
        4. 随机变量函数的数学期望
          1. $X$为离散型
          2. $X$为连续型
      2. 方差
        1. 离散型
        2. 连续型
        3. 性质
        4. Chebyshev(切比雪夫)不等式
      3. 协方差及相关系数
        1. 性质
        2. 重要公式与结论
      4. 矩、协方差矩阵(待补充)
    5. 大数定律及中心极限定理
      1. 大数定律
        1. 辛钦大数定理(弱大数定理)
        2. 伯努利大数定理
      2. 中心极限定理
        1. 独立同分布的中心极限定理
        2. Lyapunov(李雅普诺夫)定理
        3. De Moivre-Laplace(棣莫弗-拉普拉斯)定理
    6. 样本及抽样分布
      1. 随机样本
        1. 总体
        2. 个体
        3. 简单随机样本
      2. 直方图和箱线图
        1. 直方图
        2. 箱线图
          1. 样本分位数
      3. 抽样分布
        1. 统计量
          1. 样本均值
          2. 样本方差
          3. 样本矩
          4. 样本 k 阶中心矩
        2. 常用统计量分布
          1. $\chi^{2}$分布
          2. $t$分布
          3. $F$分布
          4. 正态总体的常用样本分布
          5. 重要公式与结论
    7. 参数估计
      1. 点估计
        1. 矩估计法
        2. 最大似然估计法
      2. 基于截尾样本的最大似然估计
      3. 估计量的评选标准
        1. 无偏性
        2. 有效性
        3. 相和性
      4. 区间估计
      5. 正态总体均值与方差的区间估计
      6. (0-1)分布参数的区间估计
      7. 单侧置信区间
    8. 假设试验
      1. 假设检验
      2. 正态总体均值的假设检验
        1. 单个总体$N(\mu,\sigma^2)$均值$\mu$的检验
          1. $\sigma^2$已知,关于$\mu$的检验(Z 检验)
          2. $\mu$已知,关于$\sigma^2$的检验(t 检验)
        2. 两个正态总体均值差的检验(t 检验)
        3. 基于成对数据的检验(t 检验)
      3. 正态总体方差的假设检验
        1. 单个总体的情况
        2. 两个总体的情况
      4. 置信区间与假设检验之间的关系
      5. 样本容量的选取
      6. 分布拟合检验
        1. 单个分布的$\chi^2$拟合检验法
        2. 分布族的$\chi^2$拟合检验
        3. 偏度、峰度检验
      7. 秩和检验
      8. 假设检验问题的 p 值检验法

    概率论与数理统计

    post on 03 Dec 2018 about 17262words require 58min
    CC BY 4.0 (除特别声明或转载文章外)
    如果这篇博客帮助到你,可以请我喝一杯咖啡~

    部分参考了斯坦福大学 2014(吴恩达)机器学习教程中文笔记,感谢编者黄海广博士。

    概率论的基本概念

    随机试验

    在概率论中,将具有以下三个特点的事件称为随机试验

    • 可以在相同的条件下重复进行
    • 每次试验的可能结果不止一个,并且事先能够明确事件的所有可能结果
    • 进行一次试验前不能确定哪个结果会出现

    样本空间、随机事件

    样本空间

    随机事件$E$的所有基本结果组成的集合为$E$的样本空间,记为$S$。样本空间的元素,即$E$的每个结果,称为样本点或基本事件,有时记为$\omega$。

    随机事件

    称试验$E$的样本空间$S$的子集为$E$的随机事件,简称事件。在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生

    特别地,由一个样本点组成的单点集,称为基本事件;样本空间$S$包含所有的基本点,每次试验中总是发生,称为必然事件,记为$\Omega$;空集$\varnothing$每次都不可能发生,称为不可能事件

    事件间的关系与事件的运算

    子事件

    $A \subset B$,若$A$发生,则$B$发生。

    相等事件

    $A = B$,即$A \subset B$,且$B \subset A$ 。

    和事件

    $A\bigcup B$(或$A + B$),$A$与$B$中至少有一个发生。

    差事件

    $A - B=\lbrace x\vert x\in A,x\not\in B\rbrace $,$A$发生但$B$不发生。

    积事件

    $A\bigcap B$(或${AB}$),$A$与$B$同时发生。

    互斥事件(互不相容)

    $A\bigcap B$=$\varnothing$。基本事件是两两互斥的。

    互逆事件(对立事件)
    \[A\bigcap B=\varnothing\\ A\bigcup B=\Omega\\ A=\overline{B}\\ B=\overline{A}\]
    完全事件组

    ${ {A}{1} }{ {A}{2} }\dots { {A}_{n} }$两两互斥,且和事件为必然事件,即

    \[A_i\bigcap A_j=\varnothing,i\ne j,\bigcap_{i=1}^n=\Omega\]
    交换律
    \[A\bigcup B=B\bigcup A\\ A\bigcap B=B\bigcap A\]
    结合律
    \[(A\bigcup B)\bigcup C=A\bigcup (B\bigcup C)\]
    分配律
    \[(A\bigcap B)\bigcap C=A\bigcap (B\bigcap C)\]
    德·摩根律
    \[\overline{A\bigcup B}=\overline{A}\bigcap \overline{B}\\ \overline{A\bigcap B}=\overline{A}\bigcup \overline{B}\]

    频率与概率

    频率

    定义

    相同条件下进行了 n 次试验,在这 n 次试验当中,事件 A 发生的频率$n_A$称为事件 A 的频数,比值$f_n(A)=\frac{n_A}{n}$称为事件 A 发生的频率。

    性质
    • $0\leq f_n(A)\leq 1$
    • $f_n(S)=1$
    • 有限可加性:若$A_1,A_2,\dots,a_k$是两两互不相容的事件,则$f_n(A_1\bigcup A_2\bigcup\dots\bigcup A_k)=f_n(A_1)+f_n(A_2)+\dots+f_n(A_k)$

    概率

    定义

    设 E 是随机试验,S 是它的样本空间,对于 E 的每一事件 A 赋予一个实数$P(A)$,称为事件 A 的概率,如果集合函数$P(\cdot)$满足下列条件:

    非负性

    对于每一事件 A,有$P(A)\ge 0$。

    规范性

    对于必然事件 S,有$P(S)=1$。

    可列可加性

    设$A_1,A_2,\dots$是两两互不相容的事件,则$P(A_1\bigcup A_2\bigcup\dots)=P(A_1)+P(A_2)+\dots$。

    性质
    • $P(\varnothing)=0$
    • 有限可加性:$P(A_1\bigcup A_2\bigcup\dots\bigcup A_n)=P(A_1)+P(A_2)+\dots+P(A_n)$,可由上一条性质和可列可加性推出。
    • 若$A\subset B$,则$P(B-A)=P(B)-P(A)\ge 0$
    • $P(A)\le 1$
    • 逆事件的概率:$P(\overline{A})=1-P(A)$
    • 加法公式:$P(A\bigcup B)=P(A)+P(B)-P(AB)$,推广到三元:$P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$
    • $P(A-B)=P(A)-P(AB)$
    • $P(A\overline{B})=P(A)-P(AB)$
    • $P(A)=P(AB)+P(A\overline{B})$
    • $P(A\bigcup B)=P(A)+P(\overline{A}B)=P(AB)+P(A\overline{B})+P(\overline{A}B)$

    等可能概型(古典概型)

    具备以下两个特点的试验被称作等可能概型(古典概型):

    • 试验的样本空间只包含有限个元素
    • 试验中每个基本事件发生的可能性相同

    古典概型计算公式

    \[P(A)=\frac{A包含的基本事件数}{S包含的事件数}\]

    实际推断原理

    概率很小的事件在一次试验中实际上几乎是不发生的。

    条件概率

    条件概率

    $P(B\vert A)=\frac{P(AB)}{P(A)}$,表示$A$发生的条件下,$B$发生的概率。 条件概率$P(\centerdot \vert B)$满足概率的所有性质,例如:

    \[P({ {\overline{A} }_{1} }\vert B)=1-P({ {A}_{1} }\vert B)\\ P({ {A}_{1} }\bigcup { {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)+P({ {A}_{2} }\vert B)-P({ {A}_{1} }{ {A}_{2} }\vert B)\\ P({ {A}_{1} }{ {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)P({ {A}_{2} }\vert { {A}_{1} }B)\]
    非负性

    对于每一事件$B$,有$P(B\vert A)\ge 0$

    规范性

    对于必然事件$S$,有$P(S\vert A)=1$

    可列可加性
    \[P(\underset{i=1}{\overset{\infty}{\mathop{\bigcup } } }\,{ {B}_{i} }\vert A)=\sum_{i=1}^\infty P(B_i\vert A)\]

    乘法定理

    \[P({ {A}_{1} }{ {A}_{2} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })=P({ {A}_{2} })P({ {A}_{1} }\vert { {A}_{2} })\\ P({ {A}_{1} }{ {A}_{2} }\dots { {A}_{n} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })P({ {A}_{3} }\vert { {A}_{1} }{ {A}_{2} })\dots P({ {A}_{n} }\vert { {A}_{1} }{ {A}_{2} }\dots { {A}_{n-1} })\]

    全概率公式和贝叶斯公式

    全概率公式
    \[P(A)=\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} }), { {B}_{i} }{ {B}_{j} } }=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup } } }\,{ {B}_{i} }=\Omega\]
    Bayes(贝叶斯)公式
    \[P({ {B}_{j} }\vert A)=\frac{P(A\vert { {B}_{j} })P({ {B}_{j} })}{\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} })} },j=1,2,\dots ,n\]

    上述公式中事件${ {B}_{i} }$的个数可为可列个。

    独立性

    若干个事件,如果对于其中任意个事件,它们的积事件的概率都等于各事件概率的积,则称这几个事件相互独立。

    • $A$与$B$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$
    • $A$,$B$,$C$两两独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;
    • $A$,$B$,$C$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;$P(ABC)=P(A)P(B)P(C)$

    独立重复试验

    将某试验独立重复$n$次,若每次试验中事件 A 发生的概率为$p$,则$n$次试验中$A$发生$k$次的概率为:$P\lbrace X=k\rbrace =C_{n}^{k}{ {p}^{k} }{ {(1-p)}^{n-k} }$

    性质

    • 若${ {A}{1} },{ {A}{2} },\dots ,{ {A}{n} }$相互独立,则$P(\bigcap\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{P({ {A}{i} })},$ $P(\bigcup\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{(1-P({ {A}_{i} }))}$
    • 若${ {A}{1} },{ {A}{2} },\dots ,{ {A}{m} },{ {B}{1} },{ {B}{2} },\dots ,{ {B}{n} }$相互独立,则$f({ {A}{1} },{ {A}{2} },\dots ,{ {A}{m} })$与$g({ {B}{1} },{ {B}{2} },\dots ,{ {B}{n} })$也相互独立,其中$f(\centerdot ),g(\centerdot )$分别表示对相应事件做任意事件运算后所得的事件,另外,概率为 1(或 0)的事件与任何事件相互独立。

    互斥、互逆与独立性之间的关系

    $A$与$B$互逆$\Rightarrow$ $A$与$B$互斥,但反之不成立,$A$与$B$互斥(或互逆)且均非零概率事件$\Rightarrow$ $A$与$B$不独立。

    随机变量及其分布

    随机变量

    设随机试验的样本空间为$S=\lbrace e\rbrace $,称定义在样本空间$S$上的实值单值函数$X=X(e)$为随机变量。

    离散型随机变量及其分布律

    取值有限或可列无限的随机变量称为离散型随机变量。 设 X 的所有取值为$x_k(k=1,2,\dots)$,称 X 取各个事件的概率$P\lbrace X=x_k\rbrace =p_k,k=1,2,\dots$为离散型随机变量 X 的分布律,也可以写成表格形式:

    $X$ $x_1$ $x_2$ $\dots$ $x_n$ $\dots$
    $p_k$ $p_1$ $p_2$ $\dots$ $p_n$ $\dots$

    其中,$p_k$满足:

    • $p_k\ge 0,k=1,2,\dots$
    • $\sum_{k=1}^\infty p_k=1$

    0-1 分布(两点分布)

    $P\lbrace X=k\rbrace = p^{k}{(1 - p)}^{1 - k},k = 0,1$,则称 X 服从以 p 为参数的 0-1 分布(两点分布)

    伯努利试验、二项分布

    Binomial Distribution(二项分布)

    背景:n 重 Bernoulli 试验中,每次试验感兴趣的事件 A 在 n 次试验中发生的次数 —— X 是一离散型随机变量。 若$P(A)=p$,则$P_n(k)=P\lbrace X=k\rbrace =C_n^kp^k(1-p)^{n-k},k=0,1\dots n$称 X 服从参数为$n, p$的二项分布,记作$X\sim B(n,p)$ 特别地,$0 – 1$分布是$n=1$的二项分布.

    Poisson (泊松)分布

    背景:已知某事发生速率为每单位时间 b 次,观察时间为 T 时间单位,X 为该观察时间内发生该事的总次数$\lambda=bT$ 设随机变量 X 的所有可能值是全体非负整数,若$P\lbrace X=k\rbrace =e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,\dots$其中$\lambda>0$是常数,则称 X 服从参数为$\lambda$的 Poisson 分布,记作$\pi(\lambda)$或$P(\lambda)$

    泊松定理

    可用于泊松分布逼近二项分布。设随机变量 X 服从二项分布,其分布律为$P\lbrace X=K\rbrace =C_n^kp^k(1-p)^{n-k}$,又设$np=\lambda$是常数,则有$\lim_{n\to\infty}P\lbrace X=K\rbrace =e^{-\lambda}\frac{\lambda^k}{k!}$ 在实际计算中,当$n\ge 20,p\leq 0.05$时,可用上述公式近似计算;而当$n\ge 100,np\leq 10$时,精度更好。

    几何分布

    在 n 次伯努利试验中,试验 k 次才得到第一次成功的机率。 $G(p):P\lbrace X=k\rbrace = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\dots,P\lbrace X = m + k\vert X > m\rbrace = P\lbrace X=k\rbrace $

    超几何分布

    设有产品 N 件,其中次品 D 件,其余为正品,从中随机地抽取 n 件。记 X 为抽到的的次品件数,求 X 的分布律. 此时抽到 k 件次品的概率为$H(N,M,n):P\lbrace X=k\rbrace = \frac{C_{M}^{k}C_{N - M}^{n -k} }{C_{N}^{n} },k =0,1,\dots,min(n,M)$,称 X 服从超几何分布. 可以证明超几何分布的极限分布就是二项分布.

    负二项分布(Pascal 分布)
    离散均匀分布

    随机变量的分布函数

    定义

    $F(x) = P(X \leq x), - \infty < x < + \infty$

    性质

    • $0 \leq F(x) \leq 1$
    • $F(x)$单调不减
    • 右连续$F(x) = F(x+0)$
    • $F( - \infty) = 0,F( + \infty) = 1$

    连续型随机变量及其概率密度

    概率密度$f(x)$非负可积,且:

    • $f(x) \geq 0$
    • $\int_{- \infty}^{+\infty}{f(x){dx} = 1}$
    • $x$为$f(x)$的连续点,则: $f(x) = F’(x)$分布函数$F(x) = \int_{- \infty}^{x}{f(t){dt} }$

    均匀分布

    设连续型随机变量 X 具有概率密度 $p(x)=\begin{cases}\frac{1}{b-a},a\leq x\leq b,\0,其它\end{cases}$则称 X 在$(a,b)$上服从均匀分布,记作$X\sim U(a,b)$ 分布函数$F(x)=\begin{cases}0,x<a\ \frac{x-a}{b-a},a\leq x< b\1,x\ge b\end{cases}$

    指数分布

    设连续型随机变量 X 具有概率密度 $p(X)=\begin{cases}\lambda e^{-\lambda x},x\ge 0,\0,x<0\end{cases}$,其中$\lambda >0$为常数,则称 X 在$(a,b)$上服从指数分布。 分布函数$F(x)=\begin{cases}1-e^{-\frac{x}{\theta}},x>0\0,x\le 0\end{cases}$ 无记忆性:$\forall s,t>0$,$P\lbrace x>s+t\vert x>s\rbrace =p\lbrace x>t\rbrace $,即,如果 T 是某一元件的寿命,已知元件使用了 s 小时,它总共使用至少 s+t 小时的条件概率,与从开始使用时算起它使用至少 t 小时的概率相等。

    正态分布(高斯分布,Gauss)

    设连续型随机变量 X 具有概率密度 $p(X)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2} }$则称 X 服从参数为$\mu,\sigma$的正态分布或高斯分布,记作$X\sim N(\mu,\sigma^2)$ $\mu$是位置参数,即固定$\sigma$,对于不同的$\mu$,对应的 f(x)的形状不变化,只是位置不同。 $\sigma$是形状参数,即固定$\mu$,对于不同的$\sigma$,对应 f(x)位置不变化,只是$\sigma$越小,靠近$\mu$附近取值的概率越大,相应拐点越接近于 ox 轴。$\sigma$大小与曲线陡峭程度成反比(几何意义),与数据分散程度成正比(数据意义)。

    标准正态分布 N(0,1)

    密度函数$\varphi(x)=\frac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2} }$是偶函数,其分布函数为$\Phi(x)=\frac{1}{\sqrt{2\pi} }\int_{-\infty}^xe^{-\frac{t^2}{2} }\,dt$,其值可查表。 正态分布表 $\varphi(0) = \frac{1}{\sqrt{2\pi} },\Phi(0) =\frac{1}{2},$ $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$ $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$

    随机变量的函数的分布

    • 离散型:$P(X = x_{1}) = p_{i},Y = g(X)$,则: $P(Y = y_{j}) = \sum_{g(x_{i}) = y_{i} }^{}{P(X = x_{i})}$
    • 连续型:$X\sim f_{X}(x),Y = g(x)$,则:$F_{y}(y) = P(Y \leq y) = P(g(X) \leq y) = \int_{g(x) \leq y}^{}{f_{x}(x)dx}$, $f_{Y}(y) = F’_{Y}(y)$
    • 离散型随机变量的分布函数为阶梯间断函数;连续型随机变量的分布函数为连续函数,但不一定为处处可导函数。
    • 存在既非离散也非连续型随机变量。

    多维随机变量及其分布

    二维随机变量

    由两个随机变量构成的随机向量$(X,Y)$, 联合分布为$F(x,y) = P\lbrace X \le x,Y \le y\rbrace $ $P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} };i,j =1,2,\dots$ $f(x,y) \geq 0$ $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy} } = 1$ $F(x,y) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv} }$

    边缘分布

    $p_{i \cdot} = \sum_{j = 1}^{\infty}p_{ {ij} },i =1,2,\dots$ $p_{\cdot j} = \sum_{i}^{\infty}p_{ {ij} },j = 1,2,\dots$ $f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right){dy} }$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

    条件分布

    $P\lbrace X = x_{i}\vert Y = y_{j}\rbrace = \frac{p_{ {ij} } }{p_{\cdot j} }$ $P\lbrace Y = y_{j}\vert X = x_{i}\rbrace = \frac{p_{ {ij} } }{p_{i \cdot} }$ $f_{X\vert Y}\left( x \middle\vert y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$ $f_{Y\vert X}(y\vert x) = \frac{f(x,y)}{f_{X}(x)}$

    相互独立的随机变量

    若$P\lbrace X\le x,Y\le y\rbrace =P\lbrace X\le x\rbrace P\lbrace Y\le y\rbrace $,即$F(x,y)=F_X(x)F_Y(y)$,则称随机变量$X,Y$是相互独立的。 对于连续型随机变量,即$f(x,y)=f_X(x)f_Y(y)$在平面上几乎(除去面积为 0 的集合外)处处成立。 对于离散型随机变量,即$P\lbrace X=x_i,Y=y_i\rbrace =P\lbrace X=x_i\rbrace P\lbrace Y=y_i\rbrace $。 对于二维正态随机变量$(X,Y)$,$X,Y$相互独立的充要条件是参数$\rho=0$。

    两个随机变量的函数的分布

    二维均匀分布

    $(x,y) \sim U(D)$ ,$f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \ 0,其他 \end{cases}$

    二维正态分布

    $(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$,$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ $f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2} } }.\exp\left\lbrace \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{ {(x - \mu_{1})}^{2} }{\sigma_{1}^{2} } - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2} } + \frac{ {(y - \mu_{2})}^{2} }{\sigma_{2}^{2} }\rbrack \right\rbrace $

    随机变量的独立性和相关性

    $X$和$Y$的相互独立:$\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$: $\Leftrightarrow p_{ {ij} } = p_{i \cdot} \cdot p_{\cdot j}$(离散型) $\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$(连续型) $X$和$Y$的相关性:

    相关系数$\rho_{ {XY} } = 0$时,称$X$和$Y$不相关, 否则称$X$和$Y$相关

    两个随机变量的函数的分布

    $Z=X+Y$的分布

    $f_{X+Y}(z)=\int_{-\infty}^\infty f(x,z-x)dx$

    $Z=\frac{Y}{X}$的分布、$Z=XY$的分布

    $f_{Y/X}(z)=\int_{-\infty}^\infty \vert x\vert f(x,xz)dx$ $f_{XY}(z)=\int_{-\infty}^\infty \frac{1}{\vert x\vert }f(x,\frac{z}{x})dx$

    $M=\max\lbrace X,Y\rbrace $的分布、$N=\min{X,Y}$的分布

    $F_{max}(z)=\Pi F_{x_i}(z)$ $F_{min}(z)=1-\Pi (1-F_{x_i}(z))$

    离散型

    $P\left( X = x_{i},Y = y_{i} \right) = p_{ {ij} },Z = g\left( X,Y \right)$ 则: $P(Z = z_{k}) = P\left\lbrace g\left( X,Y \right) = z_{k} \right\rbrace = \sum_{g\left( x_{i},y_{i} \right) = z_{k} }^{}{P\left( X = x_{i},Y = y_{j} \right)}$

    连续型

    $\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$ 则: $F_{z}\left( z \right) = P\left\lbrace g\left( X,Y \right) \leq z \right\rbrace = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$,$f_{z}(z) = F’_{z}(z)$

    重要公式与结论

    $f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$ $P\left\lbrace \left( X,Y \right) \in D \right\rbrace = \iint_{D}^{}{f\left( x,y \right){dxdy} }$ 若$(X,Y)$服从二维正态分布$N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ 则有:

    • $X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$
    • $X$与$Y$相互独立$\Leftrightarrow \rho = 0$,即$X$与$Y$不相关。
    • $C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$
    • ${\ X}$关于$Y=y$的条件分布为: $N(\mu_{1} + \rho\frac{\sigma_{1} }{\sigma_{2} }(y - \mu_{2}),\sigma_{1}^{2}(1 - \rho^{2}))$
    • $Y$关于$X = x$的条件分布为: $N(\mu_{2} + \rho\frac{\sigma_{2} }{\sigma_{1} }(x - \mu_{1}),\sigma_{2}^{2}(1 - \rho^{2}))$

    若$X$与$Y$独立,且分别服从$N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$ 则:$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$

    $C_{1}X + C_{2}Y\sim{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$

    若$X$与$Y$相互独立,$f\left( x \right)$和$g\left( x \right)$为连续函数, 则$f\left( X \right)$和$g(Y)$也相互独立。

    随机变量的数字特征

    数学期望

    数学期望简称期望,又称均值。数学期望完全由概率分布决定。

    离散型

    若离散型随机变量$X$的分布律为$P\left\lbrace X = x_{i} \right\rbrace = p_{i}$ ,且级数$E(X) = \sum_{i}^{}{x_{i}p_{i} }$绝对收敛,则称$E(x)$为随机变量$X$的数学期望。

    连续型

    $X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

    性质

    • $E(C) = C,E\lbrack E(X)\rbrack = E(X)$
    • $E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$
    • 若$X$和$Y$独立,则$E(XY) = E(X)E(Y)$
    • $\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

    随机变量函数的数学期望

    对于函数$Y = g(x)$:

    $X$为离散型

    $P\lbrace X = x_{i}\rbrace = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i} }$;

    $X$为连续型

    $X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$ 扩展到多维函数:$Z = g(X,Y)$;$\left( X,Y \right)\sim P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} }$;$E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{ {ij} } } }$ $\left( X,Y \right)\sim f(x,y)$;$E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy} }$

    方差

    $D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$,有时也记作$Var(X)$。 同时引入标准差(均方差)$\sigma (x)=\sqrt{D(X)}$。

    离散型

    $D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i} }$

    连续型

    $D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$

    性质

    • $\ D(X) = E(X^{2}) - E^{2}(X)$
    • $\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$
    • $\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$
    • $X$与$Y$相互独立,则$D(X \pm Y) = D(X) + D(Y)$
    • $\ D(X) = 0 \Leftrightarrow P\left\lbrace X = C \right\rbrace = 1$
    • $\ D\left( X \right) < E\left( X - C \right)^{2},C \neq E\left( X \right)$

    Chebyshev(切比雪夫)不等式

    若随机变量$X$满足$E(X)=\mu$,方差$D(x)=\sigma^2$,则对于任意正数$\varepsilon$,有切比雪夫不等式$P\lbrace \vert X-\mu\vert \ge\varepsilon\rbrace \leq\frac{\sigma^2}{\varepsilon^2}$成立。

    协方差及相关系数

    $Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$称为随机变量$X,Y$的协方差,$\rho_{ {XY} } = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)} }$称为他们的相关系数。

    性质

    • $\ Cov(X,Y) = Cov(Y,X)$
    • $\ Cov(aX,bY) = abCov(Y,X)$
    • $\ Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$
    • $\ \left\vert \rho\left( X,Y \right) \right\vert \leq 1$
    • $\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ,其中$a > 0$
    • $\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a < 0$
    • 一般有 $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

    重要公式与结论

    • $\ Cov(X,Y) = E(XY) - E(X)E(Y)$
    • $\left\vert \rho\left( X,Y \right) \right\vert \leq 1,$且 $\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a > 0$
    • $\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a < 0$
    • 下面 5 个条件互为充要条件:$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$ $\Leftrightarrow E(X,Y) = E(X)E(Y)$ $\Leftrightarrow D(X + Y) = D(X) + D(Y)$ $\Leftrightarrow D(X - Y) = D(X) + D(Y)$。注:$X$与$Y$独立为上述 5 个条件中任何一个成立的充分条件,但非必要条件。

    矩、协方差矩阵(待补充)

    $E(X^{k})$称为$X$的$k$阶原点矩,简称$k$阶矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} \right\rbrace ,k=2,3,\dots$称为$X$的$k$阶中心矩。 $E(X^{k}Y^{l})$称为$X,Y$的$k+l$阶混合矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} {\lbrack Y - E(Y)\rbrack}^{l}\right\rbrace ,k,l=2,3,\dots$称为$X,Y$的$k+l$阶混合中心矩。 显然,$E(X)$是$X的一阶原点矩,$D(X)$是$X 的二阶中心矩,$Cov(X,Y)$是$X,Y$的二阶混合中心矩。

    大数定律及中心极限定理

    大数定律

    辛钦大数定理(弱大数定理)

    设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望$E(X_k)=\mu,(k=1,2,\dots)$,则序列$\overline{X}=\frac{1}{n}\sum_{k=1}^nX_k$依概率收敛于$\mu$。

    伯努利大数定理

    伯努利大数定理是辛钦大数定理的一个重要推论,它表明:试验次数很大时,可用事件的频率代替事件的概率。 设$f_A$是 n 次独立重复试验中事件 A 发生的次数,$p$是事件 A 在每次试验中发生的概率,则对于任意的正数$\varepsilon$,有$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert <\varepsilon\rbrace =1$,$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert \ge\varepsilon\rbrace =0$。

    中心极限定理

    独立同分布的中心极限定理

    设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望和方差$E(X_k)=\mu,D(X_k)=\sigma^2>0,(k=1,2,\dots)$,则随机变量之和$\sum_{k=1}^nX_k$的标准化变量$Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}$的分布函数$F_n(x)$对任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 这就是说,n 足够大的时候,近似地有$\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1)$或$\overline{X}~N(\mu,\frac{\sigma^2}{n})$

    Lyapunov(李雅普诺夫)定理

    设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,具有数学期望和方差$E(X_k)=\mu_k,D(X_k)=\sigma_k^2>0,(k=1,2,\dots)$,记$B_n=\sum_{k=1}^n\sigma_k^2$,若存在正数$\delta$,使得当$n\to\infty$时,$\frac{1}{B_n^{2+\delta}}\sum_{k=1}^nE\lbrace \vert X_k-\mu_k\vert ^{2+\delta}\rbrace \to 0$,则随机化变量之和$\sum_{k=1}^nX_k$的标准化变量$Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{B_n}$的分布函数$F_n(x)$对于任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 该定理表明,n 足够大的时候,近似地有$Z_n\sim N(0,1)$。

    De Moivre-Laplace(棣莫弗-拉普拉斯)定理

    独立同分布的中心极限定理的特殊情况,设随机变量$\eta_n(n=1,2,\dots)$服从参数为$n,p(0 < p < 1) $的二项分布,则对于任意 x,有$\lim_{n\to\infty}P\lbrace \frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\rbrace =\Phi(x)$。

    样本及抽样分布

    随机样本

    总体

    研究对象的全体,它是一个随机变量,用$X$表示。

    个体

    组成总体的每个基本元素。

    简单随机样本

    来自总体$X$的$n$个相互独立且与总体同分布的随机变量$X_{1},X_{2}\dots,X_{n}$,称为容量为$n$的简单随机样本,简称样本。

    直方图和箱线图

    直方图

    箱线图

    样本分位数

    若$P(X \leq x_{\alpha}) = \alpha,$则称$x_{\alpha}$为$X$的$\alpha$分位数

    抽样分布

    统计量

    设$X_{1},X_{2}\dots,X_{n},$是来自总体$X$的一个样本,$g(X_{1},X_{2}\dots,X_{n})$)是样本的连续函数,且$g()$中不含任何未知参数,则称$g(X_{1},X_{2}\dots,X_{n})$为统计量。

    样本均值

    $\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

    样本方差

    $S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$

    样本矩

    样本$k$阶原点矩:$A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\dots$

    样本 k 阶中心矩

    $B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\dots$

    常用统计量分布

    $\chi^{2}$分布

    $\chi^{2} = X_{1}^{2} + X_{2}^{2} + \dots + X_{n}^{2}\sim\chi^{2}(n)$,其中$X_{1},X_{2}\dots,X_{n},$相互独立,且同服从$N(0,1)$

    $t$分布

    $T = \frac{X}{\sqrt{Y/n} }\sim t(n)$ ,其中$X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$且$X$,$Y$ 相互独立。

    $F$分布

    $F = \frac{X/n_{1} }{Y/n_{2} }\sim F(n_{1},n_{2})$,其中$X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$且$X$,$Y$相互独立。

    正态总体的常用样本分布

    设$X_{1},X_{2}\dots,X_{n}$为来自正态总体$N(\mu,\sigma^{2})$的样本,$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2} }$,则:

    • $\overline{X}\sim N\left( \mu,\frac{\sigma^{2} }{n} \right){\ \ }$或者$\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n} } }\sim N(0,1)$
    • $\frac{(n - 1)S^{2} }{\sigma^{2} } = \frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2}\sim\chi^{2}(n - 1)}$
    • $\frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \mu)}^{2}\sim\chi^{2}(n)}$
    • ${\ \ }\frac{\overline{X} - \mu}{S/\sqrt{n} }\sim t(n - 1)$
    重要公式与结论
    • 对于$\chi^{2}\sim\chi^{2}(n)$,有$E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n$;
    • 对于$T\sim t(n)$,有$E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2)$;
    • 对于$F\sim{\ }F(m,n)$,有 $\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)}$;
    • 对于任意总体$X$,有 $E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$

    参数估计

    点估计

    矩估计法

    最大似然估计法

    基于截尾样本的最大似然估计

    估计量的评选标准

    无偏性

    有效性

    相和性

    区间估计

    正态总体均值与方差的区间估计

    (0-1)分布参数的区间估计

    单侧置信区间

    假设试验

    假设检验

    正态总体均值的假设检验

    单个总体$N(\mu,\sigma^2)$均值$\mu$的检验

    $\sigma^2$已知,关于$\mu$的检验(Z 检验)
    $\mu$已知,关于$\sigma^2$的检验(t 检验)

    两个正态总体均值差的检验(t 检验)

    基于成对数据的检验(t 检验)

    正态总体方差的假设检验

    单个总体的情况

    两个总体的情况

    置信区间与假设检验之间的关系

    样本容量的选取

    分布拟合检验

    单个分布的$\chi^2$拟合检验法

    分布族的$\chi^2$拟合检验

    偏度、峰度检验

    秩和检验

    假设检验问题的 p 值检验法

    Loading comments...