post on 03 Dec 2018 about 17262words require 58min
CC BY 4.0 (除特别声明或转载文章外)
如果这篇博客帮助到你,可以请我喝一杯咖啡~
部分参考了斯坦福大学 2014(吴恩达)机器学习教程中文笔记,感谢编者黄海广博士。
在概率论中,将具有以下三个特点的事件称为随机试验:
随机事件$E$的所有基本结果组成的集合为$E$的样本空间,记为$S$。样本空间的元素,即$E$的每个结果,称为样本点或基本事件,有时记为$\omega$。
称试验$E$的样本空间$S$的子集为$E$的随机事件,简称事件。在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生。
特别地,由一个样本点组成的单点集,称为基本事件;样本空间$S$包含所有的基本点,每次试验中总是发生,称为必然事件,记为$\Omega$;空集$\varnothing$每次都不可能发生,称为不可能事件。
$A \subset B$,若$A$发生,则$B$发生。
$A = B$,即$A \subset B$,且$B \subset A$ 。
$A\bigcup B$(或$A + B$),$A$与$B$中至少有一个发生。
$A - B=\lbrace x\vert x\in A,x\not\in B\rbrace $,$A$发生但$B$不发生。
$A\bigcap B$(或${AB}$),$A$与$B$同时发生。
$A\bigcap B$=$\varnothing$。基本事件是两两互斥的。
${ {A}{1} }{ {A}{2} }\dots { {A}_{n} }$两两互斥,且和事件为必然事件,即
\[A_i\bigcap A_j=\varnothing,i\ne j,\bigcap_{i=1}^n=\Omega\]相同条件下进行了 n 次试验,在这 n 次试验当中,事件 A 发生的频率$n_A$称为事件 A 的频数,比值$f_n(A)=\frac{n_A}{n}$称为事件 A 发生的频率。
设 E 是随机试验,S 是它的样本空间,对于 E 的每一事件 A 赋予一个实数$P(A)$,称为事件 A 的概率,如果集合函数$P(\cdot)$满足下列条件:
对于每一事件 A,有$P(A)\ge 0$。
对于必然事件 S,有$P(S)=1$。
设$A_1,A_2,\dots$是两两互不相容的事件,则$P(A_1\bigcup A_2\bigcup\dots)=P(A_1)+P(A_2)+\dots$。
具备以下两个特点的试验被称作等可能概型(古典概型):
概率很小的事件在一次试验中实际上几乎是不发生的。
$P(B\vert A)=\frac{P(AB)}{P(A)}$,表示$A$发生的条件下,$B$发生的概率。 条件概率$P(\centerdot \vert B)$满足概率的所有性质,例如:
\[P({ {\overline{A} }_{1} }\vert B)=1-P({ {A}_{1} }\vert B)\\ P({ {A}_{1} }\bigcup { {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)+P({ {A}_{2} }\vert B)-P({ {A}_{1} }{ {A}_{2} }\vert B)\\ P({ {A}_{1} }{ {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)P({ {A}_{2} }\vert { {A}_{1} }B)\]对于每一事件$B$,有$P(B\vert A)\ge 0$
对于必然事件$S$,有$P(S\vert A)=1$
上述公式中事件${ {B}_{i} }$的个数可为可列个。
若干个事件,如果对于其中任意个事件,它们的积事件的概率都等于各事件概率的积,则称这几个事件相互独立。
将某试验独立重复$n$次,若每次试验中事件 A 发生的概率为$p$,则$n$次试验中$A$发生$k$次的概率为:$P\lbrace X=k\rbrace =C_{n}^{k}{ {p}^{k} }{ {(1-p)}^{n-k} }$
$A$与$B$互逆$\Rightarrow$ $A$与$B$互斥,但反之不成立,$A$与$B$互斥(或互逆)且均非零概率事件$\Rightarrow$ $A$与$B$不独立。
设随机试验的样本空间为$S=\lbrace e\rbrace $,称定义在样本空间$S$上的实值单值函数$X=X(e)$为随机变量。
取值有限或可列无限的随机变量称为离散型随机变量。 设 X 的所有取值为$x_k(k=1,2,\dots)$,称 X 取各个事件的概率$P\lbrace X=x_k\rbrace =p_k,k=1,2,\dots$为离散型随机变量 X 的分布律,也可以写成表格形式:
$X$ | $x_1$ | $x_2$ | $\dots$ | $x_n$ | $\dots$ |
---|---|---|---|---|---|
$p_k$ | $p_1$ | $p_2$ | $\dots$ | $p_n$ | $\dots$ |
其中,$p_k$满足:
$P\lbrace X=k\rbrace = p^{k}{(1 - p)}^{1 - k},k = 0,1$,则称 X 服从以 p 为参数的 0-1 分布(两点分布)
背景:n 重 Bernoulli 试验中,每次试验感兴趣的事件 A 在 n 次试验中发生的次数 —— X 是一离散型随机变量。 若$P(A)=p$,则$P_n(k)=P\lbrace X=k\rbrace =C_n^kp^k(1-p)^{n-k},k=0,1\dots n$称 X 服从参数为$n, p$的二项分布,记作$X\sim B(n,p)$ 特别地,$0 – 1$分布是$n=1$的二项分布.
背景:已知某事发生速率为每单位时间 b 次,观察时间为 T 时间单位,X 为该观察时间内发生该事的总次数$\lambda=bT$ 设随机变量 X 的所有可能值是全体非负整数,若$P\lbrace X=k\rbrace =e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,\dots$其中$\lambda>0$是常数,则称 X 服从参数为$\lambda$的 Poisson 分布,记作$\pi(\lambda)$或$P(\lambda)$
可用于泊松分布逼近二项分布。设随机变量 X 服从二项分布,其分布律为$P\lbrace X=K\rbrace =C_n^kp^k(1-p)^{n-k}$,又设$np=\lambda$是常数,则有$\lim_{n\to\infty}P\lbrace X=K\rbrace =e^{-\lambda}\frac{\lambda^k}{k!}$ 在实际计算中,当$n\ge 20,p\leq 0.05$时,可用上述公式近似计算;而当$n\ge 100,np\leq 10$时,精度更好。
在 n 次伯努利试验中,试验 k 次才得到第一次成功的机率。 $G(p):P\lbrace X=k\rbrace = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\dots,P\lbrace X = m + k\vert X > m\rbrace = P\lbrace X=k\rbrace $
设有产品 N 件,其中次品 D 件,其余为正品,从中随机地抽取 n 件。记 X 为抽到的的次品件数,求 X 的分布律. 此时抽到 k 件次品的概率为$H(N,M,n):P\lbrace X=k\rbrace = \frac{C_{M}^{k}C_{N - M}^{n -k} }{C_{N}^{n} },k =0,1,\dots,min(n,M)$,称 X 服从超几何分布. 可以证明超几何分布的极限分布就是二项分布.
$F(x) = P(X \leq x), - \infty < x < + \infty$
概率密度$f(x)$非负可积,且:
设连续型随机变量 X 具有概率密度 $p(x)=\begin{cases}\frac{1}{b-a},a\leq x\leq b,\0,其它\end{cases}$则称 X 在$(a,b)$上服从均匀分布,记作$X\sim U(a,b)$ 分布函数$F(x)=\begin{cases}0,x<a\ \frac{x-a}{b-a},a\leq x< b\1,x\ge b\end{cases}$
设连续型随机变量 X 具有概率密度 $p(X)=\begin{cases}\lambda e^{-\lambda x},x\ge 0,\0,x<0\end{cases}$,其中$\lambda >0$为常数,则称 X 在$(a,b)$上服从指数分布。 分布函数$F(x)=\begin{cases}1-e^{-\frac{x}{\theta}},x>0\0,x\le 0\end{cases}$ 无记忆性:$\forall s,t>0$,$P\lbrace x>s+t\vert x>s\rbrace =p\lbrace x>t\rbrace $,即,如果 T 是某一元件的寿命,已知元件使用了 s 小时,它总共使用至少 s+t 小时的条件概率,与从开始使用时算起它使用至少 t 小时的概率相等。
设连续型随机变量 X 具有概率密度 $p(X)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2} }$则称 X 服从参数为$\mu,\sigma$的正态分布或高斯分布,记作$X\sim N(\mu,\sigma^2)$ $\mu$是位置参数,即固定$\sigma$,对于不同的$\mu$,对应的 f(x)的形状不变化,只是位置不同。 $\sigma$是形状参数,即固定$\mu$,对于不同的$\sigma$,对应 f(x)位置不变化,只是$\sigma$越小,靠近$\mu$附近取值的概率越大,相应拐点越接近于 ox 轴。$\sigma$大小与曲线陡峭程度成反比(几何意义),与数据分散程度成正比(数据意义)。
密度函数$\varphi(x)=\frac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2} }$是偶函数,其分布函数为$\Phi(x)=\frac{1}{\sqrt{2\pi} }\int_{-\infty}^xe^{-\frac{t^2}{2} }\,dt$,其值可查表。 $\varphi(0) = \frac{1}{\sqrt{2\pi} },\Phi(0) =\frac{1}{2},$ $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$ $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$
由两个随机变量构成的随机向量$(X,Y)$, 联合分布为$F(x,y) = P\lbrace X \le x,Y \le y\rbrace $ $P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} };i,j =1,2,\dots$ $f(x,y) \geq 0$ $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy} } = 1$ $F(x,y) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv} }$
$p_{i \cdot} = \sum_{j = 1}^{\infty}p_{ {ij} },i =1,2,\dots$ $p_{\cdot j} = \sum_{i}^{\infty}p_{ {ij} },j = 1,2,\dots$ $f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right){dy} }$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$
$P\lbrace X = x_{i}\vert Y = y_{j}\rbrace = \frac{p_{ {ij} } }{p_{\cdot j} }$ $P\lbrace Y = y_{j}\vert X = x_{i}\rbrace = \frac{p_{ {ij} } }{p_{i \cdot} }$ $f_{X\vert Y}\left( x \middle\vert y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$ $f_{Y\vert X}(y\vert x) = \frac{f(x,y)}{f_{X}(x)}$
若$P\lbrace X\le x,Y\le y\rbrace =P\lbrace X\le x\rbrace P\lbrace Y\le y\rbrace $,即$F(x,y)=F_X(x)F_Y(y)$,则称随机变量$X,Y$是相互独立的。 对于连续型随机变量,即$f(x,y)=f_X(x)f_Y(y)$在平面上几乎(除去面积为 0 的集合外)处处成立。 对于离散型随机变量,即$P\lbrace X=x_i,Y=y_i\rbrace =P\lbrace X=x_i\rbrace P\lbrace Y=y_i\rbrace $。 对于二维正态随机变量$(X,Y)$,$X,Y$相互独立的充要条件是参数$\rho=0$。
$(x,y) \sim U(D)$ ,$f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \ 0,其他 \end{cases}$
$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$,$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ $f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2} } }.\exp\left\lbrace \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{ {(x - \mu_{1})}^{2} }{\sigma_{1}^{2} } - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2} } + \frac{ {(y - \mu_{2})}^{2} }{\sigma_{2}^{2} }\rbrack \right\rbrace $
$X$和$Y$的相互独立:$\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$: $\Leftrightarrow p_{ {ij} } = p_{i \cdot} \cdot p_{\cdot j}$(离散型) $\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$(连续型) $X$和$Y$的相关性:
相关系数$\rho_{ {XY} } = 0$时,称$X$和$Y$不相关, 否则称$X$和$Y$相关
$f_{X+Y}(z)=\int_{-\infty}^\infty f(x,z-x)dx$
$f_{Y/X}(z)=\int_{-\infty}^\infty \vert x\vert f(x,xz)dx$ $f_{XY}(z)=\int_{-\infty}^\infty \frac{1}{\vert x\vert }f(x,\frac{z}{x})dx$
$F_{max}(z)=\Pi F_{x_i}(z)$ $F_{min}(z)=1-\Pi (1-F_{x_i}(z))$
$P\left( X = x_{i},Y = y_{i} \right) = p_{ {ij} },Z = g\left( X,Y \right)$ 则: $P(Z = z_{k}) = P\left\lbrace g\left( X,Y \right) = z_{k} \right\rbrace = \sum_{g\left( x_{i},y_{i} \right) = z_{k} }^{}{P\left( X = x_{i},Y = y_{j} \right)}$
$\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$ 则: $F_{z}\left( z \right) = P\left\lbrace g\left( X,Y \right) \leq z \right\rbrace = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$,$f_{z}(z) = F’_{z}(z)$
$f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$ $P\left\lbrace \left( X,Y \right) \in D \right\rbrace = \iint_{D}^{}{f\left( x,y \right){dxdy} }$ 若$(X,Y)$服从二维正态分布$N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ 则有:
若$X$与$Y$独立,且分别服从$N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$ 则:$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$
$C_{1}X + C_{2}Y\sim{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$
若$X$与$Y$相互独立,$f\left( x \right)$和$g\left( x \right)$为连续函数, 则$f\left( X \right)$和$g(Y)$也相互独立。
数学期望简称期望,又称均值。数学期望完全由概率分布决定。
若离散型随机变量$X$的分布律为$P\left\lbrace X = x_{i} \right\rbrace = p_{i}$ ,且级数$E(X) = \sum_{i}^{}{x_{i}p_{i} }$绝对收敛,则称$E(x)$为随机变量$X$的数学期望。
$X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$
对于函数$Y = g(x)$:
$P\lbrace X = x_{i}\rbrace = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i} }$;
$X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$ 扩展到多维函数:$Z = g(X,Y)$;$\left( X,Y \right)\sim P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} }$;$E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{ {ij} } } }$ $\left( X,Y \right)\sim f(x,y)$;$E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy} }$
$D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$,有时也记作$Var(X)$。 同时引入标准差(均方差)$\sigma (x)=\sqrt{D(X)}$。
$D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i} }$
$D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$
若随机变量$X$满足$E(X)=\mu$,方差$D(x)=\sigma^2$,则对于任意正数$\varepsilon$,有切比雪夫不等式$P\lbrace \vert X-\mu\vert \ge\varepsilon\rbrace \leq\frac{\sigma^2}{\varepsilon^2}$成立。
$Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$称为随机变量$X,Y$的协方差,$\rho_{ {XY} } = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)} }$称为他们的相关系数。
$E(X^{k})$称为$X$的$k$阶原点矩,简称$k$阶矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} \right\rbrace ,k=2,3,\dots$称为$X$的$k$阶中心矩。 $E(X^{k}Y^{l})$称为$X,Y$的$k+l$阶混合矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} {\lbrack Y - E(Y)\rbrack}^{l}\right\rbrace ,k,l=2,3,\dots$称为$X,Y$的$k+l$阶混合中心矩。 显然,$E(X)$是$X的一阶原点矩,$D(X)$是$X 的二阶中心矩,$Cov(X,Y)$是$X,Y$的二阶混合中心矩。
设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望$E(X_k)=\mu,(k=1,2,\dots)$,则序列$\overline{X}=\frac{1}{n}\sum_{k=1}^nX_k$依概率收敛于$\mu$。
伯努利大数定理是辛钦大数定理的一个重要推论,它表明:试验次数很大时,可用事件的频率代替事件的概率。 设$f_A$是 n 次独立重复试验中事件 A 发生的次数,$p$是事件 A 在每次试验中发生的概率,则对于任意的正数$\varepsilon$,有$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert <\varepsilon\rbrace =1$,$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert \ge\varepsilon\rbrace =0$。
设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望和方差$E(X_k)=\mu,D(X_k)=\sigma^2>0,(k=1,2,\dots)$,则随机变量之和$\sum_{k=1}^nX_k$的标准化变量$Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}$的分布函数$F_n(x)$对任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 这就是说,n 足够大的时候,近似地有$\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1)$或$\overline{X}~N(\mu,\frac{\sigma^2}{n})$
设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,具有数学期望和方差$E(X_k)=\mu_k,D(X_k)=\sigma_k^2>0,(k=1,2,\dots)$,记$B_n=\sum_{k=1}^n\sigma_k^2$,若存在正数$\delta$,使得当$n\to\infty$时,$\frac{1}{B_n^{2+\delta}}\sum_{k=1}^nE\lbrace \vert X_k-\mu_k\vert ^{2+\delta}\rbrace \to 0$,则随机化变量之和$\sum_{k=1}^nX_k$的标准化变量$Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{B_n}$的分布函数$F_n(x)$对于任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 该定理表明,n 足够大的时候,近似地有$Z_n\sim N(0,1)$。
独立同分布的中心极限定理的特殊情况,设随机变量$\eta_n(n=1,2,\dots)$服从参数为$n,p(0 < p < 1) $的二项分布,则对于任意 x,有$\lim_{n\to\infty}P\lbrace \frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\rbrace =\Phi(x)$。
研究对象的全体,它是一个随机变量,用$X$表示。
组成总体的每个基本元素。
来自总体$X$的$n$个相互独立且与总体同分布的随机变量$X_{1},X_{2}\dots,X_{n}$,称为容量为$n$的简单随机样本,简称样本。
若$P(X \leq x_{\alpha}) = \alpha,$则称$x_{\alpha}$为$X$的$\alpha$分位数
设$X_{1},X_{2}\dots,X_{n},$是来自总体$X$的一个样本,$g(X_{1},X_{2}\dots,X_{n})$)是样本的连续函数,且$g()$中不含任何未知参数,则称$g(X_{1},X_{2}\dots,X_{n})$为统计量。
$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$
$S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$
样本$k$阶原点矩:$A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\dots$
$B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\dots$
$\chi^{2} = X_{1}^{2} + X_{2}^{2} + \dots + X_{n}^{2}\sim\chi^{2}(n)$,其中$X_{1},X_{2}\dots,X_{n},$相互独立,且同服从$N(0,1)$
$T = \frac{X}{\sqrt{Y/n} }\sim t(n)$ ,其中$X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$且$X$,$Y$ 相互独立。
$F = \frac{X/n_{1} }{Y/n_{2} }\sim F(n_{1},n_{2})$,其中$X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$且$X$,$Y$相互独立。
设$X_{1},X_{2}\dots,X_{n}$为来自正态总体$N(\mu,\sigma^{2})$的样本,$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2} }$,则:
Related posts