概率论学习笔记

Fluorine Wang

2024-01-12

DEAD

Math

随机试验

简称试验,有三大性质:可重复性可观测性随机性

样本点:最基本的结果,通常用 $\omega$ 表示,如 CE,WA,AC...
样本空间:所有样本点组成的集合,用 $\Omega$ 表示,即 {CE,WA,AC,RE,TLE...}
随机事件:样本空间的子集,若干样本点构成的集合,用 A,B,C 表示.
基本事件:样本空间的单点集,也就是包含一个基本结果的集合 {TLE} .
必然事件:用 $\Omega$ 表示.
不可能事件:用 $\Phi$ 表示.

集合交并补运算,迪摩根律(忽略)
差:事件A发生但是B不发生,记作 A-B .

$A-B=A\overline B=A-AB$ $(A-B)\cup B=A\cup B$

频率

n次试验中A发生na次有

$f_n(A)=\frac{n_A}n$

频率:非负性,规范性(对于必然事件频率是1),有限可加性(对于两两不相容的事件,他们至少发生一个的概率是频率相加,有下式)

$f_n\left(\bigcup_{i=1}^mA_i\right)=\sum_{i=1}^mf_n(A_i)$

频率不是概率,有波动性,随着测试次数增加趋于稳定…

$f_n(A)\to p(n\to+\infty)$

概率

非负性,规范性,可列可加性(频率的式子改改就是了)

性质:如果 $A\subseteq B$ 有 $P(B-A)=P(B)-P(A)$

减法公式:对任意事件AB有

$P(B-A)=P(B)-P(AB)$

加法公式:任意事件AB有

$P(A\cup B)=P(A)+P(B)-P(AB)$

本质是容斥,可以推到三个事件.

古典概型(等可能概型)

有限样本空间,每个样本点等可能.

几何概型

有限样本空间,概率只和几何大小有关.

例题-蒲丰投针问题

平面上均匀画有平行直线,间距2a,你要不停扔长度2l的针($l<a$),求针和任意直线相交的概率.

设针中点和最近直线距离为l,夹角为 $\varphi$ ,有

$\Omega=\{(\varphi,x)|0\le\varphi\le\pi,0\le x\le a\}$

相交的充要条件是

$0\le x\le l\sin \varphi$

然后画出图形求定积分

$p=\frac{\int_{0}^\pi l\sin\varphi\mathrm d\varphi}{\pi a}=\frac{2l}{\pi a}$

条件概率

若 $P(A)>0$ ,称

$P(B|A)=\frac{P(AB)}{P(A)}$

叫做A发生下事件B发生的概率.

由于”非负性,规范性,可列可加性”,所以条件概率也是概率.

常用公式:

$P(\overline B|A)=1-P(B|A)$ $P((B_1\cup B_2)|A)=P(B_1|A)+P(B_2|A)-P((B_1B_2)|A)$

条件概率的本质是把事件A看成条件,也就是把A看成新的样本空间.

$P(B|A)=\frac{AB的样本点数}{\Omega_A的样本点数}$

乘法公式:如果 $P(B)>0$ 有

$P(AB)=P(A|B)P(B)$

如果 $P(A)>0$ 有

$P(AB)=P(B|A)P(A)$

推广:

如果 $P(A_1A_2…a_n)>0$ 有(套娃)

$P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})$

全概率公式

把整个样本空间拆分成 $A_1…A_n$ n个两两不相容的事件,然后他们并一起就是样本空间,有

$P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)$

贝叶斯公式

由乘法公式

$P(AB)=P(A|B)P(B)=P(B|A)P(A)$

带入全概率公式得

$\boxed{P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j=1}^nP(B|A_j)P(A_j)}}$

$A_1…A_n$ 可以看作是导致结果B发生的各种原因.
$P(A_i|B)$ 是B发生下 $A_i$ 引起的概率,称作 后验概率 .
$P(A_i)$ 称作先验概率.

事件的独立性

如果有

$P(AB)=P(A)P(B)$

则称事件 $A,B$ 相互独立.另一种定义:

$P(B|A)=P(B)$ $P(A|B)=P(A)$

必然事件和不可能事件与任何事件独立.

独立和不相容关系:

相互独立: $P(AB)=P(A)P(B)$
互不相容: $AB=\Phi$
若 $P(A)>0,P(B)>0$ ,则独立和不相容不可能同时成立.

若

$P(AB)=P(A)P(B)$ $P(AC)=P(A)P( C )$ $P(BC)=P( C )P(B)$

即

$P(ABC)=P(A)P(B)P( C )$

则称 $ABC$ 相互独立.

若

$P(A_1A_2...A_n)=P(A_1)P(A_2)...P(A_n)$

则称事件 $A_1…A_n$ 独立.

伯努利概型

两种结果,试验独立,区别于二项分布的点是,这个分布没有乘上二项式系数(组合数),乘上组合数的伯努利分布叫做二项分布.

随机变量及其概率分布

随机变量: $X$
变量 $X$ 的分布函数: $F(x)=P{X\le x},(-\infty<X<+\infty)$

概率分布函数:分情况讨论的大括号…
性质:单调不减

离散型随机变量

列表法体现分布律.
分布函数:阶梯一样的函数,范围一般取左端点取不到右端点.

连续型随机变量及其概率密度

分布函数 $F(x)$ 满足

$F(x)=P(X\le x)=\int_{-\infty}^xf(t)\mathrm dt,-\infty<x<+\infty$

$f(x)$ 叫做概率密度函数,可以不连续,也可以不唯一.
$F(x)$ 在 $(-\infty,+\infty)$ 是连续的.

性质2: $\int_{-\infty}^{+\infty}f(x)\mathrm dx=1$
性质5: $P\{X=c\}=0$ ,连续随机变量取任意点 $c$ 的概率为 $0$ .
所以,概率为 $0$ 不一定是不可能事件.
同理,概率为 $1$ 也不一定是必然事件.
性质6: $P\{a<X\le b\}=\int_{a}^bf(x)\mathrm dx$ 连续性随机变量取值落在某一区间的概率和区间开闭无关.

几种常用的离散分布

两点分布((0-1)分布)
二项分布( $X\sim B(n,p)$ ,试验进行n次,每次概率为p)(~ in $\LaTeX:\mathrm{sim}$)
$P\{X=k\}=P_n(k)=C_n^kp^k(1-p)^k$
泊松分布

随机变量取值为 $0,1,…$ ,且有
$P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},(k=0,1,2,...)$
记作 $X\sim P(\lambda)$ 或 $X\sim\pi(\lambda)$

泊松定理:设 $np_n=\lambda$ 对任意非负整数 $k$ 有
$\lim_{n\to\infty}C_{n}^kp_n^k(1-p_n)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}$
也就是说,泊松分布是二项分布的极限分布,当n很大p很小时,二项分布就可以近似地看成是参数 $\lambda=np$ 的泊松分布.
在实际计算中,当 $n\ge20,p\le0.05$ 时近似效果较好.

小概率事件 :可以借助小概率事件判定事情的真实性.因为小概率事件发生了可以让人们怀疑其正确性.
几何分布:试验只有俩结果,要进行试验直到事件发生,称为几何分布,测试次数是随机变量.
$P\{X=k\}=(1-p)^{k-1}p,k=1,2,...$

几种常用的连续随机变量和分布

均匀分布 $f(x)=\begin{cases}\frac1{b-a}&a<x<b\\0&other\end{cases}$
指数分布 $f(x)=\begin{cases}\lambda e^{-\lambda x}&x>0\\0&x\le0\end{cases}$
正态分布 $X\sim N(\mu,\sigma^2)$
$f(x)=\frac1{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
其分布函数为
$\begin{aligned} F(x)= \int_{-\infty}^{x}f(t)\mathrm dt&= \int_{-\infty}^{x}\frac1{\sigma\sqrt{2\pi}}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm dt \\&= \frac1{\sigma\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm dt \end{aligned}$ $(-\infty<x<+\infty),F(\mu)=\frac12$
性质: $\mu$ 是位置参数(变大图像右移), $\sigma$ 是形状参数(变大图像变平坦)
标准正态分布( $\mu=0,\sigma=1$ )性质:若 $X\sim N(\mu,\sigma^2)$ ,则 $Y=\frac{X-\mu}{\sigma}\sim N(0,1)$ .
然后是统计规律:
$\begin{aligned}\, [ \mu - \sigma , \mu + \sigma ] &=0.6826\\ [\mu-2\sigma,\mu+2\sigma]&=0.9544\\ [\mu-3\sigma,\mu+3\sigma]&=0.9974 \end{aligned}$

随机变量的函数的分布

离散型

先求随机变量X的分布律
然后对Y求分布律,把概率相同项叠加.

连续型

先求随机变量 $Y=g(X)$ 的分布函数 $\begin{aligned}F_Y(y)&=P\{Y\le y\}=P\{g(X)\le y\}=P\{X\in G\}\\\\&=\int_Gf_X(x)\mathrm dx\end{aligned}$ 然后求导,有 $f_Y(y)=F_Y'(y)$

$aX+b\sim N(a\mu+b,(a\sigma)^2)$

h(x)是反函数,若存在(g(x)严格单调处处可导)则有

$f_X(x)=f_X(h(y))\Big|h'(y)\Big|$

ABC两两独立和ABC相互独立的区别

两两独立: $P(AB)=P(A)P(B)$ ,…(任意两个都满足这样的式子)
相互独立(额外条件): $P(ABC)=P(A)P(B)P( C )$
$P(A\overline B)=P(A)-P(AB)$ 理解:A发生B不发生
相容和独立的区别

不相容(互斥): $P(AB)=0$
独立: $P(AB)=P(A)P(B)$
$P(A|B)=\frac{P(AB)}{P(B)}$
$P(\overline A~\overline B)=P(\overline{A+B})=1-P(A+B)$
$P(A|B)+P(\overline A|B)=1$ 隐藏条件
指数分布
$f(x)=\begin{cases}\lambda e^{-\lambda x}&x>0\\\\0&x\le0\end{cases}$
泊松分布
$P(\lambda):f(x)=\frac{\lambda^xe^{-\lambda}}{x!}$
正态分布标准化:
$Y=\frac{X-\mu}{\sigma}\sim N(0,1)$ $F(X)=\Phi\left(\frac{X-\mu}{\sigma}\right)$
$f(x),F(x)$ ,对 $-X$ 有
$F_{-X}(x)=P(-X<x)=P(X>-x)=1-F(-x)$
对 $F(x)$ 求导得
$f_{-X}(x)=f(-x)$
例题:求概率密度
$f(x)=\begin{cases}\frac12&-1<x<0\\\\\frac14&0\le x<2\\\\0&others\end{cases}$ $Y=X^2$
这么写过程:当 $y<0$ 时, $F_Y(y)=P{Y\le y}=P{X^2\le y}=0$
…
然后概率密度通过求导.
独立的两个随机变量 $XY$ 满足 $f(x,y)=fX(x)f_Y(y)$ .
且 $f{XY}(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}$ .
多个正态分布叠加: $Z=aX+BY+c$ 有
$\mu_Z=a\mu_X+b\mu_Y+c$ $\sigma_Z^2=a\sigma_X^2+b\sigma_Y^2$ $N(\mu,\sigma^2):f(x)=\frac1{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
二维正态分布: $N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$
$\large f(x,y)=\frac1{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}+\frac{(y-\mu_2)^2}{\sigma_2^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}\right]}$
当 $\rho$ 为 $0$ 时,两个变量相互独立,也就能直接拆成 $X\sim N(\mu1,\sigma_2^2)$ 和 $Y\sim N(\mu,\sigma_2^2)$ ,其余时候等高线是椭圆,不过也是可以直接拆,但是在算方差记得加上cov.
二维条件概率:
$f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}$ $f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\mathrm dx$
两个变量独立,然后 $Z=X+Y$ 怎么算?
$F_{X+Y}(z)=P\{X+Y\le Z\}=\int_0^z\mathrm dx\int_0^{z-x}f(x)f(y)\mathrm dy$
高斯积分
$\int_{-\infty}^{+\infty}e^{-ay^2}\mathrm dy=\sqrt{\frac{\pi}{a}}$
最大值,最小值公式:
因为max是两个都要小于z,故直接对z积分即可.
$Z=\max(X,Y):F_Z(z)=F_X(z)F_Y(z)$
最小值是反过来减去最大值:
$Z=\min(X,Y):F_Z(z)=1-[1-F_X(z)][1-F_Y(z)]$
数学期望(假设此积分绝对收敛,数学期望可以不存在)
$E(x)=\int_{-\infty}^{+\infty}xf(x)\mathrm dx$
方差
$D(X)=E(X^2)-[E(X)]^2$ $D(X)=\int_{-\infty}^{+\infty}(x-E(x))f(x)\mathrm dx$
协方差(独立的随机变量协方差为0)
$\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)$
相关系数(相互独立为0, $\rho\in[-1,1]$ )
$\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
期望性质
$E(aX+bY+c)=aE(X)+bE(Y)+c$
若变量独立,有
$E(XY)=E(X)E(Y)$
注意 :上述性质只能推出来XY不相关,也就是说cov=0,方差可以直接相加 $D(X+Y)=D(X)+D(Y)$
期望实战
$E(\max(X,Y))=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\max(x,y)f(x,y)\mathrm dx\mathrm dy$ $E(XY)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xyf(x,y)\mathrm dx\mathrm dy$
方差性质
$D(CX)=C^2D(X)$
若XY相互独立,则
$D(X\pm Y)=D(X)\pm D(Y)$
若X是常数,方差为0,反过来不成立.
协方差性质
$\mathrm{Cov}(X,c)=0$ $\mathrm{Cov}(X,X)=D(X)$ $D(X\pm Y)=D(X)+D(Y)\pm2\mathrm{Cov}(X,Y)$ $\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)$ $\mathrm{Cov}(aX,bY)=ab\mathrm{Cov}(X,Y)$ $\mathrm{Cov}(X+Z,Y)=\mathrm{Cov}(X,Y)+\mathrm{Cov}(Z,Y)$
几种分布的期望和方差等

	E	D	sgn	f	F
(0-1)分布	$p$	$p(1-p)$		$f(x)=\begin{cases}\frac{1}{b-a}&a<x<b\\\\0&others\end{cases}$	$F(x)=\begin{cases}0&x\le a\\\\\frac{x-a}{b-a}&a<x<b\\\\1&x\ge b\end{cases}$
指数分布	$\frac1\lambda$	$\frac1{\lambda^2}$	$X\sim E(\lambda)$	$f(x)=\begin{cases}\lambda e^{-\lambda x}&x>0\\\\0&others\end{cases}$	$F(x)=\begin{cases}1-e^{-\lambda x}&x>0\\\\0&x\le 0\end{cases}$
二项分布	$np$	$np(1-p)$	$X\sim B(n,p)$
几何分布	$\frac1p$	$\frac{1-p}{p^2}$
泊松分布	$\lambda$	$\lambda$	$X\sim\pi(\lambda),X\sim P(\lambda)$
均匀分布	$\frac{a+b}2$	$\frac{(a-b)^2}{12}$	$X\sim U(a,b)$
正态分布	$\mu$	$\sigma^2$	$X\sim N(\mu,\sigma^2)$

标准正态分布标志是 $\varphi=\frac1{\sqrt{2\pi}}e^{-\frac{x^2}2}$ ,其分布函数为 $\Phi$ ,注意 $\Phi$ 是积不出来的.
由 $Z=g(x,y)$ 可以解出 $y=h(x,z)$ ,代入有
$f_Z(z)=\int_{-\infty}^{+\infty}f(x,h(x,z))\left|\frac{\partial h}{\partial z}\right|\mathrm dx$
min与max的分布:
$M=\max(X,Y),N=\min(X,Y)$ $F_M(z)=F_X(z)F_Y(z)$ $F_N(z)=1-(1-F_X(z))(1-F_Y(z))$
确定常数c满足xx是参数为xx的无偏估计量.
得到式子 $CE(xxx)=xx$ 然后求出常数.

切比雪夫不等式

设期望是 $E(X)=\mu$ ,方差 $D(X)=\sigma^2$ ,然后

$P\{|X-\mu|\ge\varepsilon\}\le\frac{\sigma^2}{\varepsilon^2}$

大数定律

中心极限定理

独立同分布

设单个X期望是 $\mu$ ,方差是 $\sigma^2$ ,则

$E(\sum_{i=1}^n X_i)=n\mu,D(\sum_{i=1}^n X_i)=n\sigma^2$ $Y_n=\frac{\sum_{i=1}^nX_k-n\mu}{\sqrt n\sigma}\sim N(0,1)$

平均值

假设 $X\sim N(\mu,\sigma)$ ,则 $\overline X\sim N(\mu,\frac\sigma n)$ .

更广泛的情况

其实就是期望和方差用统计值换了一下…

$Y_n=\frac{\sum_{i=1}^nX_k-\sum_{i=1}^nE( X_i)}{\sqrt{\sum_{i=1}^nD(X_i)}}\sim N(0,1)$

统计量和分布

不含任何未知参数的是统计量,如 $\sum_{i=1}^nX_i$ 是, $\sum_{i=1}^n\frac{X_i-\mu}{\sigma}$ 不是.

样本方差公式

反正由于某种原因,样本方差是 $\frac1{n-1}$ 而不是 $\frac1n$ 这一点一定要牢记!!!
还有的性质是 $E(S^2)=\sigma^2$

三大分布

$\chi^2$ 分布

若干样本 $X_i\sim N(0,1)$ ,记 $X_1^2+…+X_n^2\sim\chi^2(n)$ 服从卡方分布.(必须是标准正态分布,n被称为自由度).
卡方分布有 $E(\chi^2)=n,D(\chi^2)=2n$

推论1:设 $X_i\sim N(\mu,\sigma^2)$ ,有服从卡方分布

$\chi^2=\frac1{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2=\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)\sim\chi^2(n)$

推论2:

$\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$

两个独立的卡方分布加一起: $\chi^2(a+b)$

t分布

设 $X\sim N(0,1),Y\sim\chi^2(n)$ ,且XY独立,则随机变量服从t分布,有下面式子

$t=\frac{X}{\sqrt{Y/n}}$

记作 $t\sim t(n)$

推论: $t=\frac{\overline X-\mu}{S}\sqrt n\sim t(n-1)$

F分布

设 $X\sim \chi^2(m),Y\sim\chi^2(n)$ ,且XY独立,则随机变量服从F分布,有下面式子

$F=\frac{X/m}{Y/n}$

记作 $F\sim F(m,n)$ ,第一自由度m,第二自由度n.

正态总体的抽样分布

总体方差 $\sigma$ ,均值 $\mu$ ,样本方差 $s^2$ ,均值 $\overline X$ .

$\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)$
$\frac{\overline X-\mu}{s/\sqrt n}\sim t(n-1)$
$\frac{s^2(n-1)}{\sigma^2}=\sum_{i=1}^n(\frac{X_i-\overline X}{\sigma})^2\sim\chi^2(n-1)$
$F=\frac{\sigma_1^2/S_1^2}{\sigma_2^2/S_2^2}=F(n_1-1,n_2-1)$

假设总体符合正态分布,随机抽几个样本符合正态分布: $\overline X\sim N(\mu,\frac{\sigma^2}n)$

矩估计

求期望
将期望E=xxx换成 $(E=)\overline X=xxx$
将未知数用 $\overline X$ 表示(求反函数)

最大似然估计

先把函数抄一遍
构造似然函数 $L(x_1,x_2,…,x_n,\theta)=f(x_1)f(x_2)…f(x_n)$
(直接乘起来算答案)
对似然函数取对数,得到 $\ln L(x_1,x_2,…,x_n,\theta)$
上述对数函数对 $\theta$ 求偏导 $\frac{\partial \ln L}{\partial \theta}$
令上述偏导为0,得到 $\hat\theta$ 的值.
(不用真的带入计算)证明 $\hat\theta$ 是一个极大值,用到高中证明单调性的方法,函数在xxx怎么怎么样.

无偏性有效性一致性

无偏估计: $E(\hat\theta)=\theta$ 人话:系数加一起等于1,如 $X=0.5X_1+0.5X_2$ 是, $0.6X_2$ 就不是了.
有效性:比方差看哪个小哪个更有效,如 $x2$ 不如 $\frac12x1+\frac16x2+\frac13x3$ .