Skip to content

概率论与数理统计笔记

一、概率论基本概念

1. 基本概念

术语定义
随机现象不能预先确定结果的事件,即随机试验
基本事件随机试验中的每个单一结果
随机事件在随机试验中可能出现的各种结果,由若干基本事件组成
样本空间随机试验中所有基本事件的集合,记为S,其中的元素称为样本点
概率随机事件发生可能性的数字表征,介于0-1之间

重要关系:样本空间的子集是随机事件


2. 概率的三个基本性质

  1. 非负性:对任意事件A,P(A)0
  2. 规范性P(S)=1,样本空间S的概率是1
  3. 可列可加性:设A1,A2,...是两两互不相容事件,则P(A1A2...)=P(A1)+P(A2)+...

3. 古典概型

条件:有限性,等可能性

排列数Anr=n!(nr)!

组合数Cnr=n!(nr)!r!

多组组合模式:n个不同物体分成k堆,有 n!r1!r2!...rk! 种分法

概率的统计定义:事件发生的频率在试验次数足够大时趋近的值


4. 条件概率

定义:A,B是随机试验中两个事件,P(B)>0,称

P(A|B)=P(AB)P(B)

为事件B发生条件下A发生的概率

乘法定理P(AB)=P(A|B)P(B)=P(B|A)P(A)

推论:若A,B独立,则 P(A|B)=P(A)P(AB)=P(A)P(B)


5. 全概率公式

设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为S的一个划分P(Bi)>0i=1,2,...,n,则

P(A)=i=1nP(A|Bi)P(Bi)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)

理解:将复杂事件A分解为多个互不相容的简单事件求和


6. 贝叶斯公式

设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为S的一个划分,P(A)>0P(Bi)>0i=1,2,...,n,则

P(Bi|A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj)

理解

  • P(Bi):先验概率(原因发生的概率)
  • P(Bi|A):后验概率(观测到结果后,原因的概率)
  • 贝叶斯公式用于"由果溯因"

7. 典型例题

:有两箱同种类的零件,第一箱装50只,其中10只一等品。第二箱装30只,其中18只一等品。今从两箱中任挑出一箱,然后从该箱中取零件两次,每次任取一只,作不放回抽样。求: (1) 第一次取到的零件是一等品的概率 (2) 第一次取到的零件是一等品的条件下,第二次取到的也是一等品的概率

:记Ai="在第i次中取到一等品",Bi="挑到第i箱",i=1,2

(1) 由全概率公式:

P(A1)=P(A1|B1)P(B1)+P(A1|B2)P(B2)=1050×12+1830×12=0.4

(2) P(A1A2)=P(A1A2|B1)P(B1)+P(A1A2|B2)P(B2)=12×1050×949+12×1830×1729=0.19423

P(A2|A1)=P(A1A2)P(A1)=0.194230.4=0.4856

二、随机变量及其分布

1. 分布函数

定义:设X是一个随机变量,对任意实数x,称 F(x)=P(Xx) 为X的分布函数,记为 XF(x)

分布函数的三条基本性质

  1. 单调非减性:对任意的x1<x2,有F(x1)F(x2)
  2. 有界性:对任意的x,有0F(x)1,且
    • F()=limxF(x)=0
    • F(+)=limx+F(x)=1
  3. 右连续性:对任意的x0,有 limxx0+F(x)=F(x0)

重要:具有上述三条性质的函数F(x)一定是某个随机变量的分布函数

关于F(x)的常识结论:设F(x), G(x)为分布函数,a,b为实数,则

  1. aF(x)+bG(x) 为分布函数 a+b=1,a0,b0
  2. F(ax+b) 为分布函数 a>0,b为任意常数
  3. F(x)G(x) 必为分布函数

2. 离散型随机变量的分布律

设离散型随机变量X所有可能取值为xkk=1,2,...),X取各个可能值的概率为

P{X=xk}=pk,k=1,2,...

分布律满足的条件

  1. 非负性:pk0
  2. 正则性:k=1pk=1

3. 连续型随机变量的概率密度

如果对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有

F(x)=xf(t)dt

则称f(x)为X的概率密度函数

概率密度的性质

  1. f(x)0
  2. +f(x)dx=1
  3. 对于任意实数x1,x2x1x2),P{x1<Xx2}=F(x2)F(x1)=x1x2f(x)dx
  4. f(x)在点x处连续,则有F(x)=f(x)

小常识

  1. 不改变f(x)在有限点的值,不影响分布
  2. f(x)不必连续,只需可积
  3. 连续型X的分布函数F(x)是连续函数,且对任意aP{X=a}=0
  4. f(x)在点x处连续,则F(x)=f(x)

区间范围小结:若X可能取值范围为aXb,则

  1. x<a时,F(x)=0
  2. xb时,F(x)=1

4. 随机变量函数的分布

定理:设随机变量X具有概率密度fX(x)<x<+,又设函数g(x)处处可导且恒有g(x)>0(或g(x)<0),则Y=g(X)是连续型随机变量,其概率密度为

fY(y)={fX[h(y)]|h(y)|,α<y<β0,其他

其中α=min{g(),g(+)}β=max{g(),g(+)}h(y)g(x)的反函数


5. 典型例题

:设随机变量X的概率密度为f(x)={ex,x>00,其他,求Y=X2的概率密度

:当y0时,fY(y)=0

y>0时,FY(y)=P{Yy}=P{X2y}=P{0<Xy}=0yexdx

fY(y)=FY(y)=ey12y

所以 fY(y)={12yey,y>00,y0

三、离散型随机变量分布

1. 0-1分布(伯努利分布)b(1, p)

定义:随机变量X只取0和1两个值

分布律

P(X=k)=pk(1p)1k,k=0,1
X01
P1-pp

期望与方差

  • E(X)=p
  • D(X)=p(1p)

适用场景:单次试验的成功/失败


2. 二项分布 B(n, p)

定义:n次独立重复试验中,事件A发生的次数X

概率公式

P(X=k)=Cnkpk(1p)nk,k=0,1,2,...,n

期望与方差

  • E(X)=np
  • D(X)=np(1p)

正态近似(德莫弗-拉普拉斯):当n充分大时,

XB(n,p)N(np,np(1p))

适用场景关键词

  • "n次独立试验"
  • "成功/失败"、"合格/不合格"、"命中/未命中"
  • "每次成功概率为p"
  • "求恰好k次成功的概率"

例题特征

某射击运动员命中率为0.8,独立射击10次,求恰好命中8次的概率。 → X ~ B(10, 0.8)


3. 泊松分布 P(λ) 或 π(λ)

定义:单位时间/空间内随机事件发生的次数

概率公式

P(X=k)=λkeλk!,k=0,1,2,...

期望与方差

  • E(X)=λ
  • D(X)=λ

特点:期望=方差=λ

适用场景关键词

  • "单位时间内"、"每天"、"每小时"
  • "平均发生λ次"
  • "稀有事件"(n大p小,np适中)
  • 电话呼叫次数、到达人数、故障次数、放射性衰变

泊松定理(二项分布的近似): 当 n20,p0.05 时,B(n,p)P(np)

例题特征

某服务台平均每小时接到5个电话,求1小时内接到3个电话的概率。 → X ~ P(5)


4. 几何分布 G(p)

定义:独立重复试验中,首次成功时的试验次数X

概率公式

P(X=k)=(1p)k1p,k=1,2,3,...

期望与方差

  • E(X)=1p
  • D(X)=1pp2

无记忆性P(X>m+n|X>m)=P(X>n)

适用场景关键词

  • "首次成功"、"第一次出现"
  • "直到...为止"
  • "需要多少次才能成功"

例题特征

抛硬币直到第一次出现正面,求所需次数的期望。 → X ~ G(0.5), E(X) = 2


5. 超几何分布 H(n, M, N)

定义:N件产品中有M件次品,从中不放回抽取n件,次品数X

概率公式

P(X=k)=CMkCNMnkCNn

期望与方差

  • E(X)=nMN
  • D(X)=nM(NM)(Nn)N2(N1)

适用场景关键词

  • "不放回抽样"
  • "N件中有M件..."
  • 抽奖问题、质检问题(小批量)

与二项分布的区别

  • 超几何:不放回抽样
  • 二项分布:放回抽样(或总体很大时的不放回)

例题特征

10件产品中有3件次品,不放回抽取4件,求恰好有2件次品的概率。 → X ~ H(4, 3, 10)


6. 负二项分布(帕斯卡分布)NB(r, p)

定义:独立重复试验中,第r次成功时的试验次数X

概率公式

P(X=k)=Ck1r1pr(1p)kr,k=r,r+1,...

期望与方差

  • E(X)=rp
  • D(X)=r(1p)p2

适用场景关键词

  • "第r次成功"
  • 几何分布是r=1的特例

四、连续型随机变量分布

1. 均匀分布 U(a, b)

概率密度函数

f(x)={1ba,axb0,

分布函数

F(x)={0,x<axaba,axb1,x>b

期望与方差

  • E(X)=a+b2
  • D(X)=(ba)212

适用场景关键词

  • "等可能"、"随机取一点"
  • "在[a,b]上均匀分布"
  • 舍入误差、随机数生成

例题特征

公交车每10分钟一班,乘客随机到达,求等待时间不超过3分钟的概率。 → X ~ U(0, 10), P(X ≤ 3) = 0.3


2. 指数分布 Exp(λ)

概率密度函数

f(x)={λeλx,x00,x<0

分布函数

F(x)={1eλx,x00,x<0

期望与方差

  • E(X)=1λ
  • D(X)=1λ2

无记忆性P(X>s+t|X>s)=P(X>t)

重要结论P(X>a)=eλaa>0

适用场景关键词

  • "寿命"、"等待时间"、"服务时间"
  • "无记忆性"
  • 电子元件寿命、顾客到达间隔、放射性衰变间隔
  • 与泊松过程相关(泊松过程的时间间隔服从指数分布)

重要关系:若单位时间内事件发生次数 ~ P(λ),则相邻事件的时间间隔 ~ Exp(λ)

例题特征

某元件寿命服从参数λ=0.01的指数分布,求使用超过100小时的概率。 → P(X > 100) = e^(-0.01×100) = e^(-1)


3. 正态分布 N(μ, σ²)

概率密度函数

f(x)=12πσe(xμ)22σ2,<x<+

期望与方差

  • E(X)=μ
  • D(X)=σ2

标准化:若 XN(μ,σ2),则 Z=XμσN(0,1)

标准正态分布ZN(0,1)

  • 密度函数:φ(x)=12πex2/2
  • 分布函数:Φ(x)=P(Zx)

区间概率:若 XN(μ,σ2),则

P(a<Xb)=Φ(bμσ)Φ(aμσ)

标准正态性质

  • Φ(x)=1Φ(x)
  • Φ(0)=12
  • P(|Z|a)=2Φ(a)1a>0

密度识别:若 f(x)=Aeax2+bx+ca<0<x<+,则X为正态分布

重要性质

  • 对称性:Φ(x)=1Φ(x)
  • P(|Xμ|<σ)68.27%
  • P(|Xμ|<2σ)95.45%
  • P(|Xμ|<3σ)99.73% (3σ原则)

适用场景关键词

  • 测量误差、身高体重、考试成绩
  • "正态分布"、"高斯分布"
  • 大量独立随机因素叠加的结果

例题特征

X ~ N(100, 16),求P(92 < X < 108)。 → 标准化:P(-2 < Z < 2) = 2Φ(2) - 1


4. 伽马分布 Γ(α, λ)

概率密度函数

f(x)={λαΓ(α)xα1eλx,x>00,x0

期望与方差

  • E(X)=αλ
  • D(X)=αλ2

特殊情况

  • α=1 时为指数分布 Exp(λ)
  • α=n/2, λ=1/2 时为 χ²(n) 分布

五、多维随机变量及其分布

1. 二维分布函数

定义F(x,y)=P{Xx,Yy}

四条基本性质

  1. 单调不减性:F(x,y)是变量x和y的不减函数

    • 对于任意固定的y,当x2>x1时,F(x2,y)F(x1,y)
    • 对于任意固定的x,当y2>y1时,F(x,y2)F(x,y1)
  2. 有界性0F(x,y)1,且

    • F(,y)=F(x,)=0
    • F(,)=0F(+,+)=1
  3. 右连续性F(x+0,y)=F(x,y)F(x,y+0)=F(x,y)

  4. 非负性:对于任意(x1,y1),(x2,y2)x1<x2, y1<y2,有

    F(x2,y2)F(x2,y1)+F(x1,y1)F(x1,y2)0

2. 联合分布

离散型:联合分布律

pij=P{X=xi,Y=yj},i,j=1,2,...

性质

  • 非负性:pij0
  • 规范性:i=1j=1pij=1

连续型:联合概率密度

f(x,y)(x,y)R2

性质

  • 非负性:f(x,y)0
  • 规范性:f(x,y)dxdy=F(,)=1
  • f(x,y)在点(x,y)连续,则有2F(x,y)xy=f(x,y)

区域概率:点(X,Y)落在平面区域G内的概率

P{(X,Y)G}=Gf(x,y)dxdy

3. 边缘分布

边缘分布函数

  • FX(x)=F(x,)
  • FY(y)=F(,y)

离散型边缘分布律

pi=j=1pij=P{X=xi},i=1,2,...pj=i=1pij=P{Y=yj},j=1,2,...

连续型边缘概率密度

fX(x)=f(x,y)dyfY(y)=f(x,y)dx

3.1 二维均匀分布

定义:若(X,Y)在区域D上均匀分布,则

f(x,y)={1SD,(x,y)D0,其他

其中SD为区域D的面积。

结论1P{(X,Y)G}=SGSD(面积之比)

结论2:若D={(x,y)axb,cyd},则 XU(a,b)YU(c,d),且X与Y相互独立。

结论3:X、Y的边缘分布不一定是均匀分布。


4. 条件分布与条件密度

离散型

Y=yj条件下X的条件分布律:

P{X=xi|Y=yj}=P{X=xi,Y=yj}P{Y=yj}=pijpj

X=xi条件下Y的条件分布律:

P{Y=yj|X=xi}=P{X=xi,Y=yj}P{X=xi}=pijpi

连续型

Y=y条件下X的条件概率密度:

fX|Y(x|y)=f(x,y)fY(y)

Y=y条件下X的条件分布函数:

FX|Y(x|y)=P{Xx|Y=y}=xf(x,y)fY(y)dx

5. 相互独立的随机变量

定义:设F(x,y)FX(x),FY(y)分别是二维随机变量(X,Y)的分布函数及边缘分布函数,若对于所有x,y

P{Xx,Yy}=P{Xx}P{Yy}

F(x,y)=FX(x)FY(y)

则称随机变量X和Y是相互独立的。

独立性判定

  • 连续型:X和Y相互独立 f(x,y)=fX(x)fY(y) 在平面上几乎处处成立
  • 离散型:X和Y相互独立 对于所有可能取值(xi,yj)P{X=xi,Y=yj}=P{X=xi}P{Y=yj}

6. 二维正态分布(重点性质)

(X,Y)N(μ1,μ2;σ12,σ22;ρ),则

  1. XN(μ1,σ12)YN(μ2,σ22)
  2. XY相互独立 ρ=0
  3. 任意非零线性组合aX+bY仍服从正态分布

7. 两个随机变量函数的分布

(1) Z = X + Y 的分布(卷积公式)

(X,Y)是二维连续型随机变量,具有概率密度f(x,y),则Z=X+Y的概率密度为

fX+Y(z)=+f(zy,y)dy=+f(x,zx)dx

若X和Y相互独立,边缘概率密度为fX(x),fY(y),则有卷积公式

fX+Y(z)=fXfY=+fX(zy)fY(y)dy=+fX(x)fY(zx)dx

(2) Z = Y/X 的分布、Z = XY 的分布

(X,Y)是二维连续型随机变量,概率密度为f(x,y)

fY/X(z)=|x|f(x,xz)dxfXY(z)=1|x|f(x,zx)dx

若X和Y相互独立,边缘概率密度为fX(x),fY(y),则有:

fY/X(z)=|x|fX(x)fY(xz)dxfXY(z)=1|x|fX(x)fY(zx)dx

(3) M = max{X,Y} 及 N = min{X,Y} 的分布

设X,Y是两个相互独立的随机变量,分布函数分别为FX(x),FY(y)

最大值的分布

Fmax(z)=P{Mz}=P{Xz,Yz}=FX(z)FY(z)

最小值的分布

Fmin(z)=P{Nz}=1P{N>z}=1P{X>z,Y>z}=1[1FX(z)][1FY(z)]

推广:若X1,X2,...,Xn独立同分布,分布函数为F(x),则

  • Fmax(z)=[F(z)]n
  • Fmin(z)=1[1F(z)]n

8. 多维随机变量典型例题

:设随机变量(X,Y)的概率密度为

f(x,y)={12(x+y)e(x+y),x>0,y>00,其他

(1) 问:X和Y是否相互独立?(2) 求Z = X + Y的概率密度。

(1) (X,Y)关于X的边缘概率密度为

fX(x)=+f(x,y)dy={0+12(x+y)e(x+y)dy,x>00,x0={12(x+1)ex,x>00,x0

同理,fY(y)={12(y+1)ey,y>00,y0

fX(x)fY(y)={14(x+1)(y+1)e(x+y),x>0,y>00,其他

显然 fX(x)fY(y)f(x,y),故X和Y不独立

(2) Z = X + Y的概率密度为

fZ(z)=+f(x,zx)dx

只有当x>0zx>0,即0<x<z时,被积函数不为零。

z0时,fZ(z)=0

z>0时,

fZ(z)=0z12(x+zx)e(x+zx)dx=0z12zezdx=12z2ez

所以 fZ(z)={12z2ez,z>00,z0

六、随机变量的数字特征

1. 数学期望

定义

离散型:设P{X=xk}=pk,若k=1xkpk绝对收敛,则

E(X)=k=1xkpk

连续型:若xf(x)dx绝对收敛,则

E(X)=xf(x)dx

随机变量函数的期望

Y=g(X),g是连续函数

  • 离散型:E(Y)=E[g(X)]=k=1g(xk)pk
  • 连续型:E(Y)=E[g(X)]=g(x)f(x)dx

数学期望性质

  1. 设C是常数,则E(C)=C
  2. 设X是随机变量,C是常数,则E(X+C)=E(X)+C
  3. 设X是随机变量,C是常数,则E(CX)=CE(X)
  4. 设X,Y是两个随机变量,则E(X±Y)=E(X)±E(Y)(可推广到任意有限个)
  5. 设X,Y是相互独立的随机变量,则E(XY)=E(X)E(Y)(可推广到任意有限个)

2. 方差与标准差

定义D(X)=E{[XE(X)]2}

计算公式D(X)=E(X2)[E(X)]2

标准差σ(X)=D(X)

方差的计算

离散型:D(X)=k=1[xkE(X)]2pk

连续型:D(X)=[xE(X)]2f(x)dx

方差性质

  1. 设C是常数,则D(C)=0
  2. 设X是随机变量,C是常数,则D(CX)=C2D(X)D(X+C)=D(X)
  3. 设X,Y是两个随机变量,则D(X±Y)=D(X)+D(Y)±2Cov(X,Y)特别地,若X,Y相互独立,则D(X±Y)=D(X)+D(Y)
  4. D(X)=0的充要条件是X以概率1取常数E(X),即P{X=E(X)}=1

3. 协方差

定义Cov(X,Y)=E{[XE(X)][YE(Y)]}

计算公式Cov(X,Y)=E(XY)E(X)E(Y)

性质

  1. Cov(X,Y)=Cov(Y,X)(对称性)
  2. Cov(X,C)=0(C为常数)
  3. Cov(X,X)=D(X)
  4. Cov(aX,bY)=abCov(X,Y),a,b是常数
  5. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)(双线性)
  6. 若X,Y相互独立,则Cov(X,Y)=0

与方差的关系

D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

4. 相关系数

定义

ρXY=Cov(X,Y)D(X)D(Y)

性质

  1. |ρXY|1
  2. |ρXY|=1的充要条件是,存在常数a,b使P{Y=a+bX}=1(线性关系)
  3. 若X,Y相互独立,则ρXY=0(不相关)
  4. 不相关 ≠ 独立ρXY=0只说明X,Y没有线性关系,可能有非线性关系

不相关的等价条件(以下四条等价):

  • ρXY=0
  • Cov(X,Y)=0
  • E(XY)=E(X)E(Y)
  • D(X+Y)=D(X)+D(Y)

5. 矩

定义:设X和Y是随机变量

矩的类型定义说明
k阶原点矩E(Xk)k=1,2,...一阶原点矩就是期望E(X)
k阶中心矩E{[XE(X)]k}k=2,3,...二阶中心矩就是方差D(X)
k+l阶混合矩E(XkYl)k,l=1,2,...
k+l阶混合中心矩E{[XE(X)]k[YE(Y)]l}二阶混合中心矩就是协方差Cov(X,Y)

6. 切比雪夫不等式

E(X)=μD(X)=σ2存在,则对任意ε>0

P{|Xμ|ε}σ2ε2

等价地,

P{|Xμ|<ε}1σ2ε2

7. 数字特征典型例题

:设随机变量XN(μ,σ2)YN(μ,σ2),且设X,Y相互独立,求Z1=αX+βYZ2=αXβY的相关系数(其中α,β是不为零的常数)。

:由于X,YN(μ,σ2),可得

E(X)=E(Y)=μ,D(X)=D(Y)=σ2

Z1Z2的相关系数:

ρZ1Z2=E(Z1Z2)E(Z1)E(Z2)D(Z1)D(Z2)

E(Z1)=E(αX+βY)=αE(X)+βE(Y)=(α+β)μ

E(Z2)=E(αXβY)=αE(X)βE(Y)=(αβ)μ

E(Z1Z2)=E[(αX+βY)(αXβY)]=E(α2X2β2Y2)=α2E(X2)β2E(Y2)=(α2β2)(σ2+μ2)

D(Z1)=D(αX+βY)=α2D(X)+β2D(Y)=(α2+β2)σ2

D(Z2)=D(αXβY)=α2D(X)+β2D(Y)=(α2+β2)σ2

于是

ρZ1Z2=(α2β2)(σ2+μ2)(α+β)μ(αβ)μ(α2+β2)σ2(α2+β2)σ2=(α2β2)σ2(α2+β2)σ2=α2β2α2+β2

七、抽样分布

X1,X2,...,Xn 是来自总体的简单随机样本

样本均值:X¯=1ni=1nXi

样本方差:S2=1n1i=1n(XiX¯)2

样本标准差:S=S2

常用结论(设总体E(X)=μD(X)=σ2):

  1. E(Xi)=μD(Xi)=σ2
  2. E(X¯)=μD(X¯)=σ2n
  3. E(i=1nXi)=nμD(i=1nXi)=nσ2
  4. E(S2)=σ2

0. 中心极限定理

X1,X2,...,Xn独立同分布,且E(Xi)=μD(Xi)=σ2,则当n充分大时,

i=1nXiN(nμ,nσ2),X¯N(μ,σ2n)

二项分布特例:若XB(n,p)且n充分大,则XN(np,np(1p))


1. χ²分布 (卡方分布)

定义:设 X1,X2,...,Xn 独立同分布于 N(0,1),则

χ2=i=1nXi2χ2(n)

期望与方差

  • E(χ2)=n
  • D(χ2)=2n

可加性χ12(n1)+χ22(n2)χ2(n1+n2)(独立时)

重要定理:设总体 XN(μ,σ2)

(n1)S2σ2=i=1n(XiX¯)2σ2χ2(n1)

2. t分布(学生t分布)

定义:设 XN(0,1)Yχ2(n),X与Y独立,则

t=XY/nt(n)

性质

  • 关于0对称
  • n→∞ 时趋近于 N(0,1)
  • 比正态分布"矮胖"(尾部更厚)

重要定理:设总体 XN(μ,σ2)

X¯μS/nt(n1)

应用:总体方差未知时,对均值的推断


3. F分布

定义:设 Xχ2(n1)Yχ2(n2),X与Y独立,则

F=X/n1Y/n2F(n1,n2)

性质

  • 1F(n1,n2)F(n2,n1)
  • F1α(n1,n2)=1Fα(n2,n1)

重要定理:设两个正态总体 XN(μ1,σ12)YN(μ2,σ22)

S12/σ12S22/σ22F(n11,n21)

应用:两总体方差比的推断


4. 正态总体的抽样分布总结

XN(μ,σ2)X1,...,Xn 为样本

条件统计量分布
σ²已知X¯μσ/nN(0,1)
σ²未知X¯μS/nt(n-1)
μ已知(Xiμ)2σ2χ²(n)
μ未知(n1)S2σ2χ²(n-1)

5. 重点:单正态抽样分布(整体背熟)

X1,X2,,Xn 来自正态总体 XN(μ,σ2),则

  1. X¯N(μ,σ2n)
  2. X¯S2 相互独立
  3. (n1)S2σ2=i=1n(XiX¯)2σ2χ2(n1)
  4. i=1n(Xiμ)2σ2χ2(n)
  5. X¯μS/nt(n1)

八、题型判断指南:如何选择分布

第一步:判断离散还是连续

类型特征常见分布
离散型取值可列举(0,1,2,...)二项、泊松、几何、超几何
连续型取值为区间均匀、指数、正态

第二步:根据关键词选择分布

离散型分布选择

问题类型判断流程:

1. 是否涉及"不放回抽样"且总体较小?
   → 是:超几何分布

2. 是否是"n次独立试验,成功k次"?
   → 是:二项分布 B(n,p)

3. 是否是"单位时间/空间内发生次数"或"稀有事件"?
   → 是:泊松分布 P(λ)

4. 是否是"首次成功所需次数"?
   → 是:几何分布 G(p)

5. 是否是"第r次成功所需次数"?
   → 是:负二项分布 NB(r,p)

连续型分布选择

问题类型判断流程:

1. 是否"等可能"在某区间取值?
   → 是:均匀分布 U(a,b)

2. 是否涉及"寿命"、"等待时间"、"无记忆性"?
   → 是:指数分布 Exp(λ)

3. 是否涉及测量误差、大量因素叠加?
   → 是:正态分布 N(μ,σ²)

常见题型与对应分布

题型分布示例
投掷硬币/骰子n次二项分布掷10次骰子,6点出现3次
射击命中次数二项分布射击10次,命中8次
产品抽检(放回/大批量)二项分布100件抽10件,次品数
产品抽检(不放回/小批量)超几何分布10件抽4件,次品数
电话/顾客到达泊松分布每小时平均5个电话
事故/故障次数泊松分布每天平均2起事故
直到首次成功几何分布首次抽到红球
随机选点/等车均匀分布公交车每10分钟一班
元件寿命指数分布灯泡寿命
服务时间指数分布银行服务时间
身高体重成绩正态分布学生成绩分布
测量误差正态分布仪器测量误差

九、假设检验

1. 基本概念

原假设 H0:需要检验的假设(通常是"无差异"、"等于")

备择假设 H1:与原假设对立的假设

两类错误:

错误类型定义概率
第一类错误(弃真)H₀为真却拒绝H₀α(显著性水平)
第二类错误(取伪)H₀为假却接受H₀β

显著性水平 α:犯第一类错误的概率上限,常取 0.05 或 0.01

检验的基本思想:小概率事件原理——小概率事件在一次试验中几乎不会发生

显著性检验:给定样本量n,控制第一类错误的概率不大于α(称为显著性水平)。


2. 假设检验的步骤(五步法)

Step 1: 建立假设
        根据问题建立 H₀ 和 H₁

Step 2: 选择检验统计量
        根据问题类型和已知条件选择

Step 3: 确定拒绝域
        根据 α 和 H₁ 的形式确定临界值

Step 4: 计算统计量的值
        用样本数据计算检验统计量

Step 5: 做出判断
        统计量落入拒绝域 → 拒绝 H₀
        统计量不在拒绝域 → 不拒绝 H₀

3. 单个正态总体的检验

(1) 均值μ的检验(σ²已知)—— Z检验

假设形式

  • 双侧:H0:μ=μ0 vs H1:μμ0
  • 左侧:H0:μμ0 vs H1:μ<μ0
  • 右侧:H0:μμ0 vs H1:μ>μ0

检验统计量

Z=X¯μ0σ/nN(0,1)

拒绝域

备择假设拒绝域
μμ0|Z|>zα/2
μ<μ0Z<zα
μ>μ0Z>zα

(2) 均值μ的检验(σ²未知)—— t检验

检验统计量

t=X¯μ0S/nt(n1)

拒绝域

备择假设拒绝域
μμ0|t|>tα/2(n1)
μ<μ0t<tα(n1)
μ>μ0t>tα(n1)

均值检验分类速记(总体XN(μ,σ2)):

  1. 双侧:H0:μ=μ0,拒绝域 |U|>uα/2σ2已知),或 |T|>tα/2(n1)σ2未知)
  2. 右侧:H0:μμ0,拒绝域 U>uαT>tα(n1)
  3. 左侧:H0:μμ0,拒绝域 U<uαT<tα(n1)

(3) 方差σ²的检验(μ未知)—— χ²检验

假设H0:σ2=σ02 vs H1:σ2σ02

检验统计量

χ2=(n1)S2σ02χ2(n1)

拒绝域

备择假设拒绝域
σ2σ02χ2<χ1α/22(n1)χ2>χα/22(n1)
σ2<σ02χ2<χ1α2(n1)
σ2>σ02χ2>χα2(n1)

(4) 方差σ²的检验(μ已知/未知)—— χ²检验汇总

假设

  1. H0:σ2=σ02H1:σ2σ02
  2. H0:σ2σ02H1:σ2>σ02
  3. H0:σ2σ02H1:σ2<σ02

检验统计量

  • μ已知:χ2=i=1n(Xiμ)2σ02χ2(n)
  • μ未知:χ2=(n1)S2σ02χ2(n1)

拒绝域

  • 双侧:χ2>χα/22(ν)χ2<χ1α/22(ν)
  • 右侧:χ2>χα2(ν)
  • 左侧:χ2<χ1α2(ν) 其中ν=n(μ已知)或ν=n1(μ未知)。

4. 两个正态总体的检验

(1) 均值差的检验(σ₁², σ₂²已知)—— Z检验

检验统计量

Z=X¯Y¯(μ1μ2)0σ12n1+σ22n2N(0,1)

(2) 均值差的检验(σ₁² = σ₂² = σ²未知)—— t检验

检验统计量

t=X¯Y¯(μ1μ2)0Sw1n1+1n2t(n1+n22)

其中 Sw2=(n11)S12+(n21)S22n1+n22(合并方差)


(3) 方差比的检验 —— F检验

假设H0:σ12=σ22 vs H1:σ12σ22

检验统计量

F=S12S22F(n11,n21)

拒绝域(双侧):

F<F1α/2(n11,n21)F>Fα/2(n11,n21)

5. 检验方法选择指南

检验方法选择流程图:

检验什么?

├─ 均值μ
│   ├─ σ²已知 → Z检验
│   └─ σ²未知 → t检验

├─ 方差σ²
│   └─ μ未知 → χ²检验

└─ 两总体比较
    ├─ 比较μ₁和μ₂
    │   ├─ σ₁², σ₂²已知 → Z检验
    │   └─ σ₁² = σ₂²未知 → t检验

    └─ 比较σ₁²和σ₂² → F检验

6. 检验中的常见错误与注意事项

  1. 假设的写法:

    • H₀ 通常包含等号
    • 题目问"是否显著大于"→ 右侧检验,H₁: μ > μ₀
  2. 单侧 vs 双侧:

    • "是否等于"、"有无差异" → 双侧
    • "是否大于"、"是否提高" → 右侧
    • "是否小于"、"是否降低" → 左侧
  3. 结论的表述:

    • 拒绝H₀:有充分理由认为...
    • 不拒绝H₀:没有充分理由认为...(不是"接受H₀")
  4. α的选择:

    • 没有特别说明通常取 α = 0.05
    • 若弃真错误后果严重,取较小的α(如0.01)

十、公式速查表

离散型分布速查表

分布记号P(X=k)E(X)D(X)
0-1分布b(1,p)pk(1p)1kpp(1-p)
二项分布B(n,p)Cnkpk(1p)nknpnp(1-p)
泊松分布P(λ)λkeλk!λλ
几何分布G(p)(1p)k1p1p1pp2
超几何分布H(n,M,N)CMkCNMnkCNnnMN复杂

连续型分布速查表

分布记号f(x)E(X)D(X)
均匀分布U(a,b)1baa+b2(ba)212
指数分布Exp(λ)λeλx1λ1λ2
正态分布N(μ,σ²)12πσe(xμ)22σ2μσ²

抽样分布速查表

分布定义ED
χ²(n)i=1nZi2n2n
t(n)Zχ2(n)/n0 (n>1)nn2 (n>2)
F(m,n)χ2(m)/mχ2(n)/nnn2 (n>2)复杂

检验统计量速查表

检验内容条件统计量分布
均值μσ²已知Z=X¯μ0σ/nN(0,1)
均值μσ²未知t=X¯μ0S/nt(n-1)
方差σ²μ未知χ2=(n1)S2σ02χ²(n-1)
两均值差σ₁²=σ₂²未知t=X¯Y¯Sw1/n1+1/n2t(n₁+n₂-2)
两方差比-F=S12S22F(n₁-1,n₂-1)

置信区间速查表

参数条件置信区间
均值μσ²已知X¯±zα/2σn
均值μσ²未知X¯±tα/2(n1)Sn
方差σ²μ未知((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))
两均值差σ₁²,σ₂²已知X¯Y¯±zα/2σ12n1+σ22n2
两均值差σ₁²=σ₂²未知X¯Y¯±tα/2(n1+n22)Sw1n1+1n2
方差比-(S12S221Fα/2(n11,n21),S12S221F1α/2(n11,n21))
比例p大样本p^±zα/2p^(1p^)n

常用分位点表

标准正态分布分位点 zα

α0.100.050.0250.010.005
zα1.2821.6451.9602.3262.576

t分布分位点 tα(n)(部分)

nt₀.₀₅t₀.₀₂₅t₀.₀₁
52.0152.5713.365
101.8122.2282.764
201.7252.0862.528
301.6972.0422.457
1.6451.9602.326

复习建议

  1. 熟记各分布的期望和方差公式
  2. 掌握题型关键词,快速判断使用哪个分布
  3. 检验部分重点掌握五步法和统计量选择
  4. 多做练习,熟悉计算流程

十一、置信区间

1. 基本概念

置信区间:是在给定置信水平下,包含未知总体参数的一个区间估计。

置信水平(置信度):是我们对所构造的置信区间包含总体参数真值的可信程度,常用1-α表示,如95%或99%。

置信上限与置信下限:置信区间的两个端点,分别称为置信下限和置信上限。

2. 构造置信区间的基本原理

置信区间的基本思想来源于统计量的抽样分布。对于参数θ的估计,我们找到一个包含θ的随机区间[θ^L,θ^U],使得:

P(θ^Lθθ^U)=1α

其中1-α为置信水平,α为显著性水平。

3. 单个正态总体参数的置信区间

(1) 总体均值μ的置信区间(方差σ²已知)

使用标准正态分布:

X¯±zα/2σn

其中:

  • X¯:样本均值
  • zα/2:标准正态分布的上α/2分位点
  • σ:总体标准差
  • n:样本容量

(2) 总体均值μ的置信区间(方差σ²未知)

使用t分布:

X¯±tα/2(n1)Sn

其中:

  • tα/2(n1):自由度为n-1的t分布上α/2分位点
  • S:样本标准差

(3) 总体方差σ²的置信区间

使用χ²分布:

μ未知

((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))

μ已知

(i=1n(Xiμ)2χα/22(n),i=1n(Xiμ)2χ1α/22(n))

其中:

  • χα/22(n1)χ1α/22(n1)分别是自由度为n-1的χ²分布上α/2和1-α/2分位点

4. 两个正态总体参数的置信区间

(1) 两个总体均值差μ₁-μ₂的置信区间(方差已知)

X¯Y¯±zα/2σ12n1+σ22n2

(2) 两个总体均值差μ₁-μ₂的置信区间(方差未知但相等)

X¯Y¯±tα/2(n1+n22)Sw1n1+1n2

其中合并标准差 Sw=(n11)S12+(n21)S22n1+n22

(3) 两个总体方差比σ₁²/σ₂²的置信区间

使用F分布:

(S12S221Fα/2(n11,n21),S12S221F1α/2(n11,n21))

5. 总体比例p的置信区间(大样本)

对于大样本,可用正态近似:

p^±zα/2p^(1p^)n

其中p^=xn是样本比例。

6. 常用置信水平与分位点对应关系

标准正态分布分位点 zα/2

置信水平1-ααα/2zα/2
90%0.100.051.645
95%0.050.0251.960
99%0.010.0052.576

上分位点记号

  • UN(0,1),则P{U>uα}=α
  • Tt(n),则P{T>tα(n)}=α

t分布分位点示例 tα/2(n1)

自由度t₀.₀₂₅t₀.₀₀₅
52.5714.032
102.2283.169
202.0862.845
302.0422.750
1.9602.576

7. 置信区间的解释

需要注意置信区间的正确解释:

  • 置信水平1-α是指构造置信区间的可靠程度
  • 不是对参数θ落在具体区间[a,b]内的概率
  • 对于已经得到的具体区间[a,b],参数要么在这个区间内,要么不在

8. 影响置信区间宽度的因素

  1. 置信水平1-α:置信水平越高,区间越宽
  2. 样本容量n:样本越大,区间越窄
  3. 总体变异程度σ:变异越大,区间越宽
  4. 数据精度:测量误差会影响区间宽度

9. 置信区间与假设检验的关系

置信区间和假设检验是统计推断的两种基本方法,它们之间存在密切联系:

  1. 在显著性水平α下,检验假设H₀: θ=θ₀的接受域就是θ₀的1-α置信区间
  2. 如果假设检验拒绝原假设,则在相应的置信区间中不包含该假设值

十二、最大似然估计

1. 基本概念

点估计与矩估计(补充)

点估计:设总体分布F(x;θ)θ为待估参数,构造统计量θ^(X1,,Xn),称为θ的估计量;观测值θ^(x1,,xn)称为θ的估计值。

矩:

  • k阶原点矩:E(Xk);样本k阶原点矩:1ni=1nXik
  • k阶中心矩:E[(XEX)k];样本k阶中心矩:1ni=1n(XiX¯)k

矩估计(方法):令“样本矩 = 总体矩”,解出参数。 例如:令1ni=1nXi=E(X),得到X¯=E(X),再解出θ=θ^(X1,,Xn)

常见分布的矩估计与最大似然估计(速记)

分布矩估计最大似然估计
0-1分布 b(1,p)p^=X¯p^=X¯
二项分布 B(n,p)(n已知)p^=X¯np^=X¯n
泊松分布 P(λ)λ^=X¯λ^=X¯
均匀分布 U(a,b)a^=X¯3ni=1n(XiX¯)2b^=X¯+3ni=1n(XiX¯)2a^=min{X1,,Xn}b^=max{X1,,Xn}
指数分布 E(λ)λ^=1X¯λ^=1X¯

无偏性(补充)

无偏估计量:若E(θ^)=θ,则称θ^θ的无偏估计量。

常用结论(设总体E(X)=μD(X)=σ2X1,,Xn为样本):

  1. E(Xi)=μD(Xi)=σ2
  2. E(X¯)=μD(X¯)=σ2n
  3. E(S2)=σ2

例:若总体XN(μ,σ2),则T=X¯2S2nμ2的无偏估计量。

最大似然估计(Maximum Likelihood Estimation, MLE):是一种常用的参数估计方法,基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。

似然函数:设总体X的概率分布(或密度函数)为f(x;θ),其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ,视为参数θ的函数:

L(θ)=L(θ;x1,x2,...,xn)=i=1nf(xi;θ)

这就是似然函数。

2. 最大似然估计的求解步骤

  1. 写出似然函数:

    L(θ)=i=1nf(xi;θ)
  2. 取对数得到对数似然函数(便于计算):

    lnL(θ)=i=1nlnf(xi;θ)
  3. 对参数θ求导并令导数等于零:

    dlnL(θ)dθ=0
  4. 解方程得到最大似然估计值 θ^

注:有时还需验证二阶导数小于零以确认极大值。

3. 常见分布的最大似然估计

(1) 正态分布 N(μ,σ2)

样本:X1,X2,...,Xn 独立同分布于 N(μ,σ2)

似然函数:

L(μ,σ2)=i=1n12πσe(xiμ)22σ2

对数似然函数:

lnL(μ,σ2)=n2ln(2π)n2lnσ212σ2i=1n(xiμ)2

解得最大似然估计:

  • μ^=X¯=1ni=1nXi(样本均值)
  • σ^2=1ni=1n(XiX¯)2(样本方差,注意这里是除以n而非n-1)

(2) 泊松分布 P(λ)

样本:X1,X2,...,Xn 独立同分布于 P(λ)

似然函数:

L(λ)=i=1nλxieλxi!

对数似然函数:

lnL(λ)=i=1n(xilnλλln(xi!))

解得最大似然估计:

λ^=X¯

(3) 指数分布 Exp(λ)

样本:X1,X2,...,Xn 独立同分布于 Exp(λ)

概率密度函数:f(x;λ)=λeλx,x > 0

似然函数:

L(λ)=i=1nλeλxi=λneλi=1nxi

对数似然函数:

lnL(λ)=nlnλλi=1nxi

解得最大似然估计:

λ^=1X¯

(4) 伯努利分布 B(1,p)

样本:X1,X2,...,Xn 独立同分布于 B(1,p)

似然函数:

L(p)=i=1npxi(1p)1xi=pxi(1p)nxi

对数似然函数:

lnL(p)=xilnp+(nxi)ln(1p)

解得最大似然估计:

p^=1ni=1nxi=X¯

4. 最大似然估计的性质

(1) 渐近性质(大样本性质)

  1. 一致性:当样本容量n→∞时,θ^MLEPθ0(依概率收敛到真值)
  2. 渐近正态性:n(θ^MLEθ0)dN(0,I1(θ0))
  3. 渐近有效性:在一定条件下达到Cramér-Rao下界

(2) 不变性

θ^是θ的最大似然估计,则对于可逆函数g(θ),g(θ^)是g(θ)的最大似然估计。

(3) 充分性

在一定正则条件下,最大似然估计是充分统计量的函数。

5. 最大似然估计的优点

  1. 直观性强:原理易于理解和接受
  2. 广泛应用:适合各种分布族 and 复杂模型
  3. 大样本优良性:具有一致性和渐近正态性
  4. 不变性:参数变换下的良好性质
  5. 可扩展性强:容易推广到多参数情况

6. 最大似然估计的缺点

  1. 需要分布假设:必须明确给出总体分布形式
  2. 小样本偏差:小样本情况下可能存在偏倚
  3. 数值计算复杂:有时需要迭代算法才能求解
  4. 可能不存在:某些情况下最大值不存在
  5. 可能不唯一:极值点可能不止一个

7. 最大似然估计的应用场景

  1. 参数估计的一般方法
  2. 回归分析中参数估计
  3. 时间序列分析中参数估计
  4. 机器学习算法中参数优化(如逻辑回归)
  5. 生物统计和医学研究
  6. 经济和金融数据分析

8. 实际应用中的注意事项

  1. 检查正则条件:确保能够应用MLE的标准理论结果
  2. 处理边界解问题:参数应在参数空间内部取值
  3. 考虑数值稳定性:避免计算过程中出现溢出等问题
  4. 评估估计精度:计算标准误差和置信区间
  5. 进行模型诊断:验证模型假设是否合理

9. 与其他估计方法的比较

与矩估计比较:

  • 矩估计:简单但效率较低,利用的是样本矩
  • 最大似然估计:较复杂但具有更好的大样本性质

与贝叶斯估计比较:

  • 频率学派观点:参数是固定的未知数
  • 贝叶斯学派观点:参数是随机变量,有先验分布

10. 计算示例

示例:正态分布参数的最大似然估计

设样本:5, 7, 9, 3, 6

  1. 计算样本均值:X¯=5+7+9+3+65=6
  2. 计算样本方差:S2=(56)2+(76)2+(96)2+(36)2+(66)25=1+1+9+9+05=4

因此:μ^=6σ^2=4

示例:伯努利分布参数的最大似然估计

设10次抛硬币试验中有7次正面:1,1,0,1,1,1,0,1,1,1

p^=710=0.7

总结

最大似然估计是一种强大而灵活的参数估计方法,在现代统计学和数据分析中应用极其广泛。掌握其原理和应用,对于深入理解统计推断方法具有重要意义。

上次更新于: