概率论与数理统计笔记
一、概率论基本概念
1. 基本概念
| 术语 | 定义 |
|---|---|
| 随机现象 | 不能预先确定结果的事件,即随机试验 |
| 基本事件 | 随机试验中的每个单一结果 |
| 随机事件 | 在随机试验中可能出现的各种结果,由若干基本事件组成 |
| 样本空间 | 随机试验中所有基本事件的集合,记为S,其中的元素称为样本点 |
| 概率 | 随机事件发生可能性的数字表征,介于0-1之间 |
重要关系:样本空间的子集是随机事件
2. 概率的三个基本性质
- 非负性:对任意事件A,
- 规范性:
,样本空间S的概率是1 - 可列可加性:设
是两两互不相容事件,则
3. 古典概型
条件:有限性,等可能性
排列数:
组合数:
多组组合模式:n个不同物体分成k堆,有
概率的统计定义:事件发生的频率在试验次数足够大时趋近的值
4. 条件概率
定义:A,B是随机试验中两个事件,
为事件B发生条件下A发生的概率
乘法定理:
推论:若A,B独立,则
5. 全概率公式
设试验E的样本空间为S,A为E的事件,
理解:将复杂事件A分解为多个互不相容的简单事件求和
6. 贝叶斯公式
设试验E的样本空间为S,A为E的事件,
理解:
:先验概率(原因发生的概率) :后验概率(观测到结果后,原因的概率) - 贝叶斯公式用于"由果溯因"
7. 典型例题
例:有两箱同种类的零件,第一箱装50只,其中10只一等品。第二箱装30只,其中18只一等品。今从两箱中任挑出一箱,然后从该箱中取零件两次,每次任取一只,作不放回抽样。求: (1) 第一次取到的零件是一等品的概率 (2) 第一次取到的零件是一等品的条件下,第二次取到的也是一等品的概率
解:记
(1) 由全概率公式:
(2)
二、随机变量及其分布
1. 分布函数
定义:设X是一个随机变量,对任意实数x,称
分布函数的三条基本性质:
- 单调非减性:对任意的
,有 - 有界性:对任意的x,有
,且 - 右连续性:对任意的
,有
重要:具有上述三条性质的函数F(x)一定是某个随机变量的分布函数
关于F(x)的常识结论:设F(x), G(x)为分布函数,a,b为实数,则
为分布函数 为分布函数 ,b为任意常数 必为分布函数
2. 离散型随机变量的分布律
设离散型随机变量X所有可能取值为
分布律满足的条件:
- 非负性:
- 正则性:
3. 连续型随机变量的概率密度
如果对于随机变量X的分布函数
则称
概率密度的性质:
- 对于任意实数
( ), - 若
在点x处连续,则有
小常识:
- 不改变
在有限点的值,不影响分布 不必连续,只需可积 - 连续型X的分布函数
是连续函数,且对任意 有 - 若
在点x处连续,则
区间范围小结:若X可能取值范围为
- 当
时, - 当
时,
4. 随机变量函数的分布
定理:设随机变量X具有概率密度
其中
5. 典型例题
例:设随机变量X的概率密度为
解:当
当
所以
三、离散型随机变量分布
1. 0-1分布(伯努利分布)b(1, p)
定义:随机变量X只取0和1两个值
分布律:
| X | 0 | 1 |
|---|---|---|
| P | 1-p | p |
期望与方差:
适用场景:单次试验的成功/失败
2. 二项分布 B(n, p)
定义:n次独立重复试验中,事件A发生的次数X
概率公式:
期望与方差:
正态近似(德莫弗-拉普拉斯):当n充分大时,
适用场景关键词:
- "n次独立试验"
- "成功/失败"、"合格/不合格"、"命中/未命中"
- "每次成功概率为p"
- "求恰好k次成功的概率"
例题特征:
某射击运动员命中率为0.8,独立射击10次,求恰好命中8次的概率。 → X ~ B(10, 0.8)
3. 泊松分布 P(λ) 或 π(λ)
定义:单位时间/空间内随机事件发生的次数
概率公式:
期望与方差:
特点:期望=方差=λ
适用场景关键词:
- "单位时间内"、"每天"、"每小时"
- "平均发生λ次"
- "稀有事件"(n大p小,np适中)
- 电话呼叫次数、到达人数、故障次数、放射性衰变
泊松定理(二项分布的近似): 当
例题特征:
某服务台平均每小时接到5个电话,求1小时内接到3个电话的概率。 → X ~ P(5)
4. 几何分布 G(p)
定义:独立重复试验中,首次成功时的试验次数X
概率公式:
期望与方差:
无记忆性:
适用场景关键词:
- "首次成功"、"第一次出现"
- "直到...为止"
- "需要多少次才能成功"
例题特征:
抛硬币直到第一次出现正面,求所需次数的期望。 → X ~ G(0.5), E(X) = 2
5. 超几何分布 H(n, M, N)
定义:N件产品中有M件次品,从中不放回抽取n件,次品数X
概率公式:
期望与方差:
适用场景关键词:
- "不放回抽样"
- "N件中有M件..."
- 抽奖问题、质检问题(小批量)
与二项分布的区别:
- 超几何:不放回抽样
- 二项分布:放回抽样(或总体很大时的不放回)
例题特征:
10件产品中有3件次品,不放回抽取4件,求恰好有2件次品的概率。 → X ~ H(4, 3, 10)
6. 负二项分布(帕斯卡分布)NB(r, p)
定义:独立重复试验中,第r次成功时的试验次数X
概率公式:
期望与方差:
适用场景关键词:
- "第r次成功"
- 几何分布是r=1的特例
四、连续型随机变量分布
1. 均匀分布 U(a, b)
概率密度函数:
分布函数:
期望与方差:
适用场景关键词:
- "等可能"、"随机取一点"
- "在[a,b]上均匀分布"
- 舍入误差、随机数生成
例题特征:
公交车每10分钟一班,乘客随机到达,求等待时间不超过3分钟的概率。 → X ~ U(0, 10), P(X ≤ 3) = 0.3
2. 指数分布 Exp(λ)
概率密度函数:
分布函数:
期望与方差:
无记忆性:
重要结论:
适用场景关键词:
- "寿命"、"等待时间"、"服务时间"
- "无记忆性"
- 电子元件寿命、顾客到达间隔、放射性衰变间隔
- 与泊松过程相关(泊松过程的时间间隔服从指数分布)
重要关系:若单位时间内事件发生次数 ~ P(λ),则相邻事件的时间间隔 ~ Exp(λ)
例题特征:
某元件寿命服从参数λ=0.01的指数分布,求使用超过100小时的概率。 → P(X > 100) = e^(-0.01×100) = e^(-1)
3. 正态分布 N(μ, σ²)
概率密度函数:
期望与方差:
标准化:若
标准正态分布:
- 密度函数:
- 分布函数:
区间概率:若
标准正态性质:
( )
密度识别:若
重要性质:
- 对称性:
(3σ原则)
适用场景关键词:
- 测量误差、身高体重、考试成绩
- "正态分布"、"高斯分布"
- 大量独立随机因素叠加的结果
例题特征:
X ~ N(100, 16),求P(92 < X < 108)。 → 标准化:P(-2 < Z < 2) = 2Φ(2) - 1
4. 伽马分布 Γ(α, λ)
概率密度函数:
期望与方差:
特殊情况:
- α=1 时为指数分布 Exp(λ)
- α=n/2, λ=1/2 时为 χ²(n) 分布
五、多维随机变量及其分布
1. 二维分布函数
定义:
四条基本性质:
单调不减性:F(x,y)是变量x和y的不减函数
- 对于任意固定的y,当
时, - 对于任意固定的x,当
时,
- 对于任意固定的y,当
有界性:
,且 ,
右连续性:
, 非负性:对于任意
, , ,有
2. 联合分布
离散型:联合分布律
性质:
- 非负性:
- 规范性:
连续型:联合概率密度
性质:
- 非负性:
- 规范性:
- 若
在点 连续,则有
区域概率:点
3. 边缘分布
边缘分布函数:
离散型边缘分布律
连续型边缘概率密度
3.1 二维均匀分布
定义:若
其中
结论1:
结论2:若
结论3:X、Y的边缘分布不一定是均匀分布。
4. 条件分布与条件密度
离散型
在
在
连续型
在
在
5. 相互独立的随机变量
定义:设
即
则称随机变量X和Y是相互独立的。
独立性判定:
- 连续型:X和Y相互独立
在平面上几乎处处成立 - 离散型:X和Y相互独立
对于所有可能取值 有
6. 二维正态分布(重点性质)
设
, 与 相互独立 - 任意非零线性组合
仍服从正态分布
7. 两个随机变量函数的分布
(1) Z = X + Y 的分布(卷积公式)
设
若X和Y相互独立,边缘概率密度为
(2) Z = Y/X 的分布、Z = XY 的分布
设
若X和Y相互独立,边缘概率密度为
(3) M = max{X,Y} 及 N = min{X,Y} 的分布
设X,Y是两个相互独立的随机变量,分布函数分别为
最大值的分布:
最小值的分布:
推广:若
8. 多维随机变量典型例题
例:设随机变量(X,Y)的概率密度为
(1) 问:X和Y是否相互独立?(2) 求Z = X + Y的概率密度。
解:
(1) (X,Y)关于X的边缘概率密度为
同理,
而
显然
(2) Z = X + Y的概率密度为
只有当
当
当
所以
六、随机变量的数字特征
1. 数学期望
定义:
离散型:设
连续型:若
随机变量函数的期望:
设
- 离散型:
- 连续型:
数学期望性质:
- 设C是常数,则
- 设X是随机变量,C是常数,则
- 设X是随机变量,C是常数,则
- 设X,Y是两个随机变量,则
(可推广到任意有限个) - 设X,Y是相互独立的随机变量,则
(可推广到任意有限个)
2. 方差与标准差
定义:
计算公式:
标准差:
方差的计算:
离散型:
连续型:
方差性质:
- 设C是常数,则
- 设X是随机变量,C是常数,则
, - 设X,Y是两个随机变量,则
特别地,若X,Y相互独立,则 的充要条件是X以概率1取常数 ,即
3. 协方差
定义:
计算公式:
性质:
(对称性) (C为常数) ,a,b是常数 (双线性) - 若X,Y相互独立,则
与方差的关系:
4. 相关系数
定义:
性质:
的充要条件是,存在常数a,b使 (线性关系) - 若X,Y相互独立,则
(不相关) - 不相关 ≠ 独立:
只说明X,Y没有线性关系,可能有非线性关系
不相关的等价条件(以下四条等价):
5. 矩
定义:设X和Y是随机变量
| 矩的类型 | 定义 | 说明 |
|---|---|---|
| k阶原点矩 | 一阶原点矩就是期望E(X) | |
| k阶中心矩 | 二阶中心矩就是方差D(X) | |
| k+l阶混合矩 | ||
| k+l阶混合中心矩 | 二阶混合中心矩就是协方差Cov(X,Y) |
6. 切比雪夫不等式
设
等价地,
7. 数字特征典型例题
例:设随机变量
解:由于
由
又
于是
七、抽样分布
设
样本均值:
样本方差:
样本标准差:
常用结论(设总体
, , ,
0. 中心极限定理
设
二项分布特例:若
1. χ²分布 (卡方分布)
定义:设
期望与方差:
可加性:
重要定理:设总体
2. t分布(学生t分布)
定义:设
性质:
- 关于0对称
- n→∞ 时趋近于 N(0,1)
- 比正态分布"矮胖"(尾部更厚)
重要定理:设总体
应用:总体方差未知时,对均值的推断
3. F分布
定义:设
性质:
重要定理:设两个正态总体
应用:两总体方差比的推断
4. 正态总体的抽样分布总结
设
| 条件 | 统计量 | 分布 |
|---|---|---|
| σ²已知 | N(0,1) | |
| σ²未知 | t(n-1) | |
| μ已知 | χ²(n) | |
| μ未知 | χ²(n-1) |
5. 重点:单正态抽样分布(整体背熟)
设
与 相互独立
八、题型判断指南:如何选择分布
第一步:判断离散还是连续
| 类型 | 特征 | 常见分布 |
|---|---|---|
| 离散型 | 取值可列举(0,1,2,...) | 二项、泊松、几何、超几何 |
| 连续型 | 取值为区间 | 均匀、指数、正态 |
第二步:根据关键词选择分布
离散型分布选择
问题类型判断流程:
1. 是否涉及"不放回抽样"且总体较小?
→ 是:超几何分布
2. 是否是"n次独立试验,成功k次"?
→ 是:二项分布 B(n,p)
3. 是否是"单位时间/空间内发生次数"或"稀有事件"?
→ 是:泊松分布 P(λ)
4. 是否是"首次成功所需次数"?
→ 是:几何分布 G(p)
5. 是否是"第r次成功所需次数"?
→ 是:负二项分布 NB(r,p)连续型分布选择
问题类型判断流程:
1. 是否"等可能"在某区间取值?
→ 是:均匀分布 U(a,b)
2. 是否涉及"寿命"、"等待时间"、"无记忆性"?
→ 是:指数分布 Exp(λ)
3. 是否涉及测量误差、大量因素叠加?
→ 是:正态分布 N(μ,σ²)常见题型与对应分布
| 题型 | 分布 | 示例 |
|---|---|---|
| 投掷硬币/骰子n次 | 二项分布 | 掷10次骰子,6点出现3次 |
| 射击命中次数 | 二项分布 | 射击10次,命中8次 |
| 产品抽检(放回/大批量) | 二项分布 | 100件抽10件,次品数 |
| 产品抽检(不放回/小批量) | 超几何分布 | 10件抽4件,次品数 |
| 电话/顾客到达 | 泊松分布 | 每小时平均5个电话 |
| 事故/故障次数 | 泊松分布 | 每天平均2起事故 |
| 直到首次成功 | 几何分布 | 首次抽到红球 |
| 随机选点/等车 | 均匀分布 | 公交车每10分钟一班 |
| 元件寿命 | 指数分布 | 灯泡寿命 |
| 服务时间 | 指数分布 | 银行服务时间 |
| 身高体重成绩 | 正态分布 | 学生成绩分布 |
| 测量误差 | 正态分布 | 仪器测量误差 |
九、假设检验
1. 基本概念
原假设
备择假设
两类错误:
| 错误类型 | 定义 | 概率 |
|---|---|---|
| 第一类错误(弃真) | H₀为真却拒绝H₀ | α(显著性水平) |
| 第二类错误(取伪) | H₀为假却接受H₀ | β |
显著性水平 α:犯第一类错误的概率上限,常取 0.05 或 0.01
检验的基本思想:小概率事件原理——小概率事件在一次试验中几乎不会发生
显著性检验:给定样本量n,控制第一类错误的概率不大于α(称为显著性水平)。
2. 假设检验的步骤(五步法)
Step 1: 建立假设
根据问题建立 H₀ 和 H₁
Step 2: 选择检验统计量
根据问题类型和已知条件选择
Step 3: 确定拒绝域
根据 α 和 H₁ 的形式确定临界值
Step 4: 计算统计量的值
用样本数据计算检验统计量
Step 5: 做出判断
统计量落入拒绝域 → 拒绝 H₀
统计量不在拒绝域 → 不拒绝 H₀3. 单个正态总体的检验
(1) 均值μ的检验(σ²已知)—— Z检验
假设形式:
- 双侧:
vs - 左侧:
vs - 右侧:
vs
检验统计量:
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
(2) 均值μ的检验(σ²未知)—— t检验
检验统计量:
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
均值检验分类速记(总体
- 双侧:
,拒绝域 ( 已知),或 ( 未知) - 右侧:
,拒绝域 或 - 左侧:
,拒绝域 或
(3) 方差σ²的检验(μ未知)—— χ²检验
假设:
检验统计量:
拒绝域:
| 备择假设 | 拒绝域 |
|---|---|
(4) 方差σ²的检验(μ已知/未知)—— χ²检验汇总
假设:
, , ,
检验统计量:
- μ已知:
- μ未知:
拒绝域:
- 双侧:
或 - 右侧:
- 左侧:
其中 (μ已知)或 (μ未知)。
4. 两个正态总体的检验
(1) 均值差的检验(σ₁², σ₂²已知)—— Z检验
检验统计量:
(2) 均值差的检验(σ₁² = σ₂² = σ²未知)—— t检验
检验统计量:
其中
(3) 方差比的检验 —— F检验
假设:
检验统计量:
拒绝域(双侧):
5. 检验方法选择指南
检验方法选择流程图:
检验什么?
│
├─ 均值μ
│ ├─ σ²已知 → Z检验
│ └─ σ²未知 → t检验
│
├─ 方差σ²
│ └─ μ未知 → χ²检验
│
└─ 两总体比较
├─ 比较μ₁和μ₂
│ ├─ σ₁², σ₂²已知 → Z检验
│ └─ σ₁² = σ₂²未知 → t检验
│
└─ 比较σ₁²和σ₂² → F检验6. 检验中的常见错误与注意事项
假设的写法:
- H₀ 通常包含等号
- 题目问"是否显著大于"→ 右侧检验,H₁: μ > μ₀
单侧 vs 双侧:
- "是否等于"、"有无差异" → 双侧
- "是否大于"、"是否提高" → 右侧
- "是否小于"、"是否降低" → 左侧
结论的表述:
- 拒绝H₀:有充分理由认为...
- 不拒绝H₀:没有充分理由认为...(不是"接受H₀")
α的选择:
- 没有特别说明通常取 α = 0.05
- 若弃真错误后果严重,取较小的α(如0.01)
十、公式速查表
离散型分布速查表
| 分布 | 记号 | P(X=k) | E(X) | D(X) |
|---|---|---|---|---|
| 0-1分布 | b(1,p) | p | p(1-p) | |
| 二项分布 | B(n,p) | np | np(1-p) | |
| 泊松分布 | P(λ) | λ | λ | |
| 几何分布 | G(p) | |||
| 超几何分布 | H(n,M,N) | 复杂 |
连续型分布速查表
| 分布 | 记号 | f(x) | E(X) | D(X) |
|---|---|---|---|---|
| 均匀分布 | U(a,b) | |||
| 指数分布 | Exp(λ) | |||
| 正态分布 | N(μ,σ²) | μ | σ² |
抽样分布速查表
| 分布 | 定义 | E | D |
|---|---|---|---|
| χ²(n) | n | 2n | |
| t(n) | 0 (n>1) | ||
| F(m,n) | 复杂 |
检验统计量速查表
| 检验内容 | 条件 | 统计量 | 分布 |
|---|---|---|---|
| 均值μ | σ²已知 | N(0,1) | |
| 均值μ | σ²未知 | t(n-1) | |
| 方差σ² | μ未知 | χ²(n-1) | |
| 两均值差 | σ₁²=σ₂²未知 | t(n₁+n₂-2) | |
| 两方差比 | - | F(n₁-1,n₂-1) |
置信区间速查表
| 参数 | 条件 | 置信区间 |
|---|---|---|
| 均值μ | σ²已知 | |
| 均值μ | σ²未知 | |
| 方差σ² | μ未知 | |
| 两均值差 | σ₁²,σ₂²已知 | |
| 两均值差 | σ₁²=σ₂²未知 | |
| 方差比 | - | |
| 比例p | 大样本 |
常用分位点表
标准正态分布分位点
| α | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 |
|---|---|---|---|---|---|
| 1.282 | 1.645 | 1.960 | 2.326 | 2.576 |
t分布分位点 (部分)
| n | t₀.₀₅ | t₀.₀₂₅ | t₀.₀₁ |
|---|---|---|---|
| 5 | 2.015 | 2.571 | 3.365 |
| 10 | 1.812 | 2.228 | 2.764 |
| 20 | 1.725 | 2.086 | 2.528 |
| 30 | 1.697 | 2.042 | 2.457 |
| ∞ | 1.645 | 1.960 | 2.326 |
复习建议
- 熟记各分布的期望和方差公式
- 掌握题型关键词,快速判断使用哪个分布
- 检验部分重点掌握五步法和统计量选择
- 多做练习,熟悉计算流程
十一、置信区间
1. 基本概念
置信区间:是在给定置信水平下,包含未知总体参数的一个区间估计。
置信水平(置信度):是我们对所构造的置信区间包含总体参数真值的可信程度,常用1-α表示,如95%或99%。
置信上限与置信下限:置信区间的两个端点,分别称为置信下限和置信上限。
2. 构造置信区间的基本原理
置信区间的基本思想来源于统计量的抽样分布。对于参数θ的估计,我们找到一个包含θ的随机区间
其中1-α为置信水平,α为显著性水平。
3. 单个正态总体参数的置信区间
(1) 总体均值μ的置信区间(方差σ²已知)
使用标准正态分布:
其中:
:样本均值 :标准正态分布的上α/2分位点 - σ:总体标准差
- n:样本容量
(2) 总体均值μ的置信区间(方差σ²未知)
使用t分布:
其中:
:自由度为n-1的t分布上α/2分位点 - S:样本标准差
(3) 总体方差σ²的置信区间
使用χ²分布:
μ未知:
μ已知:
其中:
和 分别是自由度为n-1的χ²分布上α/2和1-α/2分位点
4. 两个正态总体参数的置信区间
(1) 两个总体均值差μ₁-μ₂的置信区间(方差已知)
(2) 两个总体均值差μ₁-μ₂的置信区间(方差未知但相等)
其中合并标准差
(3) 两个总体方差比σ₁²/σ₂²的置信区间
使用F分布:
5. 总体比例p的置信区间(大样本)
对于大样本,可用正态近似:
其中
6. 常用置信水平与分位点对应关系
标准正态分布分位点
| 置信水平1-α | α | α/2 | |
|---|---|---|---|
| 90% | 0.10 | 0.05 | 1.645 |
| 95% | 0.05 | 0.025 | 1.960 |
| 99% | 0.01 | 0.005 | 2.576 |
上分位点记号
- 若
,则 - 若
,则
t分布分位点示例
| 自由度 | t₀.₀₂₅ | t₀.₀₀₅ |
|---|---|---|
| 5 | 2.571 | 4.032 |
| 10 | 2.228 | 3.169 |
| 20 | 2.086 | 2.845 |
| 30 | 2.042 | 2.750 |
| ∞ | 1.960 | 2.576 |
7. 置信区间的解释
需要注意置信区间的正确解释:
- 置信水平1-α是指构造置信区间的可靠程度
- 不是对参数θ落在具体区间
内的概率 - 对于已经得到的具体区间
,参数要么在这个区间内,要么不在
8. 影响置信区间宽度的因素
- 置信水平1-α:置信水平越高,区间越宽
- 样本容量n:样本越大,区间越窄
- 总体变异程度σ:变异越大,区间越宽
- 数据精度:测量误差会影响区间宽度
9. 置信区间与假设检验的关系
置信区间和假设检验是统计推断的两种基本方法,它们之间存在密切联系:
- 在显著性水平α下,检验假设H₀: θ=θ₀的接受域就是θ₀的1-α置信区间
- 如果假设检验拒绝原假设,则在相应的置信区间中不包含该假设值
十二、最大似然估计
1. 基本概念
点估计与矩估计(补充)
点估计:设总体分布
矩:
- k阶原点矩:
;样本k阶原点矩: - k阶中心矩:
;样本k阶中心矩:
矩估计(方法):令“样本矩 = 总体矩”,解出参数。 例如:令
常见分布的矩估计与最大似然估计(速记)
| 分布 | 矩估计 | 最大似然估计 |
|---|---|---|
| 0-1分布 | ||
| 二项分布 | ||
| 泊松分布 | ||
| 均匀分布 | ||
| 指数分布 |
无偏性(补充)
无偏估计量:若
常用结论(设总体
, ,
例:若总体
最大似然估计(Maximum Likelihood Estimation, MLE):是一种常用的参数估计方法,基于已观测到的数据来估计统计模型中未知参数的值。其基本思想是寻找使观测数据出现概率最大的参数值。
似然函数:设总体X的概率分布(或密度函数)为f(x;θ),其中θ是未知参数。给定样本观测值x₁,x₂,...,xₙ,视为参数θ的函数:
这就是似然函数。
2. 最大似然估计的求解步骤
写出似然函数:
取对数得到对数似然函数(便于计算):
对参数θ求导并令导数等于零:
解方程得到最大似然估计值
注:有时还需验证二阶导数小于零以确认极大值。
3. 常见分布的最大似然估计
(1) 正态分布
样本:
似然函数:
对数似然函数:
解得最大似然估计:
(样本均值) (样本方差,注意这里是除以n而非n-1)
(2) 泊松分布
样本:
似然函数:
对数似然函数:
解得最大似然估计:
(3) 指数分布
样本:
概率密度函数:
似然函数:
对数似然函数:
解得最大似然估计:
(4) 伯努利分布
样本:
似然函数:
对数似然函数:
解得最大似然估计:
4. 最大似然估计的性质
(1) 渐近性质(大样本性质)
- 一致性:当样本容量n→∞时,
(依概率收敛到真值) - 渐近正态性:
- 渐近有效性:在一定条件下达到Cramér-Rao下界
(2) 不变性
若
(3) 充分性
在一定正则条件下,最大似然估计是充分统计量的函数。
5. 最大似然估计的优点
- 直观性强:原理易于理解和接受
- 广泛应用:适合各种分布族 and 复杂模型
- 大样本优良性:具有一致性和渐近正态性
- 不变性:参数变换下的良好性质
- 可扩展性强:容易推广到多参数情况
6. 最大似然估计的缺点
- 需要分布假设:必须明确给出总体分布形式
- 小样本偏差:小样本情况下可能存在偏倚
- 数值计算复杂:有时需要迭代算法才能求解
- 可能不存在:某些情况下最大值不存在
- 可能不唯一:极值点可能不止一个
7. 最大似然估计的应用场景
- 参数估计的一般方法
- 回归分析中参数估计
- 时间序列分析中参数估计
- 机器学习算法中参数优化(如逻辑回归)
- 生物统计和医学研究
- 经济和金融数据分析
8. 实际应用中的注意事项
- 检查正则条件:确保能够应用MLE的标准理论结果
- 处理边界解问题:参数应在参数空间内部取值
- 考虑数值稳定性:避免计算过程中出现溢出等问题
- 评估估计精度:计算标准误差和置信区间
- 进行模型诊断:验证模型假设是否合理
9. 与其他估计方法的比较
与矩估计比较:
- 矩估计:简单但效率较低,利用的是样本矩
- 最大似然估计:较复杂但具有更好的大样本性质
与贝叶斯估计比较:
- 频率学派观点:参数是固定的未知数
- 贝叶斯学派观点:参数是随机变量,有先验分布
10. 计算示例
示例:正态分布参数的最大似然估计
设样本:5, 7, 9, 3, 6
- 计算样本均值:
- 计算样本方差:
因此:
示例:伯努利分布参数的最大似然估计
设10次抛硬币试验中有7次正面:1,1,0,1,1,1,0,1,1,1
总结
最大似然估计是一种强大而灵活的参数估计方法,在现代统计学和数据分析中应用极其广泛。掌握其原理和应用,对于深入理解统计推断方法具有重要意义。
