置信区间是用于估计一个参数(如总体均值)的取值范围。计算置信区间的方法主要取决于样本的大小、样本的分布以及所选的置信水平。以下是几种常见的置信区间计算方法及其例题:
1. 基于样本均值和标准差的方法(适用于大样本)
当样本容量较大时(通常n≥30),样本均值的分布近似服从正态分布。此时,可以使用以下公式计算置信区间:
\[ \text{CI} = \bar{x} \pm z \frac{\sigma}{\sqrt{n}} \]
其中:
\(\bar{x}\) 是样本均值
\(z\) 是置信水平对应的Z值(例如,95%置信水平时,z ≈ 1.96)
\(\sigma\) 是总体标准差
\(n\) 是样本容量
例题:
已知某地区成年男子的身高数据,抽取100人测量,得到样本平均值为175cm,标准差5cm,假设置信度为95%,求该地区成年男子身高均值的95%置信区间。
\[ \text{CI} = 175 \pm 1.96 \frac{5}{\sqrt{100}} \]
\[ \text{CI} = 175 \pm 1.96 \times 0.5 \]
\[ \text{CI} = [175 - 0.98, 175 + 0.98] \]
\[ \text{CI} = [174.02, 175.98] \]
2. 基于t分布的方法(适用于小样本或方差未知的情况)
当样本容量较小(n < 30)或总体方差未知时,样本均值的分布服从t分布。此时,可以使用以下公式计算置信区间:
\[ \text{CI} = \bar{x} \pm t_{\alpha/2} \frac{s}{\sqrt{n}} \]
其中:
\(\bar{x}\) 是样本均值
\(t_{\alpha/2}\) 是自由度为n-1时,t分布中右侧面积为α/2时的t值
\(s\) 是样本标准差
\(n\) 是样本容量
例题:
已知某种灯泡的使用寿命服从正态分布,现从一批灯泡中随机抽取16个,测得其使用寿命如下表:
| 样本 | 使用寿命(小时) |
|------|------------------|
| 1| 1400 |
| 2| 1500 |
| ... | ... |
| 16 | 1450 |
计算该批灯泡使用寿命的95%置信区间。
首先计算样本均值 \(\bar{x}\) 和样本标准差 \(s\),然后查找t分布表,找到自由度为15时,95%置信水平对应的t值(约为2.1314)。
\[ \text{CI} = \bar{x} \pm 2.1314 \frac{s}{\sqrt{16}} \]
\[ \text{CI} = 1490 \pm 2.1314 \times \frac{5}{4} \]
\[ \text{CI} = 1490 \pm 2.66425 \]
\[ \text{CI} = [1487.33575, 1492.66425] \]
3. 基于蒙特卡洛模拟的方法
蒙特卡洛模拟是一种计算机模拟方法,通过生成大量的随机样本,计算出样本统计量的分布,从而估计总体参数的置信区间。这种方法适用于样本量非常大或需要更高精度的情况。
4. 使用统计软件
许多统计软件(如Excel、PASS等)提供了计算置信区间的功能。用户只需输入样本数据、置信水平和样本标准差等参数,软件即可自动计算出置信区间。
例题:
某校欲随机抽取部分男生,检测其体重,以评估其生长发育情况,希望估计误差不超过0.3kg,样本标准差为2kg,需要多少样本量?
使用PASS软件,依次选择Means——Confidence Intervals for One Mean,设置参数:
Confidence Level(1-Alpha): 0.95
Distance from Mean to Limit(s): 0.3
Sample Standard Deviation(σ): 2
Population Size: Infinite
Solve For: Sample Size
计算得到所需样本量约为