目录
1. 统计学基础
(1)描述性统计
- 均值:数据的平均值,反映集中趋势。
- 方差:数据与均值的偏离程度,反映离散程度。
- 标准差:方差的平方根,与方差一起描述数据的波动范围。
(2)分布
正态分布:
- 特点:对称的钟形曲线,均值=中位数=众数。
- 应用:许多统计方法(如线性回归)假设数据或误差服从正态分布。
泊松分布:
- 特点:离散分布,描述某事件在固定时间或空间内的发生次数。
- 应用:适用于计数数据(如每天接到的电话数)。
二项分布:
- 特点:描述n次独立试验中某事件发生的次数。
- 应用:适用于二元分类问题(如成功/失败)。
2. 统计建模
(1)回归分析
简单线性回归:
- 公式:( y = \beta_0 + \beta_1 x + \epsilon )
- 目标:研究因变量(y)与一个自变量(x)之间的线性关系。
- 假设:误差项((\epsilon))服从正态分布。
多元线性回归:
- 公式:( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \epsilon )
- 目标:研究因变量与多个自变量之间的关系。
- 假设:误差项服从正态分布,自变量之间无多重共线性。
逻辑回归:
- 公式:( \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \dots )
- 目标:研究二元分类问题(如是否成交)。
- 假设:因变量服从二项分布。
泊松回归:
- 公式:( \log(\lambda) = \beta_0 + \beta_1 x_1 + \dots )
- 目标:研究计数数据(如房屋成交量)。
- 假设:因变量服从泊松分布。
(2)模型选择与分布的关系
- 正态分布 → 线性回归。
- 泊松分布 → 泊松回归。
- 二项分布 → 逻辑回归。
- 偏态分布 → 对数变换 + 线性回归,或广义线性模型(GLM)。
(3)模型验证
残差分析:
- 残差 = 真实值 - 预测值。
- 检查残差是否随机分布,是否符合模型假设(如正态分布)。
统计检验:
- R²:衡量模型对数据的解释能力。
- p值:判断变量是否显著(通常p<0.05为显著)。
- F检验:检验模型的整体显著性。
拟合优度:
- 通过R²、调整R²等指标评估模型拟合效果。
(4)模型优化
变量选择:
- 剔除不显著的变量(p值>0.05)。
- 使用逐步回归、LASSO回归等方法选择重要变量。
处理非线性关系:
- 加入多项式项(如面积²)或使用非线性模型。
处理异常值:
- 剔除或修正异常值,避免对模型的扭曲。
3. 统计建模的完整流程
(1)明确问题
- 确定目标(如预测房价、分类是否成交)。
- 确定因变量和自变量。
(2)数据探索
- 计算均值、方差、标准差等统计量。
- 绘制分布图(如直方图、散点图),观察数据特征。
- 检查数据是否符合模型假设(如正态分布)。
(3)选择模型
- 根据数据分布选择合适模型(如线性回归、逻辑回归)。
- 根据问题复杂度选择简单模型或复杂模型。
(4)模型验证
- 通过残差分析、统计检验验证模型合理性。
- 评估模型拟合优度(如R²、调整R²)。
(5)优化模型
- 剔除不显著变量,解决多重共线性。
- 处理非线性关系(如加入多项式项)。
- 处理异常值或数据偏态(如对数变换)。
(6)应用模型
- 使用训练好的模型进行预测或分类。
- 解释模型结果,提供决策支持。
4. 实例:房价预测模型
(1)数据探索
- 计算房价的均值、方差、标准差。
- 绘制房价分布图,判断是否接近正态分布。
- 绘制“面积 vs 房价”散点图,观察线性关系。
(2)选择模型
- 如果房价接近正态分布,选择线性回归模型:
房价 = 基础价 + 面积×系数 + 误差
- 如果房价右偏,对房价取对数,使用对数线性模型:
log(房价) = 基础价 + 面积×系数 + 误差
(3)模型验证
- 检查残差是否随机分布,是否符合正态分布。
- 查看R²和p值,评估模型拟合效果和变量显著性。
(4)优化模型
- 剔除不显著的变量(如房间数)。
- 加入多项式项(如面积²)处理非线性关系。
(5)应用模型
- 输入新房屋的面积,预测房价。
5. 关键知识点总结
- 分布决定模型:数据分布是选择模型的核心依据。
- 模型假设:不同模型对数据分布有不同的假设(如线性回归假设误差服从正态分布)。
- 模型验证:通过残差分析、统计检验验证模型合理性。
- 模型优化:通过变量选择、处理非线性关系等方法提升模型性能。
如果您有更多问题或需要进一步的解释,请随时告诉我!😊
最新回复