统计以及数据建模

正态分布：
- 特点：对称的钟形曲线，均值=中位数=众数。
- 应用：许多统计方法（如线性回归）假设数据或误差服从正态分布。
泊松分布：
- 特点：离散分布，描述某事件在固定时间或空间内的发生次数。
- 应用：适用于计数数据（如每天接到的电话数）。
二项分布：
- 特点：描述n次独立试验中某事件发生的次数。
- 应用：适用于二元分类问题（如成功/失败）。

2. 统计建模

（1）回归分析

简单线性回归：
- 公式：( y = \beta_0 + \beta_1 x + \epsilon )
- 目标：研究因变量（y）与一个自变量（x）之间的线性关系。
- 假设：误差项（(\epsilon)）服从正态分布。
多元线性回归：
- 公式：( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \epsilon )
- 目标：研究因变量与多个自变量之间的关系。
- 假设：误差项服从正态分布，自变量之间无多重共线性。
逻辑回归：
- 公式：( \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \dots )
- 目标：研究二元分类问题（如是否成交）。
- 假设：因变量服从二项分布。
泊松回归：
- 公式：( \log(\lambda) = \beta_0 + \beta_1 x_1 + \dots )
- 目标：研究计数数据（如房屋成交量）。
- 假设：因变量服从泊松分布。

（2）模型选择与分布的关系

正态分布 → 线性回归。
泊松分布 → 泊松回归。
二项分布 → 逻辑回归。
偏态分布 → 对数变换 + 线性回归，或广义线性模型（GLM）。

（3）模型验证

残差分析：
- 残差 = 真实值 - 预测值。
- 检查残差是否随机分布，是否符合模型假设（如正态分布）。
统计检验：
- R²：衡量模型对数据的解释能力。
- p值：判断变量是否显著（通常p<0.05为显著）。
- F检验：检验模型的整体显著性。
拟合优度：
- 通过R²、调整R²等指标评估模型拟合效果。

（4）模型优化

变量选择：
- 剔除不显著的变量（p值>0.05）。
- 使用逐步回归、LASSO回归等方法选择重要变量。
处理非线性关系：
- 加入多项式项（如面积²）或使用非线性模型。
处理异常值：
- 剔除或修正异常值，避免对模型的扭曲。

3. 统计建模的完整流程

（1）明确问题

确定目标（如预测房价、分类是否成交）。
确定因变量和自变量。

（2）数据探索

计算均值、方差、标准差等统计量。
绘制分布图（如直方图、散点图），观察数据特征。
检查数据是否符合模型假设（如正态分布）。

（3）选择模型

根据数据分布选择合适模型（如线性回归、逻辑回归）。
根据问题复杂度选择简单模型或复杂模型。

（4）模型验证

通过残差分析、统计检验验证模型合理性。
评估模型拟合优度（如R²、调整R²）。

（5）优化模型

剔除不显著变量，解决多重共线性。
处理非线性关系（如加入多项式项）。
处理异常值或数据偏态（如对数变换）。

（6）应用模型

使用训练好的模型进行预测或分类。
解释模型结果，提供决策支持。

4. 实例：房价预测模型

（1）数据探索

计算房价的均值、方差、标准差。
绘制房价分布图，判断是否接近正态分布。
绘制“面积 vs 房价”散点图，观察线性关系。

（2）选择模型

如果房价接近正态分布，选择线性回归模型：
房价 = 基础价 + 面积×系数 + 误差
如果房价右偏，对房价取对数，使用对数线性模型：
log(房价) = 基础价 + 面积×系数 + 误差

（3）模型验证

检查残差是否随机分布，是否符合正态分布。
查看R²和p值，评估模型拟合效果和变量显著性。

（4）优化模型

剔除不显著的变量（如房间数）。
加入多项式项（如面积²）处理非线性关系。

（5）应用模型

输入新房屋的面积，预测房价。

5. 关键知识点总结

分布决定模型：数据分布是选择模型的核心依据。
模型假设：不同模型对数据分布有不同的假设（如线性回归假设误差服从正态分布）。
模型验证：通过残差分析、统计检验验证模型合理性。
模型优化：通过变量选择、处理非线性关系等方法提升模型性能。

如果您有更多问题或需要进一步的解释，请随时告诉我！😊

日	一	二	三	四	五	六
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

统计以及数据建模

目录

1. 统计学基础

（1）描述性统计

（2）分布

2. 统计建模

（1）回归分析

（2）模型选择与分布的关系

（3）模型验证

（4）模型优化

3. 统计建模的完整流程

（1）明确问题

（2）数据探索

（3）选择模型

（4）模型验证

（5）优化模型

（6）应用模型

4. 实例：房价预测模型

（1）数据探索

（2）选择模型

（3）模型验证

（4）优化模型

（5）应用模型

5. 关键知识点总结

发表评论

表情类型

博客信息

2026年02月

搜索

最新文章

最新回复

文章分类

标签云

文章归档

其它功能