目录

1. 统计学基础

(1)描述性统计

  • 均值:数据的平均值,反映集中趋势。
  • 方差:数据与均值的偏离程度,反映离散程度。
  • 标准差:方差的平方根,与方差一起描述数据的波动范围。

(2)分布

  • 正态分布

    • 特点:对称的钟形曲线,均值=中位数=众数。
    • 应用:许多统计方法(如线性回归)假设数据或误差服从正态分布。
  • 泊松分布

    • 特点:离散分布,描述某事件在固定时间或空间内的发生次数。
    • 应用:适用于计数数据(如每天接到的电话数)。
  • 二项分布

    • 特点:描述n次独立试验中某事件发生的次数。
    • 应用:适用于二元分类问题(如成功/失败)。

2. 统计建模

(1)回归分析

  • 简单线性回归

    • 公式:( y = \beta_0 + \beta_1 x + \epsilon )
    • 目标:研究因变量(y)与一个自变量(x)之间的线性关系。
    • 假设:误差项((\epsilon))服从正态分布。
  • 多元线性回归

    • 公式:( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \epsilon )
    • 目标:研究因变量与多个自变量之间的关系。
    • 假设:误差项服从正态分布,自变量之间无多重共线性。
  • 逻辑回归

    • 公式:( \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \dots )
    • 目标:研究二元分类问题(如是否成交)。
    • 假设:因变量服从二项分布。
  • 泊松回归

    • 公式:( \log(\lambda) = \beta_0 + \beta_1 x_1 + \dots )
    • 目标:研究计数数据(如房屋成交量)。
    • 假设:因变量服从泊松分布。

(2)模型选择与分布的关系

  • 正态分布 → 线性回归。
  • 泊松分布 → 泊松回归。
  • 二项分布 → 逻辑回归。
  • 偏态分布 → 对数变换 + 线性回归,或广义线性模型(GLM)。

(3)模型验证

  • 残差分析

    • 残差 = 真实值 - 预测值。
    • 检查残差是否随机分布,是否符合模型假设(如正态分布)。
  • 统计检验

    • :衡量模型对数据的解释能力。
    • p值:判断变量是否显著(通常p<0.05为显著)。
    • F检验:检验模型的整体显著性。
  • 拟合优度

    • 通过R²、调整R²等指标评估模型拟合效果。

(4)模型优化

  • 变量选择

    • 剔除不显著的变量(p值>0.05)。
    • 使用逐步回归、LASSO回归等方法选择重要变量。
  • 处理非线性关系

    • 加入多项式项(如面积²)或使用非线性模型。
  • 处理异常值

    • 剔除或修正异常值,避免对模型的扭曲。

3. 统计建模的完整流程

(1)明确问题

  • 确定目标(如预测房价、分类是否成交)。
  • 确定因变量和自变量。

(2)数据探索

  • 计算均值、方差、标准差等统计量。
  • 绘制分布图(如直方图、散点图),观察数据特征。
  • 检查数据是否符合模型假设(如正态分布)。

(3)选择模型

  • 根据数据分布选择合适模型(如线性回归、逻辑回归)。
  • 根据问题复杂度选择简单模型或复杂模型。

(4)模型验证

  • 通过残差分析、统计检验验证模型合理性。
  • 评估模型拟合优度(如R²、调整R²)。

(5)优化模型

  • 剔除不显著变量,解决多重共线性。
  • 处理非线性关系(如加入多项式项)。
  • 处理异常值或数据偏态(如对数变换)。

(6)应用模型

  • 使用训练好的模型进行预测或分类。
  • 解释模型结果,提供决策支持。

4. 实例:房价预测模型

(1)数据探索

  • 计算房价的均值、方差、标准差。
  • 绘制房价分布图,判断是否接近正态分布。
  • 绘制“面积 vs 房价”散点图,观察线性关系。

(2)选择模型

  • 如果房价接近正态分布,选择线性回归模型:
    房价 = 基础价 + 面积×系数 + 误差
  • 如果房价右偏,对房价取对数,使用对数线性模型:
    log(房价) = 基础价 + 面积×系数 + 误差

(3)模型验证

  • 检查残差是否随机分布,是否符合正态分布。
  • 查看R²和p值,评估模型拟合效果和变量显著性。

(4)优化模型

  • 剔除不显著的变量(如房间数)。
  • 加入多项式项(如面积²)处理非线性关系。

(5)应用模型

  • 输入新房屋的面积,预测房价。

5. 关键知识点总结

  1. 分布决定模型:数据分布是选择模型的核心依据。
  2. 模型假设:不同模型对数据分布有不同的假设(如线性回归假设误差服从正态分布)。
  3. 模型验证:通过残差分析、统计检验验证模型合理性。
  4. 模型优化:通过变量选择、处理非线性关系等方法提升模型性能。

如果您有更多问题或需要进一步的解释,请随时告诉我!😊

最后编辑:2025年02月04日 ©著作权归作者所有

发表评论