统计学补完计划

统计学绝非一门生硬无趣的学科,它有着鲜活的案例和丰富的实验,让我们循着公式乘着代码在统计的海洋里尽情摇摆叭

1. 回归分析

1.1 简单线性回归模型

(1) 回归方程

许多回归分析都是在如下假设前提下开始的:$y$$x$ 是两个代表某个总体的变量,我们希望用 $x$ 解释 $y$,通过一个线性方程,我们可以刻画 $y$$x$ 之间的关系: $$y=\beta_{0}+\beta_{1} x+u \quad (1.1)$$ 假定方程 (1.1) 在我们所关注的总体中成立,它便定义了一个简单线性回归模型 (simple linear regression model).

其中,各符号含义如下:

  • $y$: 因变量(或被解释变量、回归子)
  • $x$: 自变量(或解释变量、回归元)
  • $u$: 误差项(或干扰项)
  • $\beta_{1}$: 斜率参数
  • $\beta_{0}$: 截距参数

举例来说,假设我们用方程 (1.1) 来刻画大豆收成:$y$ 表示收成,$x$ 表示施肥量,$u$ 则包括了诸如土地质量、降水量等因素。

(2) 零条件均值假设

只有在我们对 $x$$u$ 之间的关系做出某种约束时,我们才能计算出 $\beta_{1}$$\beta_{0}$ 的可靠估计量。

🌟 零条件均值假定: $$\begin{aligned} &\mathrm{E}(u)=0 \quad (1.2) \\ &\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3) \end{aligned}$$ 方程 (1.2) 和 (1.3) 称作零条件均值假定 (zero conditional mean assumption). 有了这两个约束,我们就能计算 $\beta_{1}$$\beta_{0}$ 了。

Note: 尽管 $\mathrm{E}(u)=0 \quad (1.2)$ 未必成立,但是只要方程中包含 $\beta_{0}$,那么我们假设方程 (1.2) 成立也不会失掉什么。

方程 $\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3)$ 说的是 $u$ 的平均值和 $x$ 无关。在统计概率中,当 (1.3) 式成立时,我们称 $u$ 均值独立 (mean independent) 于 $x$.

当 (1.2) 与 (1.3) 式均成立时,我们便得到了零条件均值假定。

(3) 普通最小二乘法的推导

普通最小二乘法推导的核心就是计算 $\beta_{1}$$\beta_{0}$. 为此,我们需要从总体中抽取一个容量为 n 的随机样本$$\left\{\left(x_{i}, y_{i}\right):(i=1,2, \cdots, n)\right\}$$ 由于我们采用了简单线性回归模型,因此对每个 $i$,我们都可以写为: $$y_{i}=\beta_{0}+\beta_{1} x_{i}+u_{i} \quad (1.4)$$ 根据方程 (1.2) 和 (1.3), 我们有: $$ \begin{aligned} &\mathrm{E}(u)=0 \quad (1.5) \\ &\operatorname{Cov}(x, u)=\mathrm{E}(x u)-\mathrm{E}(x) \mathrm{E}(u)=\mathrm{E}(x u)=\mathrm{E}(u \mid x) \mathrm{E}(x)=\mathrm{E}(u) \mathrm{E}(x)=0 \quad (1.6) \end{aligned} $$ 以上两个方程可分别写作: $$ \begin{aligned} &\mathrm{E}\left(y-\beta_{0}-\beta_{1} x\right)=0 \quad (1.7) \\ &\mathrm{E}\left[x\left(y-\beta_{0}-\beta_{1} x\right)\right]=0 \quad (1.8) \end{aligned} $$ 将样本数据代入上式得: $$ \begin{aligned} &n^{-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.9) \\ &n^{-1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.10) \end{aligned} $$ 由 (1.9) 得: $$ \bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x} \quad (1.11) $$ 将 (1.11) 代入 (1.10) 得: $$\sum_{i=1}^{n} x_{i}\left(y_{i}-(\bar{y}-\hat{\beta_{1}}\bar{x})-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.12)$$ 整理后得到: $$ \sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right) \quad (1.13) $$ 又由于: $$ \begin{aligned} &\sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \quad (1.14) \\ &\sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) \quad (1.15) \end{aligned} $$ 因此,只要满足: $$ \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}>0 \quad (1.16) $$ 估计的斜率就为: $$ \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \quad (1.17) $$ (1.11) 和 (1.17) 给出的估计值叫作 $\beta_{0}$$\beta_{1}$ 的普通最小二乘法 (ordinary least squares, OLS) 估计值。

(4) 拟合值和残差

给定 $\beta_{0}$$\beta_{1}$, 我们能够获得每次观测的拟合值 $\hat{y}_{i}$.

$i$ 次观测的OLS残差 $\hat{u}_{i}$$y_{i}$ 与其拟合值之差:$\hat{u}_{i}=y_{i}-\hat{y}_{i}$.

(5) 拟合优度

我们定义:

  • 总和平方和 (total sum of squares, SST): $SST = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2}$
  • 解释平方和 (explained sum of squares, SSE): $SSE = \sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}$
  • 残差平方和 (residual sum of squares, SSR): $SSR = \sum_{i=1}^{n} \hat{u}_{i}^{2}$

可以证明:

$$SST = SSE + SSR$$

迄今为止,我们还没有办法衡量解释变量或自变量 $x$ 究竟多好地解释了因变量 $y$。如果能计算出一个数值,用以概括OLS曲线对数据拟合得有多好,对我们就非常有帮助。回归的 $R^{2}$ (R-squared),有时又称为判定系数 (coefficient of determination),被定义为:

$$R^{2}=SSE/SST=1-SSR/SST$$

$R^{2}$ 是可解释波动与总波动之比,因此被解释成 $y$ 的样本波动中被 $x$ 解释的部分。因为 $SSE$ 不可能大于 $SST$,所以 $R^{2}$ 的值总是介于 0 和 1 之间。

(6) 探索:最小化残差平方和

本节中,我们将尝试用遗传算法通过最小化残差平方和来计算 $\beta_{0}$$\beta_{1}$ 的估计值。然后将此估计值与第3节中利用公式计算的OLS估计值进行比较。

一般认为,推导出OLS估计值的两个方程 (1.5) 和 (1.6) 是最小化残差平方和的必要条件。因此如果“通过最小化残差平方和”得到的参数估计值和OLS估计值几近相等,则我们可以从直觉上认定上述关于必要条件的说法大约是成立的。

下面,我们就通过两种计算方法估计 $\beta_{0}$$\beta_{1}$ 的估计值,来看看最终结果是否符合我们的预期和直觉!

(7) 探索:关于拟合优度的经验性探索

我们构造几组样本数据,并作出其对应的 OLS 曲线,来观测拟合优度值的变化方向是否符合预期。

todo

1.2 多元回归分析:估计

todo