统计学补完计划

May 1, 2021 in STATISTICS
python note
2 min read

统计学绝非一门生硬无趣的学科，它有着鲜活的案例和丰富的实验，让我们循着公式乘着代码在统计的海洋里尽情摇摆叭

1. 回归分析

1.1 简单线性回归模型

(1) 回归方程

许多回归分析都是在如下假设前提下开始的： $y$ 和 $x$ 是两个代表某个总体的变量，我们希望用 $x$ 解释 $y$ ，通过一个线性方程，我们可以刻画 $y$ 和 $x$ 之间的关系： $$y=\beta_{0}+\beta_{1} x+u \quad (1.1)$$ 假定方程 (1.1) 在我们所关注的总体中成立，它便定义了一个简单线性回归模型 (simple linear regression model).

其中，各符号含义如下：

$y$ : 因变量（或被解释变量、回归子）
$x$ : 自变量（或解释变量、回归元）
$u$ : 误差项（或干扰项）
$\beta_{1}$ : 斜率参数
$\beta_{0}$ : 截距参数

举例来说，假设我们用方程 (1.1) 来刻画大豆收成： $y$ 表示收成， $x$ 表示施肥量， $u$ 则包括了诸如土地质量、降水量等因素。

(2) 零条件均值假设

只有在我们对 $x$ 和 $u$ 之间的关系做出某种约束时，我们才能计算出 $\beta_{1}$ 和 $\beta_{0}$ 的可靠估计量。

🌟 零条件均值假定： $$\begin{aligned} &\mathrm{E}(u)=0 \quad (1.2) \\ &\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3) \end{aligned}$$ 方程 (1.2) 和 (1.3) 称作零条件均值假定 (zero conditional mean assumption). 有了这两个约束，我们就能计算 $\beta_{1}$ 和 $\beta_{0}$ 了。

Note: 尽管 $\mathrm{E}(u)=0 \quad (1.2)$ 未必成立，但是只要方程中包含 $\beta_{0}$ ，那么我们假设方程 (1.2) 成立也不会失掉什么。

方程 $\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3)$ 说的是 $u$ 的平均值和 $x$ 无关。在统计概率中，当 (1.3) 式成立时，我们称 $u$ 均值独立 (mean independent) 于 $x$ .

当 (1.2) 与 (1.3) 式均成立时，我们便得到了零条件均值假定。

(3) 普通最小二乘法的推导

普通最小二乘法推导的核心就是计算 $\beta_{1}$ 和 $\beta_{0}$ . 为此，我们需要从总体中抽取一个容量为 n 的随机样本： $$\left\{\left(x_{i}, y_{i}\right):(i=1,2, \cdots, n)\right\}$$ 由于我们采用了简单线性回归模型，因此对每个 $i$ ，我们都可以写为： $$y_{i}=\beta_{0}+\beta_{1} x_{i}+u_{i} \quad (1.4)$$ 根据方程 (1.2) 和 (1.3), 我们有： $$ \begin{aligned} &\mathrm{E}(u)=0 \quad (1.5) \\ &\operatorname{Cov}(x, u)=\mathrm{E}(x u)-\mathrm{E}(x) \mathrm{E}(u)=\mathrm{E}(x u)=\mathrm{E}(u \mid x) \mathrm{E}(x)=\mathrm{E}(u) \mathrm{E}(x)=0 \quad (1.6) \end{aligned} $$ 以上两个方程可分别写作： $$ \begin{aligned} &\mathrm{E}\left(y-\beta_{0}-\beta_{1} x\right)=0 \quad (1.7) \\ &\mathrm{E}\left[x\left(y-\beta_{0}-\beta_{1} x\right)\right]=0 \quad (1.8) \end{aligned} $$ 将样本数据代入上式得： $$ \begin{aligned} &n^{-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.9) \\ &n^{-1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.10) \end{aligned} $$ 由 (1.9) 得： $$ \bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x} \quad (1.11) $$ 将 (1.11) 代入 (1.10) 得： $$\sum_{i=1}^{n} x_{i}\left(y_{i}-(\bar{y}-\hat{\beta_{1}}\bar{x})-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.12)$$ 整理后得到： $$ \sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right) \quad (1.13) $$ 又由于： $$ \begin{aligned} &\sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \quad (1.14) \\ &\sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) \quad (1.15) \end{aligned} $$ 因此，只要满足： $$ \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}>0 \quad (1.16) $$ 估计的斜率就为： $$ \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \quad (1.17) $$ (1.11) 和 (1.17) 给出的估计值叫作 $\beta_{0}$ 和 $\beta_{1}$ 的普通最小二乘法 (ordinary least squares, OLS) 估计值。

(4) 拟合值和残差

给定 $\beta_{0}$ 和 $\beta_{1}$ , 我们能够获得每次观测的拟合值 $\hat{y}_{i}$ .

第 $i$ 次观测的OLS残差 $\hat{u}_{i}$ 是 $y_{i}$ 与其拟合值之差： $\hat{u}_{i}=y_{i}-\hat{y}_{i}$ .

(5) 拟合优度

我们定义：

总和平方和 (total sum of squares, SST): $SST = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2}$
解释平方和 (explained sum of squares, SSE): $SSE = \sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}$
残差平方和 (residual sum of squares, SSR): $SSR = \sum_{i=1}^{n} \hat{u}_{i}^{2}$

可以证明：

$$SST = SSE + SSR$$

迄今为止，我们还没有办法衡量解释变量或自变量 $x$ 究竟多好地解释了因变量 $y$。如果能计算出一个数值，用以概括OLS曲线对数据拟合得有多好，对我们就非常有帮助。回归的 $R^{2}$ (R-squared)，有时又称为判定系数 (coefficient of determination)，被定义为：

$$R^{2}=SSE/SST=1-SSR/SST$$

$R^{2}$ 是可解释波动与总波动之比，因此被解释成 $y$ 的样本波动中被 $x$ 解释的部分。因为 $SSE$ 不可能大于 $SST$ ，所以 $R^{2}$ 的值总是介于 0 和 1 之间。

(6) 探索：最小化残差平方和

本节中，我们将尝试用遗传算法通过最小化残差平方和来计算 $\beta_{0}$ 和 $\beta_{1}$ 的估计值。然后将此估计值与第3节中利用公式计算的OLS估计值进行比较。

一般认为，推导出OLS估计值的两个方程 (1.5) 和 (1.6) 是最小化残差平方和的必要条件。因此如果“通过最小化残差平方和”得到的参数估计值和OLS估计值几近相等，则我们可以从直觉上认定上述关于必要条件的说法大约是成立的。

下面，我们就通过两种计算方法估计 $\beta_{0}$ 和 $\beta_{1}$ 的估计值，来看看最终结果是否符合我们的预期和直觉！

(7) 探索：关于拟合优度的经验性探索

我们构造几组样本数据，并作出其对应的 OLS 曲线，来观测拟合优度值的变化方向是否符合预期。

todo

1.2 多元回归分析：估计

todo