Statistics on Chang Luo

因果推断笔记

Sat, 16 Jul 2022 00:00:00 +0000

不谜语人的因果推断笔记！

学习统计最好还是学习一下 R 语言。相比 Python，R 是专门用于统计的语言，它提供了更细致的函数和更标准的实现方法。

1. 因果推断入门

小朋友感冒，家长给他吃药，一个星期后就痊愈了。那么“吃药”和“痊愈”是否有因果关系呢？

我们知道普通的小感冒，即使不吃药，一个星期后也会痊愈。因此未必是因为吃药才痊愈的，也有可能是小朋友凭借抵抗力恢复了健康。此时，要进一步分析“吃药”与“痊愈”的因果关系，就要用到因果推断技术。

注意在上述例子中，原因存在两种状态：吃药/不吃药。结果也存在两种状态：痊愈/未痊愈。为了描述方便，我们把：

作为原因的变量：x 叫做控制变量 (control variable)，或解释变量 (explanatory variable)
作为结果的变量：y 叫做响应变量 (response variable)，或被解释变量 (explained variable)

1.1 如何测量因果关系

反事实因果分析框架 是统计学中分析因果关系的一种常见思路。这种思路把一种“状态”与其“反事实状态”造成结果的差异当作因果效应。对于小朋友 $ i $，反事实因果分析框架反映的因果效应 $ \tau_{i} $ 表示为：

$$\tau_{i} = Y_{i}(1) - Y_{i}(0)$$

这里 $ Y_{i}(1) $ 代表吃药，$ Y_{i}(0) $ 代表不吃药，它们都是观测值。

不难发现，$ Y_{i}(1) $ 和 $ Y_{i}(0) $ 是无法同时观测到的。这被称为 因果推断的根本性问题 (Holland, 1986)。正如“人不能两次踏入同一条河流”，一旦做出某种选择，其他选择的结果就无从观测了。

由于此“根本性问题”的存在，对 $ \tau $ 算不了真实值，只能估计。因果效应 $ \tau $ 有三种常见的估计值：

我们约定：是否吃药用 $ X $ 表示，$ X = 0 \space or \space 1 $，其中 1 代表吃药，0 代表不吃药。这里有必要区分下，$ Y_{i}|X=1 $ 是指那些真的吃了药的人的 $ Y $ 值。$ Y_{i}(1) $、$ Y_{i}(0) $ 则是看不到的一个潜在状态，可能是用统计方法算出的估计值，也可能是模型的外推。

统计学补完计划

Sat, 01 May 2021 00:00:00 +0000

统计学绝非一门生硬无趣的学科，它有着鲜活的案例和丰富的实验，让我们循着公式乘着代码在统计的海洋里尽情摇摆叭

1. 回归分析

1.1 简单线性回归模型

(1) 回归方程

许多回归分析都是在如下假设前提下开始的：$ y $ 和 $ x $ 是两个代表某个总体的变量，我们希望用 $ x $ 解释 $ y $，通过一个线性方程，我们可以刻画 $ y $ 和 $ x $ 之间的关系：

$$y=\beta_{0}+\beta_{1} x+u \quad (1.1)$$

假定方程 (1.1) 在我们所关注的总体中成立，它便定义了一个简单线性回归模型 (simple linear regression model).

其中，各符号含义如下：

$ y $: 因变量（或被解释变量、回归子）
$ x $: 自变量（或解释变量、回归元）
$ u $: 误差项（或干扰项）
$ \beta_{1} $: 斜率参数
$ \beta_{0} $: 截距参数

举例来说，假设我们用方程 (1.1) 来刻画大豆收成：$ y $ 表示收成，$ x $ 表示施肥量，$ u $ 则包括了诸如土地质量、降水量等因素。

泊松分布的仿真及可视化

Sat, 19 Sep 2020 00:00:00 +0000

本文介绍泊松分布和泊松函数的定义，并通过 Python random 库对泊松分布进行仿真，带你触摸复杂表象下的简单本质。

GitHub 项目地址：python-tips/poisson

1. 从泊松函数讲起

泊松分布表示在给定时间段内发生给定数量的事件的概率。这个定义比较抽象。举个具体的例子，假设你每小时接到电话的概率是固定的，比如每小时 0.05 个，那么你在接下来 1 小时内接到电话个数的概率，就服从泊松分布:

1 小时内接到 0 个电话，对应一个概率值 $ P_0 $；

1 小时内接到 1 个电话，对应一个概率值 $ P_1 $；

… …

1 小时内接到 n 个电话，也对应一个概率值$ P_n $。

这些概率值组成一个概率分布列，它们的值 $ (n, P_n) $ 在二维坐标下连成一条曲线。这条曲线所在的函数就是泊松分布的概率密度函数。其公式及图像如下：

$$\boxed{P(k | t, \lambda)=\frac{(\lambda t)^{k}}{k !} \exp (-\lambda t)}$$

从公式中，我们可以看出：只要确定了 $ \lambda $ 和 $ t $，该式就退化成了概率 $ P $ 关于事件发生次数 $ k $ 的函数。类似地，如果我们确定了 $ \lambda $ 和 $ k $，则该式退化成概率$ P $ 关于时间范围 $ t $ 的函数。

贝叶斯方法

Fri, 31 Jan 2020 00:00:00 +0000

统计学中有两大学派，频率学派和贝叶斯学派。频率派用总体信息和样本信息进行统计推断。而贝叶斯派除了使用以上两种信息之外，还使用先验信息进行统计推断。本文从数学原理和编程实践两个方向探究贝叶斯方法。

本文从数学原理和编程实践两个方面来介绍贝叶斯方法。

数学原理

贝叶斯理论包含很多内容。我们熟悉的利用先验分布推后验分布的方法被称为贝叶斯推理（Bayesian inference）。此外，还可以利用参数的后验分布的均值作为该参数的点估计，这种方法被称为贝叶斯估计（Bayesian estimation）。本文数学原理部分主要介绍贝叶斯推理和贝叶斯估计。

理论部分为六节，各节的主要内容如下。

章节	主要内容
第一节	用一个简单的实例，让大家对贝叶斯方法有一个形象的认识。
第二节	用一个复杂的实例，让大家对贝叶斯方法的术语有一个形象的认识。
第三节	介绍贝叶斯公式的事件形式及其推导。
第四节	介绍贝叶斯公式的密度函数形式及其推导。
第五节	介绍贝叶斯估计。
第六节	探索联合分布蕴含了哪些信息。

一、实例：癌症化验的准确率

下面请各位做题家们做一下你们最爱的经典老题

📖 题目

有两个可选的假设：

病人有癌症（cancer）、病人无癌症（normal）

可用数据来自化验结果：

正（+）、负（-）

有先验知识：

在所有人口中，患病率是 0.8%。对确实有病的患者的化验准确率为 98%，对确实无病的患者的化验准确率为 97%，总结如下：

$ P(cancer) = 0.008, P(normal) = 0.992 \\ P(+ | cancer) = 0.98, P(- | cancer) = 0.02 \\ P(+ | normal) = 0.03, P(- | normal) = 0.97 $

问题：

假定有一个新病人，化验结果为正，是否应将病人断定为有癌症？求后验概率 $ P(cancer | +) $。