Exponential Family
第 3 章 广义线性模型
3.1 指数族分布
3.1.1 指数族分布的提出背景与统一视角
在前面的章节中,我们已经分别研究了线性回归与逻辑回归两类模型。在线性回归中,我们假设在给定输入 \(x\) 与参数 \(\theta\) 的条件下,输出变量 \(y\) 服从一个均值为 \(\mu\) 的高斯分布;而在逻辑回归中,我们假设在给定 \(x\) 与 \(\theta\) 的条件下,输出变量 \(y\) 服从一个参数为 \(\phi\) 的 Bernoulli 分布。尽管这两类模型在形式上存在明显差异,但它们在概率建模层面实际上具有统一的结构。
广义线性模型的目标正是揭示这种统一性。其核心思想在于,将条件分布 \(p(y\mid x;\theta)\) 的建模限制在一个结构良好、性质统一的分布族中,从而使得回归与分类问题可以在同一数学框架下加以分析与推导。指数族分布正是实现这一目标的基础工具,因此在构造广义线性模型之前,有必要系统地引入并理解指数族分布的形式与性质。
3.1.2 指数族分布的一般形式与归一化条件
如果一类概率分布可以写成如下形式,则称其属于指数族分布:
\[ p(y;\eta) = b(y)\exp\left(\eta^T T(y) - a(\eta)\right) \]
在上述表达式中,\(\eta\) 被称为自然参数(natural parameter),也称为规范参数(canonical parameter),它是刻画分布的核心参数;\(T(y)\) 被称为充分统计量(sufficient statistic),它是从随机变量 \(y\) 中提取与参数相关信息的函数;\(a(\eta)\) 被称为对数配分函数(log partition function);而 \(b(y)\) 是一个仅依赖于 \(y\)、与参数无关的基函数。在本课程所涉及的主要例子中,充分统计量 \(T(y)\) 往往就是 \(y\) 本身,但指数族的定义允许 \(T(y)\) 取更一般的向量形式。
对数配分函数 \(a(\eta)\) 并不是一个可以任意指定的函数。由于 \(p(y;\eta)\) 必须是合法的概率分布,它必须满足归一化条件:
\[ \int p(y;\eta)\,dy = 1 \]
将指数族形式代入归一化条件,可以得到:
\[ \int b(y)\exp\left(\eta^T T(y)\right)dy = \exp(a(\eta)) \]
因此,对数配分函数可以写为:
\[ a(\eta) = \log \int b(y)\exp\left(\eta^T T(y)\right)dy \]
这表明,一旦 \(T(y)\) 与 \(b(y)\) 被固定,\(a(\eta)\) 就由归一化条件唯一确定,其作用正是保证概率分布的积分或求和为 1。在这种意义下,指数族描述的并不是单一分布,而是在固定结构下由自然参数 \(\eta\) 所参数化的一整族分布。
3.1.3 Bernoulli 分布的指数族表示
接下来考虑 Bernoulli 分布。Bernoulli 分布用于刻画取值为 \(0\) 或 \(1\) 的随机变量,其概率质量函数为:
\[ p(y;\phi) = \phi^y(1-\phi)^{1-y}, \quad y\in\{0,1\} \]
其中 \(\phi\) 表示 \(y=1\) 的概率。为了将 Bernoulli 分布写成指数族形式,我们对其进行对数变换并加以整理:
\[ p(y;\phi) = \exp\left(y\log\phi + (1-y)\log(1-\phi)\right) \]
进一步整理可得:
\[ p(y;\phi) = \exp\left(y\log\frac{\phi}{1-\phi} + \log(1-\phi)\right) \]
将该表达式与指数族的一般形式进行逐项对照,可以识别出以下对应关系:
\[ \eta = \log\frac{\phi}{1-\phi} \]
\[ T(y) = y \]
\[ a(\eta) = \log(1+e^\eta) \]
\[ b(y) = 1 \]
由此可以看到,Bernoulli 分布确实属于指数族分布。进一步地,如果将自然参数 \(\eta\) 反解为 \(\phi\) 的函数,可以得到:
\[ \phi = \frac{1}{1+e^{-\eta}} \]
该函数正是逻辑回归中所使用的 sigmoid 函数。这一结果说明,sigmoid 函数并非经验性地引入,而是 Bernoulli 分布作为指数族分布在数学上的必然结果。
3.1.4 Gaussian 分布的指数族表示(固定方差)
接下来考虑高斯分布的情形。在推导线性回归模型时可以发现,方差参数 \(\sigma^2\) 的具体取值并不会影响最终得到的最优参数 \(\theta\)。因此,在不影响结论一般性的前提下,可以令:
\[ \sigma^2 = 1 \]
此时,高斯分布的概率密度函数可以写为:
\[ p(y;\mu) = \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{1}{2}(y-\mu)^2\right) \]
将平方项展开,有:
\[ -\frac{1}{2}(y-\mu)^2 = -\frac{1}{2}y^2 + \mu y - \frac{1}{2}\mu^2 \]
代回概率密度函数中,可以得到:
\[ p(y;\mu) = \left(\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2}\right) \exp\left(\mu y - \frac{1}{2}\mu^2\right) \]
将其与指数族的一般形式进行比较,可以得到如下对应关系:
\[ \eta = \mu \]
\[ T(y) = y \]
\[ a(\eta) = \frac{1}{2}\eta^2 \]
\[ b(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2} \]
因此,在方差固定的情况下,高斯分布同样属于指数族分布。这一结果表明,线性回归所依赖的概率模型在本质上也是指数族分布的一个具体实例。
3.1.5 指数族分布在广义线性模型中的意义
通过对 Bernoulli 分布和 Gaussian 分布的分析可以看到,回归问题与分类问题在概率建模层面具有统一的结构,它们都可以被视为在指数族分布框架下进行的条件建模。这一事实为广义线性模型的构造奠定了基础。
指数族分布的结构不仅提供了统一的表示形式,还蕴含了重要的数学性质。特别是,对数配分函数 \(a(\eta)\) 与分布的期望之间存在直接联系,这使得条件期望 \(\mathbb{E}[y\mid x]\) 可以通过自然参数 \(\eta\) 来刻画。正是这一性质,使得我们能够在下一节中系统地推导广义线性模型的形式,并解释线性预测器与链接函数出现的数学原因。