GLM Construction
3 广义线性模型(Generalized Linear Models)
3.2 构造广义线性模型
在上一节中,我们已经引入了指数族分布的统一形式,并说明了线性回归与逻辑回归所依赖的概率模型在本质上都属于指数族分布。本节的目标是在此基础上,系统地构造广义线性模型,并解释其各个组成部分的数学来源。
广义线性模型并不是简单地“把不同模型拼在一起”,而是建立在一组清晰的建模假设之上。这些假设共同决定了模型的形式,也解释了为何线性回归与逻辑回归会自然地出现在同一框架中。
3.2.1 广义线性模型的基本建模假设
广义线性模型的出发点是对条件分布 \(p(y\mid x;\theta)\) 的建模。我们首先假设,在给定输入 \(x\) 的条件下,输出变量 \(y\) 的分布属于某一个指数族分布,即存在自然参数 \(\eta\) 使得:
\[ p(y\mid x;\theta) = b(y)\exp\left(\eta T(y) - a(\eta)\right) \]
这里需要强调的是,在这一阶段,自然参数 \(\eta\) 尚未被指定为 \(x\) 的函数,它只是描述条件分布形状的参数。
接下来的关键一步是引入模型结构假设。广义线性模型假设,自然参数 \(\eta\) 与输入 \(x\) 之间通过一个线性关系相连,即:
\[ \eta = \theta^T x \]
这一假设被称为线性预测器假设。它并非由概率论推导而来,而是模型设计层面的假设,其目的在于在参数空间与输入空间之间建立一个简单而可解释的联系。
通过这一步,自然参数 \(\eta\) 不再是一个自由参数,而是由输入 \(x\) 与参数 \(\theta\) 所共同决定的量。
3.2.2 条件期望与对数配分函数的关系
指数族分布具有一个极其重要的性质,即其充分统计量的期望可以通过对数配分函数的导数来表示。为了说明这一点,我们从对数配分函数的定义出发:
\[ a(\eta) = \log \int b(y)\exp\left(\eta T(y)\right)dy \]
对 \(a(\eta)\) 关于 \(\eta\) 求导,可以得到:
\[ \frac{d a(\eta)}{d\eta} = \frac{\int b(y) T(y)\exp\left(\eta T(y)\right)dy} {\int b(y)\exp\left(\eta T(y)\right)dy} \]
注意到分子与分母的比值正是随机变量 \(T(y)\) 在分布 \(p(y;\eta)\) 下的期望,因此有:
\[ \frac{d a(\eta)}{d\eta} = \mathbb{E}[T(y)] \]
在本课程讨论的大多数情形中,充分统计量 \(T(y)\) 等于 \(y\) 本身,因此可以写为:
\[ \mathbb{E}[y] = a'(\eta) \]
这一关系并不是额外引入的假设,而是指数族分布的内在数学性质。
3.2.3 广义线性模型中的均值函数
在广义线性模型中,我们关心的是条件期望 \(\mathbb{E}[y\mid x]\)。由于在给定 \(x\) 的条件下,\(y\) 的分布是一个自然参数为 \(\eta=\theta^T x\) 的指数族分布,因此可以直接得到:
\[ \mathbb{E}[y\mid x] = a'(\eta) = a'(\theta^T x) \]
这一定义给出了输入 \(x\) 与输出期望之间的函数关系。需要注意的是,这一关系并非人为规定,而是由指数族分布与线性预测器假设共同决定的。
在广义线性模型的语境中,函数 \(a'(\cdot)\) 被称为均值函数,它描述了自然参数与输出期望之间的映射。
3.2.4 链接函数与规范链接
为了更清楚地刻画输入与输出之间的关系,通常引入链接函数的概念。链接函数 \(g(\cdot)\) 定义为均值函数的逆函数,即满足:
\[ g(\mathbb{E}[y\mid x]) = \eta \]
在广义线性模型中,由于 \(\eta=\theta^T x\),因此可以写为:
\[ g(\mathbb{E}[y\mid x]) = \theta^T x \]
当链接函数恰好等于自然参数与均值之间的规范关系时,该链接函数被称为规范链接。所谓规范,是指链接函数由指数族分布的自然参数直接给出,而不是人为选择。
例如,在 Bernoulli 分布的情形下,\(\mathbb{E}[y]=\phi\),而自然参数满足 \(\eta=\log\frac{\phi}{1-\phi}\),因此规范链接函数为 logit 函数;在 Gaussian 分布的情形下,\(\mathbb{E}[y]=\mu\) 且 \(\eta=\mu\),因此规范链接函数为恒等映射。
3.2.5 线性回归与逻辑回归作为广义线性模型
通过以上构造可以清楚地看到,线性回归与逻辑回归都可以自然地嵌入到广义线性模型框架中。
在线性回归中,我们选取 Gaussian 分布作为条件分布,其自然参数等于均值,因此有:
\[ \mathbb{E}[y\mid x] = \theta^T x \]
在线逻辑回归中,我们选取 Bernoulli 分布作为条件分布,其自然参数为 log-odds,因此有:
\[ \mathbb{E}[y\mid x] = \frac{1}{1+e^{-\theta^T x}} \]
由此可以看到,两种模型的差异并不来源于预测器形式的随意选择,而是源于所选指数族分布的不同。
3.2.6 广义线性模型的统一结构
综合上述分析,广义线性模型可以被理解为由三个紧密关联的部分组成:条件分布来自指数族,自然参数通过线性预测器与输入相连,输出期望由对数配分函数的导数给出。这一统一结构为后续更复杂的模型奠定了坚实的理论基础。
在后续章节中,我们将看到,这一思想不仅适用于经典的回归与分类模型,也为现代深度学习中的概率建模提供了出发点。
补充
1 关于线性预测器假设 \(\eta=\theta^T x\) 的依据说明
在广义线性模型的构造过程中,一个核心但经常被直接接受的假设是,自然参数 \(\eta\) 与输入 \(x\) 之间满足线性关系,即
\[ \eta = \theta^T x \]
这一假设并不是指数族分布在数学上的必然推论,而是一个有明确建模动机和理论背景的结构性假设。为了正确理解这一点,有必要区分概率论层面能够推出的结论,与模型设计层面所做出的选择。
首先,在指数族分布的理论框架中,我们只是假设在给定某个自然参数 \(\eta\) 的条件下,随机变量 \(y\) 的分布具有指数族形式。由此可以严格推出的结论是,充分统计量的期望满足
\[ \mathbb{E}[T(y)] = a'(\eta) \]
在常见情形下,当 \(T(y)=y\) 时,上式可以写为
\[ \mathbb{E}[y] = a'(\eta) \]
到这一步为止,自然参数 \(\eta\) 仍然是一个抽象参数。概率论本身并没有对 \(\eta\) 如何依赖于输入 \(x\) 作出任何限制。从纯粹的概率角度来看,\(\eta\) 可以是 \(x\) 的任意函数,即
\[ \eta = f(x) \]
在这一层面上,线性形式并非必然选择。
接下来进入模型构造层面。在实际建模中,我们希望在输入空间与分布参数之间建立联系,但往往并没有足够的先验信息来判断哪些非线性结构是必要的。在这种信息不足的情况下,引入尽可能弱的结构假设是一种合理的建模原则。线性函数 \(\theta^T x\) 是在不引入特征之间非线性交互、不偏向任何特定输入维度的前提下,所能采用的最简单形式。因此,线性预测器可以被看作是在缺乏额外结构信息时的“最弱假设”。
此外,线性预测器在统计意义上具有良好的参数可识别性。当自然参数被表示为 \(\eta=\theta^T x\) 时,不同的参数向量 \(\theta\) 对应不同的条件分布,从而避免了多组参数产生同一模型的情形。这一性质对于统计推断和参数估计至关重要。
从优化与计算的角度来看,指数族分布与线性预测器的组合还带来了重要的理论优势。当条件分布属于指数族,且自然参数是参数 \(\theta\) 的线性函数时,对数似然函数通常在 \(\theta\) 上具有良好的凸性或准凸性结构。这意味着极值点更容易分析,梯度法或牛顿法等优化算法具有可靠的收敛性质。若直接采用任意非线性函数 \(f_\theta(x)\),这些良好性质往往会立即丧失。
因此,可以将 \(\eta=\theta^T x\) 理解为在指数族分布框架下,为了同时满足结构最弱、参数可识别以及可优化性等要求而作出的最低复杂度建模选择。它并非概率论强加的结论,而是在理论可解释性与实际可计算性之间取得平衡的结果。
从更高层次的视角来看,广义线性模型可以被视为一条模型复杂度阶梯上的重要节点。在线性预测器假设下,模型已经能够通过指数族分布引入非线性的均值函数;而当进一步放松这一假设,允许 \(\eta\) 成为更一般的函数 \(f_\theta(x)\) 时,就自然过渡到了神经网络等更复杂的模型。这种连续性说明,线性预测器并不是随意的限制,而是概率建模发展中的一个自然中间阶段。