贝叶斯公式:从思想到应用 (Codex测试博客)

贝叶斯公式看似简单,却提供了在不确定性下学习与决策的一套统一范式:用先验表达信念,用似然描述数据如何产生,用后验整合二者并给出不确定性量化。

思想的由来

  • 托马斯·贝叶斯与拉普拉斯奠定了“逆概率”的思想:由结果反推原因。
  • 之后频率学派强调“长程频率”与重复抽样性质,追求无先验的客观程序。
  • 现代贝叶斯在计算工具(MCMC、变分推断)与建模语言的支持下,已能处理高维复杂问题。

频率学派 vs 贝叶斯学派(要点)

  • 概率含义:频率学派视为长期频率;贝叶斯视为合理信念度。
  • 参数本质:频率学派中参数固定未知;贝叶斯中参数具随机性,赋予先验。
  • 推断对象:频率学派给点估计、置信区间、显著性检验;贝叶斯给后验分布、置信(可信)区间与后验预测。

公式及其形态

以参数 (\theta) 与数据 (D) 为例:

\[p(\theta\mid D) = \frac{p(D\mid \theta)\,p(\theta)}{p(D)} \propto p(D\mid \theta)\,p(\theta).\]

分母 (p(D)) 为证据(边际似然):

\begin{equation} \label{eq:evidence} p(D) = \int p(D\mid \theta)\,p(\theta)\,d\theta. \end{equation}

在二分类检验中,常用“胜算”形式:

\[\frac{p(H\mid E)}{p(H^c\mid E)} = \underbrace{\frac{p(E\mid H)}{p(E\mid H^c)}}_{\text{贝叶斯因子}} \cdot \frac{p(H)}{p(H^c)}.\]

诠释小结:

  • “后验 ∝ 似然 × 先验”:数据在先验基础上修正信念。
  • 证据衡量模型对数据的整体解释力,并对复杂模型施加惩罚。
  • 先验等价于正则化:高斯先验≈L2,拉普拉斯先验≈L1;先验平坦时,MAP 逼近 MLE。

共轭示例

1)Beta–二项(硬币正面率)。先验 (\theta\sim \mathrm{Beta}(\alpha,\beta)),观测 n 次中 k 次为正面:

\[\theta\mid D \sim \mathrm{Beta}(\alpha+k,\,\beta+n-k),\quad \mathbb E[\theta\mid D]=\frac{\alpha+k}{\alpha+\beta+n}.\]

2)高斯–高斯(均值未知,方差已知)。先验 (\mu\sim\mathcal N(\mu_0,\tau_0^2)),数据 (x_i\stackrel{iid}{\sim}\mathcal N(\mu,\sigma^2)):

\begin{equation} \label{eq:gauss} \mu\mid D\;\sim\;\mathcal N!\left(\frac{\frac{\mu_0}{\tau_0^2}+\frac{n\bar x}{\sigma^2}}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}},\;\;\frac{1}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}}\right). \end{equation}

实务中的计算

  • 解析:依赖共轭结构与小规模模型。
  • 近似:拉普拉斯近似、期望传播等。
  • 采样:MCMC(MH、HMC/NUTS)适用于一般后验。
  • 优化:变分推断把推断转化为 ELBO 最大化。

典型应用

  • A/B 测试:用 Beta–二项后验比较转化率,置信则决策。
  • 医学诊断:用似然比(贝叶斯因子)更新疾病胜算。
  • 垃圾邮件过滤:朴素贝叶斯按词项似然组合打分。
  • 推荐系统:层级贝叶斯在用户/物品间共享统计强度。
  • 跟踪与控制:卡尔曼滤波是线性–高斯贝叶斯的在线实现。
  • 贝叶斯优化:在高代价实验中用 GP 后验与采集函数选择下一步。

与其他领域的连接

  • 信息论:证据可分解为拟合与复杂度,MDL 与贝叶斯密切相关。
  • 机器学习:先验=正则化;贝叶斯神经网络量化不确定性;dropout 可视为近似贝叶斯集成。
  • 因果推断:把结构性知识作为先验编码到图或效应上。
  • 决策理论:在后验下最小化期望损失,形成一致的决策准则。
  • 金融与风险:动态更新收益与波动率的信念分布。

小结

  • 贝叶斯公式提供了统一的“从数据中学习”的范式。
  • 先验表达约束与结构,后验刻画不确定性并驱动决策。
  • 证据用于模型比较与自动平衡复杂度。

作为参考,式 \eqref{eq:evidence} 源自全概率公式:

\[p(D) = \int p(D,\theta)\,d\theta = \int p(D\mid\theta)\,p(\theta)\,d\theta.\]