贝叶斯公式：从思想到应用 (Codex测试博客)

贝叶斯公式看似简单，却提供了在不确定性下学习与决策的一套统一范式：用先验表达信念，用似然描述数据如何产生，用后验整合二者并给出不确定性量化。

思想的由来

托马斯·贝叶斯与拉普拉斯奠定了“逆概率”的思想：由结果反推原因。
之后频率学派强调“长程频率”与重复抽样性质，追求无先验的客观程序。
现代贝叶斯在计算工具（MCMC、变分推断）与建模语言的支持下，已能处理高维复杂问题。

频率学派 vs 贝叶斯学派（要点）

概率含义：频率学派视为长期频率；贝叶斯视为合理信念度。
参数本质：频率学派中参数固定未知；贝叶斯中参数具随机性，赋予先验。
推断对象：频率学派给点估计、置信区间、显著性检验；贝叶斯给后验分布、置信（可信）区间与后验预测。

公式及其形态

以参数 (\theta) 与数据 (D) 为例：

\[p(\theta\mid D) = \frac{p(D\mid \theta)\,p(\theta)}{p(D)} \propto p(D\mid \theta)\,p(\theta).\]

分母 (p(D)) 为证据（边际似然）：

\begin{equation} \label{eq:evidence} p(D) = \int p(D\mid \theta)\,p(\theta)\,d\theta. \end{equation}

在二分类检验中，常用“胜算”形式：

\[\frac{p(H\mid E)}{p(H^c\mid E)} = \underbrace{\frac{p(E\mid H)}{p(E\mid H^c)}}_{\text{贝叶斯因子}} \cdot \frac{p(H)}{p(H^c)}.\]

诠释小结：

“后验 ∝ 似然 × 先验”：数据在先验基础上修正信念。
证据衡量模型对数据的整体解释力，并对复杂模型施加惩罚。
先验等价于正则化：高斯先验≈L2，拉普拉斯先验≈L1；先验平坦时，MAP 逼近 MLE。

共轭示例

1）Beta–二项（硬币正面率）。先验 (\theta\sim \mathrm{Beta}(\alpha,\beta))，观测 n 次中 k 次为正面：

\[\theta\mid D \sim \mathrm{Beta}(\alpha+k,\,\beta+n-k),\quad \mathbb E[\theta\mid D]=\frac{\alpha+k}{\alpha+\beta+n}.\]

2）高斯–高斯（均值未知，方差已知）。先验 (\mu\sim\mathcal N(\mu_0,\tau_0^2))，数据 (x_i\stackrel{iid}{\sim}\mathcal N(\mu,\sigma^2))：

\begin{equation} \label{eq:gauss} \mu\mid D\;\sim\;\mathcal N!\left(\frac{\frac{\mu_0}{\tau_0^2}+\frac{n\bar x}{\sigma^2}}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}},\;\;\frac{1}{\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}}\right). \end{equation}

实务中的计算

解析：依赖共轭结构与小规模模型。
近似：拉普拉斯近似、期望传播等。
采样：MCMC（MH、HMC/NUTS）适用于一般后验。
优化：变分推断把推断转化为 ELBO 最大化。

典型应用

A/B 测试：用 Beta–二项后验比较转化率，置信则决策。
医学诊断：用似然比（贝叶斯因子）更新疾病胜算。
垃圾邮件过滤：朴素贝叶斯按词项似然组合打分。
推荐系统：层级贝叶斯在用户/物品间共享统计强度。
跟踪与控制：卡尔曼滤波是线性–高斯贝叶斯的在线实现。
贝叶斯优化：在高代价实验中用 GP 后验与采集函数选择下一步。

与其他领域的连接

信息论：证据可分解为拟合与复杂度，MDL 与贝叶斯密切相关。
机器学习：先验=正则化；贝叶斯神经网络量化不确定性；dropout 可视为近似贝叶斯集成。
因果推断：把结构性知识作为先验编码到图或效应上。
决策理论：在后验下最小化期望损失，形成一致的决策准则。
金融与风险：动态更新收益与波动率的信念分布。

小结

贝叶斯公式提供了统一的“从数据中学习”的范式。
先验表达约束与结构，后验刻画不确定性并驱动决策。
证据用于模型比较与自动平衡复杂度。

作为参考，式 \eqref{eq:evidence} 源自全概率公式：

\[p(D) = \int p(D,\theta)\,d\theta = \int p(D\mid\theta)\,p(\theta)\,d\theta.\]