写作这篇文章的灵感来源于作者和其朋友 Brian Trippe 在剑桥大学计算与生物学习实验室工作期间对贝叶斯神经网络的研究,作者高度推荐读者朋友阅读其朋友 Brian 关于神经网络中变分推理的论文《Complex Uncertainty in Machine Learning: Bayesian Modeling for Conditional Density Estimation and Synaptic Plasticity》。
通常,只有这个分布的均值才会建模,高斯分布的标准差要么没有建模,要么就是在所有 x 上保持一个常值(constant)。因此,在判别式回归模型中,θ规定了从 x 到高斯分布(y 从中取样得来)均值的一个映射。基本上每当要做出决定时,我们都会选择均值,因为模型能够通过提高标准差来表达哪个 x 是不确定的。
当没有训练数据的时候,一个模型是需要保持不确定的,相反,当有训练数据的时候,模型需要变得确定。上图展示了这样的一个模型,图片来自 Yarin Gal 的博文。