VAE 理论¶
1. \(p_\theta\) 为高斯分布¶
1.1 Variational Autoencoder (VAE) 中关于 \(P_\theta(x|z)\) 是高斯分布的假设¶
在 VAE 的框架中,解码器 \( P_\theta(x|z) \) 通常被假设为 高斯分布。这种假设是 VAE 的基础之一,对模型的重建误差定义和优化目标至关重要。以下是关于这个假设的相关知识。
1.2 为什么假设 \(P_\theta(x|z)\) 为高斯分布?¶
1.2.1 简化问题¶
- 高斯分布是一种连续型概率分布,数学性质良好,易于计算。
- 对于连续型数据(如图像像素值、音频信号等),高斯分布能很好地拟合大多数数据点的波动特性。
1.2.2 符合重建误差的定义¶
- 高斯分布的对数似然具有以下形式:
$$ \log P_\theta(x|z) = -\frac{|x - \mu_\theta(z)|^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) $$
- 这里,\(\mu_\theta(z)\) 是解码器预测的高斯分布均值,\(\sigma^2\) 是方差(通常可以假设为常量或由解码器预测)。
-
最大化 \(\log P_\theta(x|z)\) 等价于最小化均方误差(MSE):
\[ \|x - \mu_\theta(z)\|^2 \]
1.2.3 允许建模数据的不确定性¶
- 假设 \(P_\theta(x|z)\) 为高斯分布,解码器不仅预测重构的均值 \(\mu_\theta(z)\),还可以通过方差 \(\sigma^2_\theta(z)\) 捕捉数据的不确定性。
- 方差的引入有助于避免过度拟合,尤其是在训练数据存在噪声的情况下。
1.3 数学形式¶
1.3.1 解码器分布¶
在 VAE 中,解码器定义为条件概率分布 \(P_\theta(x|z)\),假设为高斯分布:
- \(\mu_\theta(z)\):解码器预测的重构均值,通常由神经网络建模。
- \(\sigma_\theta^2(z)\):解码器预测的重构方差,可以是固定常量,也可以由网络建模。
2. 其他分布¶
2.1 拉普拉斯分布与 \(L_1\) 范数¶
- 假设分布: \(P_\theta(x|z) = \text{Laplace}(x; \mu_\theta(z), b)\)
- 对数似然:
$$ \log P_\theta(x|z) = -\frac{|x - \mu_\theta(z)|_1}{b} - \log(2b) $$
- 损失函数:
$$ L = \frac{1}{b}|x - \mu_\theta(z)|_1 $$
- 对应形式: 绝对误差(MAE)。
2.2 伯努利分布与交叉熵¶
- 假设分布: \(P_\theta(x|z) = \text{Bernoulli}(x; p_\theta(z))\)
- 对数似然:
$$ \log P_\theta(x|z) = x \log p_\theta(z) + (1-x) \log (1-p_\theta(z)) $$
- 损失函数:
$$ L = -[x \log p_\theta(z) + (1-x) \log (1-p_\theta(z))] $$
- 对应形式: 二元交叉熵损失。
2.3 多项分布与多分类交叉熵¶
- 假设分布: \(P_\theta(x|z) = \text{Categorical}(x; \mathbf{p}_\theta(z))\)
- 对数似然:
$$ \log P_\theta(x|z) = \sum_i x_i \log p_{\theta,i}(z) $$
- 损失函数:
$$ L = -\sum_i x_i \log p_{\theta,i}(z) $$
- 对应形式: 多分类交叉熵。
2.4 混合高斯分布¶
- 假设分布: \(P_\theta(x|z) = \sum_k \pi_k \mathcal{N}(x; \mu_k(z), \sigma_k^2(z))\)
- 对数似然:
$$ \log P_\theta(x|z) = \log \sum_k \pi_k \mathcal{N}(x; \mu_k(z), \sigma_k^2(z)) $$
- 特点: 用于多模态数据建模,计算损失需要数值近似。
2.5 总结¶
-
核心思想: 损失函数与概率分布的关系为我们提供了统一的视角,用于设计和优化机器学习模型。常见损失函数(如 MSE、MAE、交叉熵)均可以从对应的分布假设中推导而来。
-
实际应用: 根据数据特性选择合适的分布假设和损失函数可以提高模型的性能。例如:
- 连续值数据适用高斯分布(MSE)。
- 二值数据适用伯努利分布(交叉熵)。
- 稀疏数据适用拉普拉斯分布(MAE)。
2.6 相关论文¶
- 《Auto-Encoding Variational Bayes》
- 作者: Kingma, D.P., Welling, M.
- 链接: https://arxiv.org/abs/1312.6114
-
内容: 提出变分自编码器(VAE),推导出重建误差项与分布假设的关系。
-
《Hybridised Loss Functions for Improved Neural Network Generalisation》
- 作者: Matthew C. Malan 等
- 链接: https://arxiv.org/abs/2204.12241
-
内容: 探讨交叉熵和均方误差的混合损失及其影响。
-
《p-Huber损失函数及其鲁棒性研究》
- 作者: 余博天
- 链接: https://pdf.hanspub.org/AAM20201200000_75579140.pdf
- 内容: 研究 p-Huber 损失在有噪声数据中的表现。