Deep Learning 学习笔记

这里整理我在学习和复盘 deep learning 过程中的技术笔记，重点放在数学基础、生成模型、Transformer 架构和代码实现细节。内容更偏向“把一件事从直觉、公式到实现串起来”，方便之后继续补充、修订和查阅。

深度学习中的数学基础 / Deep Learning Math Foundation 2025.01 Bayes rule, Gaussian distributions, expected value, variance, KL divergence, BCE, transposed convolution, and trace. 这篇主要整理 deep learning 中反复会用到的数学工具，从贝叶斯公式、期望方差、高斯分布推导，到 KL Divergence、BCE Loss 和转置卷积。它更像后续生成模型笔记的基础索引，遇到公式推导时可以回头查。 Generative Models 1: VAE 2025.09 AutoEncoders, VAE derivation, reparameterization trick, Conv-VAE, and VQ-VAE references. 这篇从 AutoEncoder 的直觉出发，解释为什么需要 latent distribution，并推导 VAE 的 ELBO、reconstruction term 和 KL regularization。后半部分连接到 PyTorch 实现、reparameterization trick、Conv-VAE，以及 VQ-VAE 相关工作。 Generative Models 2: GAN 2026.01 GAN intuition, adversarial objectives, alternating training, generator/discriminator structure, and implementation flow. 这篇关注 GAN 的核心思想：Generator 和 Discriminator 如何通过 adversarial training 相互推动。内容包括目标函数直觉、训练不稳定的原因、Generator/Discriminator 的代码结构，以及 alternating training 的实现细节。 Diffusion Models 扩散模型学习 2026.06 DDPM, forward process, reverse process, ELBO, beta schedule, training loss, and sampling. 这篇笔记整理 Diffusion Models 和 DDPM 的核心流程，从 forward process 如何逐步加噪，到 reverse process 如何学习去噪分布，再展开 ELBO 推导、training loss、beta schedule 与 sampling 过程。内容更偏公式推导和直觉解释结合，适合作为生成模型笔记中 diffusion 部分的专题页。 Transformer 学习 / Transformer Study 2026.05 Seq2Seq and RNN review, attention, Transformer encoder-decoder flow, multi-head attention, loss design, and inference. 这篇是对 Transformer 的系统学习记录，从 RNN/Seq2Seq 回顾开始，引出 Attention 和 Self-Attention，再展开 Encoder、Decoder、Multi-Head Attention、mask、loss design 和 inference。它会同时保留公式、图解和 PyTorch 风格代码，适合按流程复盘整个架构。