论文笔记|DDT:Decoupled Diffusion Transformer

现有的去噪模型的一个问题是同一个网络去噪网络同时要“编码”噪声输入来提取低频语义信息,之后通过“解码”获得高频信息。这是一个优化困境(optimization dilemma):编码低频语义必须要减少高频信号。DDT提出将二者解耦,从原来的only-decoder转变为encoder-decoder架构。DDT包含一个Condition Encoder用于低频语义信息的提取,Velocity Decoder用于速度预测生成更高质量的图像。

DDT将Condition Encoder的输出称为self-condition,在此基础上,他们采用了sharing strategy提高推理速度,这通常伴随极小的性能损失。DDT仅训练256个epoch,4倍于REPA的训练速度即可达到1.31的FID。

sharing strategy是指相邻去噪步的生成结果具有一致性(local consistency),假设推理步数N,编码器给定计算成本K,则共享率计算为\(1-(K/N)\)。因此,有\(|\Phi|=K\) 是self-conditon重新计算的时间步的集合:

$$ \[\begin{equation} z_t = \begin{cases} z_{t-{\delta}t}, & \text{if }t \notin \Phi \\ Encoder(x_t, t, y), & \text{if }t \in \Phi \end{cases} \end{equation}\] $$

\(|\Phi|=K\) 通过动态规划求解 ????????