建物流网站,住房和城乡建设岗位证书,河南网站建设推荐,安徽省所有建设类网站基于对抗扩散模型的无监督医学图像翻译 论文链接#xff1a;https://arxiv.org/abs/2207.08208
项目链接#xff1a;https://github.com/icon-lab/SynDiff
Abstract
通过源-目标模态转换对缺失图像进行补全可以提高医学成像方案的多样性。利用生成对抗网络(GAN)进行一次映…基于对抗扩散模型的无监督医学图像翻译 论文链接https://arxiv.org/abs/2207.08208
项目链接https://github.com/icon-lab/SynDiff
Abstract
通过源-目标模态转换对缺失图像进行补全可以提高医学成像方案的多样性。利用生成对抗网络(GAN)进行一次映射是一种普遍的目标图像合成方法。然而隐式表征图像分布的GAN模型可能会受到样本保真度的限制。本文提出了一种基于对抗扩散建模的新方法SynDiff以提高医学图像翻译的性能。为了捕获图像分布的直接相关性SynDiff利用条件扩散过程逐步将噪声和源图像映射到目标图像上。为了在推理过程中快速准确地进行图像采样在反向扩散方向上采用对抗投影进行大扩散步长。为了能够在未配对的数据集上进行训练设计了一个循环一致的架构该架构具有耦合的扩散和非扩散模块可以在两种模式之间进行双边转换。广泛的评估阐明了SynDiff在多对比MRI和MRI- CT翻译中对竞争GAN和扩散模型的效用。我们的演示表明SynDiff在数量和质量上都优于竞争基线。
I. INTRODUCTION
多模态成像是全面评估人体解剖和功能的关键。个体模式捕获的互补组织信息有助于提高下游成像任务的诊断准确性和性能[10]。不幸的是由于经济和劳动力成本的原因广泛采用多模式协议是一种欺诈行为。医学图像翻译是一种强大的解决方案它涉及在获得的源模态[7]-[10]的指导下合成缺失的目标模态。这种恢复是一个病态的问题给定的非线性变化的组织信号跨越模式[11]-[13]。在这个关键时刻基于学习的方法通过结合非线性数据驱动的先验来改善问题调节[14]- b[17]从而提供了性能飞跃。
基于学习的图像翻译涉及经过训练的网络模型以捕捉目标给定源图像的条件分布的先验[18]–[20]。近年来生成对抗网络(GAN)模型被广泛用于翻译任务因为它们在图像合成方面具有出色的真实感。同时捕获有关目标分布的信息的判别器引导生成器执行从源到目标图像[27]-[31]的一次映射。基于这种对抗机制GAN在许多翻译任务中的最新成果已被报道包括跨MR扫描仪合成[23]多对比度MR合成[21][25][27][32]和跨模态合成[33]-[35]。
虽然功能强大但GAN模型通过生成器-判别器相互作用间接表征目标模态的分布而无需评估似然[36]。这种隐式表征可能会导致学习偏差包括过早收敛和模式崩溃。此外GAN模型通常采用快速的单次采样过程没有中间步骤固有地限制了网络执行映射的可靠性。反过来这些问题会限制合成图像的质量和多样性。作为一种有希望的替代方法最近的计算机视觉研究采用了基于显式似然表征和渐进采样过程的扩散模型来提高无条件生成建模任务[37][38]中的样本保真度。然而扩散方法在医学图像翻译中的潜力在很大程度上仍未得到开发部分原因是图像采样的计算负担和规则扩散模型的不成对训练困难[38]。
在这里我们提出了一种新的对抗扩散模型SynDiff用于医学图像合成以执行高效和高保真的模态转换(图1)。给定源图像SynDiff利用条件扩散来生成目标图像。与常规扩散模型不同SynDiff采用了快速扩散过程和大步长来提高效率。在反向扩散步骤中通过一种新的源条件对抗式投影实现精确采样该投影在源图像的引导下对目标图像样本进行降噪。为了实现无监督学习在两种模式之间设计了一个具有双边耦合扩散和非扩散过程的循环一致架构(图2)。2)综合论证了MRI多对比和MRI-CT的翻译。我们的结果清楚地表明SynDiff相对于竞争GAN和扩散模型的优越性。
Contributions
我们介绍了文献中第一个用于高保真医学图像合成的对抗性扩散模型。我们介绍了第一种基于扩散的无监督医学图像翻译方法该方法可以在源-目标模态的未配对数据集上进行训练。我们提出了一种新的源条件对抗性投影用于捕获大步长上的反向转移概率以实现高效的图像采样。
II. RELATED WORK
为了翻译医学图像条件GAN通过使用对抗损失[23]训练的生成器执行一次源到目标映射。已知对抗性损失项可以提高对组织结构高频细节的灵敏度而不是典型的像素级损失[21]。因此基于GAN的翻译被广泛应用于许多应用中。通过像素损失增强对抗第一组研究考虑了对跨主题[24][26]-[30]匹配的源-目标图像配对集的监督训练。为了提高灵活性其他研究提出了循环一致性或互信息损失以实现对未配对数据[21][33][39]-[44]的无监督学习。一般来说与普通卷积模型[21]相比用GAN合成的目标图像的空间灵敏度和真实感得到了增强。也就是说GAN模型中可能会出现几个问题包括一次性采样过程的较低映射可靠性[37]在生成器得到适当训练之前判别器的过早收敛[31]以及由于模式崩溃导致的较差的表示多样性[36]。反过来这些问题会降低样本质量和多样性限制基于GAN的图像翻译的泛化性能。
作为gan的最新替代品深度扩散模型在计算机视觉的生成建模任务中引起了人们的兴趣[37][38]。扩散模型从纯噪声样本开始通过重复去噪从期望的分布中生成图像样本。去噪是通过神经网络架构进行训练以最大限度地提高数据似然相关。由于逐步随机采样过程和明确的似然表征扩散模型可以提高网络映射的可靠性从而提高样本质量和多样性。鉴于这种潜力基于扩散的方法最近被用于单峰成像任务(unimodal imaging tasks)如图像重建[45]-[49]无条件图像生成[50]异常检测[51][52]。然而这些方法通常是基于无条件扩散过程设计的处理单模态图像。此外目前的方法通常涉及依赖大量推理步骤来精确生成图像的香草扩散模型。这种长时间的采样过程在采用扩散模型时引入了计算挑战。
在这里我们提出了一种新的对抗扩散模型以提高医学图像翻译的效率和性能。注意翻译涉及到给定受试者解剖结构的从源模态到目标模态图像的非线性强度映射[11]。由于底层组织结构在模态之间是共同的源图像包含关键信息以约束合成目标图像[10]中描述的结构。为了提高目标图像的解剖精度SynDiff利用条件扩散过程其中来自实际源图像的高质量结构信息被提供作为反向扩散步骤的条件输入。
为此采用了一种新的源条件对抗式投影该投影在几个大扩散步长上提供高效准确的图像采样。还要注意可靠翻译模型的监督训练需要访问从大量主题中获得的成对源-目标图像[23]。此外由于经济和时间成本的原因对大型人群进行多模式成像具有挑战性。虽然可以通过源模式和目标模式之间的双边扩散过程形成循环一致的架构但规则扩散模型相对缓慢的训练和较差的效率会限制性能[38]。为了提高无监督学习的效率SynDiff利用新颖的循环一致架构中的非扩散模块来生成与训练集中目标图像配对的源图像估计。据我们所知SynDiff是第一个用于医学图像合成的对抗扩散模型也是文献中第一个用于无监督医学图像翻译的基于扩散的方法。基于这些独特的进展我们首次展示了基于扩散建模的多对比MRI和多模态MRI-CT的无监督翻译。
最近的一些研究考虑了扩散模型的改进其部分目的与我们提出的方法相关。在自然图像生成的研究中使用了对抗扩散模型DDGAN来提高反向扩散步骤[53]的效率。DDGAN是一种无条件扩散模型从噪声开始生成随机图像它使用一个对抗发生器来进行反向扩散而不需要源图像的引导。相比之下SynDiff是一种条件扩散模型可以在解剖学的源图像和目标图像之间进行转换。它采用源条件对抗式投影进行反向扩散合成与引导源图像解剖对应的目标图像。除了扩散模块SynDiff还包含一个非扩散模块允许无监督训练。针对自然图像的无监督翻译问题提出了一种非对抗扩散模型UNIT-DDPM[54]。基于源-目标模式共享潜在空间的概念UNIT-DDPM使用并行扩散过程在大量反向步骤中同时为两种模式生成样本从源扩散过程中提取的噪声源图像样本用于目标扩散过程中目标图像的生成。相比之下SynDiff使用对抗性投影在几个步骤中进行有效采样它利用非扩散模块产生的源图像估计为合成提供高质量的解剖指导。最近的一项研究独立考虑了一种基于条件评分的方法UMM-CGSM用于在多对比MRI协议[55]中插入缺失序列。UMM-CGSM采用非对抗模型推理步骤相对较多并对源-目标图像的成对数据集进行监督训练。相比之下SynDiff采用了一种对抗扩散模型以便在几步内进行有效的采样它还可以进行无监督学习。 III. THEORY A. 去噪扩散模型
规则扩散模型在纯噪声样本和实际图像之间通过T个时间步长的渐进过程映射(图1a)。在正向方向上少量的高斯噪声被反复添加到输入图像 x 0 ∼ q ( x 0 ) x_0 \sim q(x_0) x0∼q(x0)上以从各向同性高斯分布中获得足够大的T的样本 x T x_T xT。正向扩散形成马尔可夫链其中从 x t − 1 x_{t−1} xt−1到 x t x_t xt的映射和各自的正向转移概率为 x t 1 − β t x t − 1 β t ϵ , ϵ ∼ N ( 0 , I ) q ( x t ∣ x t − 1 ) N ( x t ; 1 − β t x t − 1 , β t I ) \begin{align} \boldsymbol{x}_{t}\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1}\sqrt{\beta_{t}}\boldsymbol{\epsilon},\quad\boldsymbol{\epsilon}\sim\mathcal{N}\left(\boldsymbol{0},\boldsymbol{I}\right) \tag{1} \\ q\left(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-1}\right)\mathcal{N}\left(\boldsymbol{x}_{t};\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1},\beta_{t}\boldsymbol{I}\right)\tag{2} \end{align} xt1−βt xt−1βt ϵ,ϵ∼N(0,I)q(xt∣xt−1)N(xt;1−βt xt−1,βtI)(1)(2) 其中 β t β_t βt为噪声方差 λ λ λ为添加噪声 N \mathcal{N} N为高斯分布 I I I为单位协方差矩阵。反向扩散也形成了从 x T x_T xT到 x 0 x_0 x0的马尔可夫链尽管每一步都是为了逐渐去噪样本。在大T、小 β t β_t βt条件下 x t − 1 x_{t−1} xt−1与 x t x_t xt之间的反向跃迁概率近似为高斯分布[56][57] q ( x t − 1 ∣ x t ) : N ( x t − 1 ; μ ( x t , t ) , Σ ( x t , t ) ) (3) q(\boldsymbol{x}_{t-1}|\boldsymbol{x}_{t}):\mathcal{N}(\boldsymbol{x}_{t-1};\boldsymbol{\mu}(\boldsymbol{x}_{t},t),\boldsymbol{\Sigma}(\boldsymbol{x}_{t},t)) \tag{3} q(xt−1∣xt):N(xt−1;μ(xt,t),Σ(xt,t))(3) 扩散模型通常将每个反向扩散步骤操作为通过神经网络的映射该神经网络提供 μ μ μ和/或 Σ Σ Σ的估计。然后通过最小化对数似然的变分界来执行训练 L v b E q ( x 0 ⋅ T ) [ l o g p θ ( x 0 : T ) q ( x 1 ⋅ T ∣ x 0 ) ] ≤ E q ( x 0 ) [ l o g p θ ( x 0 ) ] (4) L_{vb}\mathbb{E}_{q(\boldsymbol{x}_0\cdot T)}\left[log\frac{p_\theta(\boldsymbol{x}_0:T)}{q(\boldsymbol{x}_1\cdot T|\boldsymbol{x}_0)}\right]\leq\mathbb{E}_{q(\boldsymbol{x}_0)}[log p_{\boldsymbol{\theta}}(\boldsymbol{x}_0)] \tag{4} LvbEq(x0⋅T)[logq(x1⋅T∣x0)pθ(x0:T)]≤Eq(x0)[logpθ(x0)](4) 式中 E q \mathbb{E}_{q} Eq为对 q q q的期望 p θ p_θ pθ为输入变量联合分布的网络参数化 θ θ θ为网络参数 x 0 : T x_{0:T} x0:T表示时间步长0到T之间的图像样本集合 x 1 : T ∣ x 0 x_{1:T}|x_0 x1:T∣x0表示时间步长1到T之间的图像样本以时间步长0的样本为条件。边界可以分解为 L v b l o g p θ ( x 0 ∣ x 1 ) − ∑ t 1 T K L ( q ( x t − 1 ∣ x t , x 0 ) ∣ ∣ p θ ( x t − 1 ∣ x t ) ) (5) \begin{array}{rcl}L_{vb}log p_{\boldsymbol{\theta}}(\boldsymbol{x}_0|\boldsymbol{x}_1)\\ -\sum_{t1}^T KL(q(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)||p_{\boldsymbol{\theta}}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t))\end{array} \tag{5} Lvblogpθ(x0∣x1)−∑t1TKL(q(xt−1∣xt,x0)∣∣pθ(xt−1∣xt))(5) 式中KL为Kullback-Leibler散度由于不依赖于θ故省略 K L ( q ( x T ∣ x 0 ) ∣ ∣ p ( x T ) ) KL(q(x_T |x_0) || p(x_T)) KL(q(xT∣x0)∣∣p(xT))。一个常见的参数化忽略了 Σ Σ Σ来关注 µ µ µ μ θ ( x t , t ) 1 ψ t ( x t − β t 1 − ψ ‾ t ϵ θ ( x t , t ) ) (6) \boldsymbol{\mu_\theta}(\boldsymbol{x}_t,t)\frac{1}{\sqrt{\psi_t}}\left(\boldsymbol{x}_t-\frac{\beta_t}{\sqrt{1-\overline{\psi}_t}}\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t)\right) \tag{6} μθ(xt,t)ψt 1 xt−1−ψt βtϵθ(xt,t) (6) 其中 ψ t 1 − β t ψ_t 1 - β_t ψt1−βt ψ ‾ t ∏ r [ 0 , 1 , . . . , t ] ψ r \overline{{\psi}}_{t}\prod_{r[0,1,...,t]}\psi_{r} ψt∏r[0,1,...,t]ψr。在公式6中如果使用网络通过最小化以下损失[58]来估计附加噪声 λ λ λ则可以推导出 µ θ µ_θ µθ L e r r E t , x 0 , ϵ [ ∥ ϵ − ϵ θ ( α ‾ t x 0 1 − α ‾ t ϵ , t ) ∥ 2 2 ] (7) L_{err}\mathbb{E}_{t,\boldsymbol{x}_0,\boldsymbol{\epsilon}}\left[\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\sqrt{\overline{\alpha}}_t\boldsymbol{x}_0\sqrt{1-\overline{\alpha}}_t\boldsymbol{\epsilon},t)\|_2^2\right] \tag{7} LerrEt,x0,ϵ[∥ϵ−ϵθ(α tx01−α tϵ,t)∥22](7) 其中 t t t x 0 x_0 x0和 λ λ λ分别从离散均匀分布 U ( 0 , t ) U(0, t) U(0,t) q ( x 0 ) q(x_0) q(x0)和 N ( 0 , I ) \mathcal{N} (0, I) N(0,I)中采样。在推理过程中从随机样本 x T ∼ N ( 0 , I ) x_T \sim \mathcal{N} (0, I) xT∼N(0,I)开始执行反向扩散步骤。对于每个步骤 t ∈ T … 1 t∈T…1 t∈T…1 µ µ µ是基于网络估计 ϵ θ ϵ_θ ϵθ使用公式 6推导出来的 x t − 1 x_{t−1} xt−1是基于公式3采样的。
B. SynDiff
在这里我们介绍了一种新的扩散模型用于在给定解剖结构的源和目标模式之间进行高效高保真的转换。
SynDiff使用了一个带有源条件对抗式投影的扩散模块用于快速准确的反向扩散采样(图1b)。 它还使用了一个非扩散模块来估计与相应目标图像配对的源图像从而实现无监督学习(图2)。 下面详细介绍了构成扩散模块基础的对抗扩散过程、网络架构和SynDiff的学习过程。
1) 对抗性扩散过程(Adversarial Diffusion Process)常规扩散模型规定了相对较大的T使得步长足够小以满足公式3中的正态性假设但这限制了图像生成的效率。在这里我们建议采用以下步骤进行快速扩散 x t 1 − γ t x t − k γ t ϵ q ( x t ∣ x t − k ) N ( x t ; 1 − γ t x t − k , γ t I ) \begin{align} \boldsymbol{x}_{t}\sqrt{1-\gamma_{t}}\boldsymbol{x}_{t-k}\sqrt{\gamma_{t}}\boldsymbol{\epsilon} \tag{8} \\ q(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-k})\mathcal{N}\left(\boldsymbol{x}_{t};\sqrt{1-\gamma_{t}}\boldsymbol{x}_{t-k},\gamma_{t}\boldsymbol{I}\right) \tag{9} \end{align} xt1−γt xt−kγt ϵq(xt∣xt−k)N(xt;1−γt xt−k,γtI)(8)(9) 其中 k 1 k1 k1是步长。噪声方差 γ t γ_t γt设为 γ t 1 − e β ‾ min k T − ( β ‾ max − β ‾ min ) 2 t k − k 2 2 T 2 (10) \gamma_t1-\mathrm{e}^{\overline{\beta}_{\min}\frac{k}{T}-(\overline{\beta}_{\max}-\overline{\beta}_{\min})\frac{2tk-k^2}{2T^2}} \tag{10} γt1−eβminTk−(βmax−βmin)2T22tk−k2(10) β ‾ min \overline{\beta}_{\min} βmin和 β ‾ max \overline{\beta}_{\max} βmax控制着噪声方差在指数调度[59]中的进展。
在医学图像翻译过程中源图像(y)的引导是可用的因此提出了一种反向扩散方向的条件过程。注意对于 k 1 k 1 k1, q ( x t − k ∣ x t , y ) q(x_{t−k}|x_t, y) q(xt−k∣xt,y)没有封闭形式表达式用于计算公式4的正态性假设打破了[38]。在这里我们引入了一种新的源-条件对抗性投影以捕获条件扩散模型中大 k k k的复杂转移概率 q ( x t − k ∣ x t , y ) q(x_{t−k}|x_t, y) q(xt−k∣xt,y)灵感来自最近一篇关于使用对抗性学习捕获 q ( x t − k ∣ x t ) q(x_{t−k}|x_t) q(xt−k∣xt)[53]无条件生成自然图像的报告。在SynDiff中条件生成器 G θ ( x t , y , t ) G_θ(x_t, y, t) Gθ(xt,y,t)在每一个反向步骤中逐步去噪合成出 x ^ t − k ∼ p θ ( x t − k ∣ x t , y ) \hat{x}_{t - k} \sim p_θ(x_{t - k}|x_t, y) x^t−k∼pθ(xt−k∣xt,y)。 G θ G_θ Gθ接收图像对 ( x t , y ) (x_t,y) (xt,y)作为双通道输入提取中间特征映射 f i f_i fi其中 i ∈ [ 1 , … , N ] i∈[1,…,N] i∈[1,…,N]是编解码器结构[59]中的子块索引。给定 t t t计算可学习的时间嵌入 m m m并将该嵌入作为通道特定的偏置项添加到每个子块[59]中的特征映射上 f i ′ f i m f_i f_i m fi′fim。同时判别器 D θ ( { x ^ t − k o r x t − k } , x t , t ) D_{\boldsymbol{\theta}}(\{{\hat{\boldsymbol{x}}}_{t-k}{\mathrm{~or~}}\boldsymbol{x}_{t-k}\},\boldsymbol{x}_{t},t) Dθ({x^t−k or xt−k},xt,t)区分从估计的和真实的去噪分布 ( p θ ( x t − k ∣ x t , y ) v s . q ( x t − k ∣ x t , y ) ) (p_θ(x_{t−k}|x_t, y) vs. q(x_{t−k}|x_t, y)) (pθ(xt−k∣xt,y)vs.q(xt−k∣xt,y))中提取的样本。 D θ D_θ Dθ接收 ( x t , x ^ t − k ) (x_t,\hat{x}_{t−k}) (xt,x^t−k)或 ( x t , x t − k ) (x_t,x_{t−k}) (xt,xt−k)作为双通道输入。时间嵌入 m m m也作为偏置项添加到跨 D θ D_θ Dθ的特征映射上。对 G θ G_θ Gθ[60]采用不饱和对抗损失 L G θ E t , q ( x t ∣ x 0 , y ) , p θ ( x t − k ∣ x t , y ) [ − l o g ( D θ ( x ^ t − k ) ) ] (11) L_{G_{\boldsymbol{\theta}}}\mathbb{E}_{t,q(\boldsymbol{x}_{t}|\boldsymbol{x}_{0},\boldsymbol{y}),p_{\boldsymbol{\theta}}(\boldsymbol{x}_{t-k}|\boldsymbol{x}_{t},\boldsymbol{y})}[-log(D_{\boldsymbol{\theta}}(\hat{\boldsymbol{x}}_{t-k}))] \tag{11} LGθEt,q(xt∣x0,y),pθ(xt−k∣xt,y)[−log(Dθ(x^t−k))](11) 其中 t U ( 0 , k , … , T ) t ~ U({0, k,…, T}) t U(0,k,…,T)为简洁起见对判别器参数进行了缩写。 D θ D_θ Dθ也采用具有梯度惩罚的非饱和对抗损失[61] L D θ E t , q ( x t ∣ x 0 , y ) [ E q ( x t − k ∣ x t , y ) [ − log ( D θ ( x t − k ) ) ] E p θ ( x t − k ∣ x t , y ) [ − log ( 1 − D θ ( x ^ t − k ) ) ] η E q ( x t − k ∣ x t , y ) ∥ ∇ x t − k D θ ( x t − k ) ∥ 2 2 ] (12) \begin{array}{r} L_{D_{\boldsymbol{\theta}}}\mathbb{E}_{t, q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_0, \boldsymbol{y}\right)}\left[\mathbb{E}_{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left[-\log \left(D_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k}\right)\right)\right]\right. \\ \mathbb{E}_{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left[-\log \left(1-D_{\boldsymbol{\theta}}\left(\hat{\boldsymbol{x}}_{t-k}\right)\right)\right] \\ \left.\eta \mathbb{E}_{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left\|\nabla_{\boldsymbol{x}_{t-k}} D_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k}\right)\right\|_2^2\right] \end{array} \tag{12} LDθEt,q(xt∣x0,y)[Eq(xt−k∣xt,y)[−log(Dθ(xt−k))]Epθ(xt−k∣xt,y)[−log(1−Dθ(x^t−k))]ηEq(xt−k∣xt,y)∥∇xt−kDθ(xt−k)∥22](12) 其中 η η η是梯度惩罚的权值。
公式11-12的求值需要从未知的 q ( x t − k ∣ x t , y ) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right) q(xt−k∣xt,y)中采样。同样, x 0 x_0 x0和 y y y是同一解剖结构的非线性相关图像 x t x_t xt在给定 x 0 x_0 x0的情况下与 y y y条件无关。因此如果从特定 y y y到 x 0 x_0 x0的非线性映射是内射的(即一对一)则反转概率可以表示为 q ( x t − k ∣ x t , x 0 , y ) q ( x t − k ∣ x t , x 0 ) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0, \boldsymbol{y}\right)q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right) q(xt−k∣xt,x0,y)q(xt−k∣xt,x0)[38]。然后可以使用贝叶斯规则来根据前向转移概率来表示去噪分布 q ( x t − k ∣ x t , x 0 ) q ( x t ∣ x t − k , x 0 ) q ( x t − k ∣ x 0 ) q ( x t ∣ x 0 ) (13) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right)q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-k}, \boldsymbol{x}_0\right) \frac{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_0\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_0\right)} \tag{13} q(xt−k∣xt,x0)q(xt∣xt−k,x0)q(xt∣x0)q(xt−k∣x0)(13) 利用公式8可以得到 q ( x t − k ∣ x t , x 0 ) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right) q(xt−k∣xt,x0) N ( x t − k ; μ ‾ ( x t , x 0 ) , γ ˉ I ) \mathcal{N}\left(\boldsymbol{x}_{t-k} ; \overline{\boldsymbol{\mu}}\left(\boldsymbol{x}_t, \boldsymbol{x}_0\right), \bar{\gamma} \boldsymbol{I}\right) N(xt−k;μ(xt,x0),γˉI)参数如下 μ ‾ α ˉ t − k γ t 1 − α ˉ t x 0 α t ( 1 − α ˉ t − k ) 1 − α ˉ t x t , γ ˉ 1 − α ˉ t − k 1 − α ˉ t γ t (14) \overline{\boldsymbol{\mu}}\frac{\sqrt{\bar{\alpha}_{t-k}} \gamma_t}{1-\bar{\alpha}_t} \boldsymbol{x}_0\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-k}\right)}{1-\bar{\alpha}_t} \boldsymbol{x}_t, \bar{\gamma}\frac{1-\bar{\alpha}_{t-k}}{1-\bar{\alpha}_t} \gamma_t \tag{14} μ1−αˉtαˉt−k γtx01−αˉtαt (1−αˉt−k)xt,γˉ1−αˉt1−αˉt−kγt(14) 其中 α t 1 − γ t \alpha_t1-\gamma_t αt1−γt 和 α ˉ t ∏ r [ 0 , k , … , t ] α r \bar{\alpha}_t\prod_{r[0, k, \ldots, t]} \alpha_r αˉt∏r[0,k,…,t]αr。
公式11-12也需要从网络参数化去噪分布 p θ ( x t − k ∣ x t , y ) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right) pθ(xt−k∣xt,y)中采样。一个平凡的尽管是确定性的样本将是生成器输出即 x ^ t − k ∼ δ ( x t − k − G θ ( x t , y , t ) ) \hat{\boldsymbol{x}}_{t-k} \sim \delta\left(\boldsymbol{x}_{t-k}-G_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, \boldsymbol{y}, t\right)\right) x^t−k∼δ(xt−k−Gθ(xt,y,t))。为了保持随机性我们将生成器分布改为如下操作 p θ ( x t − k ∣ x t , y ) : q ( x t − k ∣ x t , x ~ 0 G θ ( x t , y , t ) ) (15) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right):q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \tilde{\boldsymbol{x}}_0G_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, \boldsymbol{y}, t\right)\right) \tag{15} pθ(xt−k∣xt,y):q(xt−k∣xt,x~0Gθ(xt,y,t))(15) 其中 G θ G_{\boldsymbol{\theta}} Gθ预测了 x ~ 0 \tilde{\boldsymbol{x}}_0 x~0即 t / k t / k t/k离 x t \boldsymbol{x}_t xt的距离。在总共 T / k T / k T/k个反向扩散步骤之后将通过采样 x ^ 0 ∼ p θ ( x 0 ∣ x k , y ) \hat{\boldsymbol{x}}_0 \sim p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_k, \boldsymbol{y}\right) x^0∼pθ(x0∣xk,y)获得最终的去噪图像。
2) 网络架构为了合成目标模态图像公式15中参数化的反向扩散步骤需要同一解剖结构的源模态图像的指导。然而对于模态A, B训练集可能分别只包括未配对的图像 x 0 A x^A_0 x0A, x 0 B x^B_0 x0B。为了从未配对的训练集中学习我们引入了一个基于非扩散和扩散模块的循环一致架构该架构在两种模式之间双向转换。
Non-diffusive模块。SynDiff利用非扩散模块来估计与训练集中每个目标图像配对的源图像。给定模态A的目标图像 x 0 A x^A_0 x0A产生模态B的源图像估计 y ~ B \tilde{y}^B y~B给定目标图像 x 0 B x^B_0 x0B产生源图像估计 y ~ A \tilde{y}^ A y~A。为了做到这一点[21]使用了两个带参数 ϕ A , B {\phi^{A,B}} ϕA,B的发生器-判别器对 ( G ϕ A , D ϕ A ) (G_{\phi^{A}},D_{\phi^{A}}) (GϕA,DϕA)和 ( G ϕ B , D ϕ B ) (G_{\phi^{B}},D_{\phi^{B}}) (GϕB,DϕB)。生成器产生估算值 y ~ A , B \tilde{y}^{A,B} y~A,B为 y ~ B G ϕ B ( x 0 A ) y ~ A G ϕ A ( x 0 B ) (16) \begin{aligned} \tilde{\boldsymbol{y}}^BG_{\phi^B}(\boldsymbol{x}_0^A)\\\tilde{\boldsymbol{y}}^AG_{\phi^A}(\boldsymbol{x}_0^B) \end{aligned} \tag{16} y~By~AGϕB(x0A)GϕA(x0B)(16) 对 G ϕ A , B G_{\phi^{A,B}} GϕA,B采用非饱和对抗损失 L G ϕ E p ϕ ( y ∣ x 0 ) [ − l o g ( D ϕ ( y ~ ) ) ] (18) L_{G_{\phi}}\mathbb{E}_{p_{\phi}(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(D_{\boldsymbol{\phi}}(\tilde{\boldsymbol{y}}))] \tag{18} LGϕEpϕ(y∣x0)[−log(Dϕ(y~))](18) 其中 p φ ( y ∣ x 0 ) p_φ (y|x_0) pφ(y∣x0)表示给定目标图像的源的条件分布的网络参数化为简洁起见省略对判别器的条件输入 x 0 x_0 x0。同时判别器通过采用非饱和对抗损失来区分估计样本与真实源图像 L D ϕ E q ( y ∣ x 0 ) [ − l o g ( D ϕ ( y ) ) ] E p ϕ ( y ∣ x 0 ) [ − l o g ( 1 − D ϕ ( y ~ ) ) ] (18) \begin{array}{rl}{{L_{D_{\phi}}}}{{\mathbb{E}_{q(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(D_{\boldsymbol{\phi}}(\boldsymbol{y}))]}}\\{{\mathbb{E}_{p_{\boldsymbol{\phi}}(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(1-D_{\boldsymbol{\phi}}(\tilde{\boldsymbol{y}}))]}}\end{array} \tag{18} LDϕEq(y∣x0)[−log(Dϕ(y))]Epϕ(y∣x0)[−log(1−Dϕ(y~))](18) 其中 q ( y ∣ x 0 ) q(y|x_0) q(y∣x0)为给定目标图像的源的真实条件分布。注意对于 D ϕ B D_ϕ^B DϕB y y y对应于 x 0 B x^B_0 x0B条件输入为 x 0 A x^A_0 x0A而对于 D ϕ A D_ϕ^A DϕA y y y对应于 x 0 A x^A_0 x0A条件输入为 x 0 B x^B_0 x0B。
扩散模块。然后SynDiff利用扩散模块合成目标图像给出来自非扩散模块的源图像估计作为指导。给定 y ~ B \tilde{y}^B y~B生成合成目标图像 x ^ A \hat{x}^A x^A给定 y ~ A \tilde{y}^A y~A产生合成目标图像 x ^ B \hat{x}^B x^B。为此使用两个对抗性扩散过程分别使用参数 θ A , B θ^{A,B} θA,B的生成-判别器对 ( G θ A , D θ A ) (G_θ^A,D_θ^A) (GθA,DθA)和 ( G θ B , D θ B ) (G_θ^B,D_θ^B) (GθB,DθB)。以时间步长为T的高斯噪声图像 x T A , B x^{A,B}_T xTA,B以 T / k T /k T/k个反向扩散步合成目标图像。在每一步中生成器首先产生去噪目标图像的确定性估计如第III-B.1节所述 x ~ 0 A G θ A ( x t A , y y ~ B , t ) x ~ 0 B G θ B ( x t B , y y ~ A , t ) (19) \begin{aligned}\tilde{\boldsymbol{x}}_0^AG_{\boldsymbol{\theta}^A}(\boldsymbol{x}_t^A,\boldsymbol{y}\tilde{\boldsymbol{y}}^B,t)\\\tilde{\boldsymbol{x}}_0^BG_{\boldsymbol{\theta}^B}(\boldsymbol{x}_t^B,\boldsymbol{y}\tilde{\boldsymbol{y}}^A,t)\end{aligned} \tag{19} x~0Ax~0BGθA(xtA,yy~B,t)GθB(xtB,yy~A,t)(19) 然后利用公式15中描述的各模态去噪分布对目标图像进行合成 x ^ t − k A ∼ q ( x t − k A ∣ x t A , x ~ 0 A ) x ^ t − k B ∼ q ( x t − k B ∣ x t B , x ~ 0 B ) (20) \begin{array}{l}\hat{\boldsymbol{x}}_{t-k}^A\sim q(\boldsymbol{x}_{t-k}^A|\boldsymbol{x}_t^A,\tilde{\boldsymbol{x}}_0^A)\\\hat{\boldsymbol{x}}_{t-k}^B\sim q(\boldsymbol{x}_{t-k}^B|\boldsymbol{x}_t^B,\tilde{\boldsymbol{x}}_0^B)\end{array} \tag{20} x^t−kA∼q(xt−kA∣xtA,x~0A)x^t−kB∼q(xt−kB∣xtB,x~0B)(20) 3) 学习过程为了实现无监督学习SynDiff通过将真实目标图像与其重建图像进行比较来利用循环一致性损失。在扩散模块中将重建图像作为合成目标图像在非扩散模块中源图像估计通过生成器投影到目标域 x ˇ 0 A G ϕ A ( y ~ B ) x ˇ 0 B G ϕ B ( y ~ A ) (21) \begin{matrix}\check{\boldsymbol{x}}_0^AG_{\boldsymbol{\phi}^A}(\tilde{\boldsymbol{y}}^B)\\\check{\boldsymbol{x}}_0^BG_{\boldsymbol{\phi}^B}(\tilde{\boldsymbol{y}}^A)\end{matrix} \tag{21} xˇ0AGϕA(y~B)xˇ0BGϕB(y~A)(21) 其中 x ~ 0 A , B \tilde{x}^{A, B}_0 x~0A,B为对应的重构图。然后将循环一致性损失定义为 L c y c E t , q ( x 0 A , B ) , q ( x t A , B ∣ x 0 A , B ) [ λ 1 ϕ ( ∥ x 0 A − x ˘ 0 A ∥ 1 ∥ x 0 B − x ˘ 0 B ∥ 1 ) λ 1 θ ( ∥ x 0 A − x ^ 0 A ∥ 1 ∥ x 0 B − x ^ 0 B ∥ 1 ) ] (22) \begin{aligned} L_{\mathrm{cyc}}\mathbb{E}_{t, q\left(\boldsymbol{x}_0^{A, B}\right), q\left(\boldsymbol{x}_t^{A, B} \mid \boldsymbol{x}_0^{A, B}\right)}\left[\lambda _ { 1 \phi } \left(\left\|\boldsymbol{x}_0^A-\breve{\boldsymbol{x}}_0^A\right\|_1\right.\right. \\ \left.\left.\left\|\boldsymbol{x}_0^B-\breve{\boldsymbol{x}}_0^B\right\|_1\right)\lambda_{1 \theta}\left(\left\|\boldsymbol{x}_0^A-\hat{\boldsymbol{x}}_0^A\right\|_1\left\|\boldsymbol{x}_0^B-\hat{\boldsymbol{x}}_0^B\right\|_1\right)\right] \end{aligned} \tag{22} LcycEt,q(x0A,B),q(xtA,B∣x0A,B)[λ1ϕ( x0A−x˘0A 1 x0B−x˘0B 1)λ1θ( x0A−x^0A 1 x0B−x^0B 1)](22) 其中 λ 1 ϕ , 1 θ λ_{1ϕ,1θ} λ1ϕ,1θ分别为来自非扩散模和扩散模的循环一致性损失项的权值取两幅图像差的L1-范数作为一致性度量[21]。扩散模块和非扩散模块在没有任何预训练过程的情况下进行联合训练。因此生成器的总损失为 L G total λ 2 ϕ ( L G ϕ A L G ϕ B ) λ 2 θ ( L G θ A L G θ B ) L c y c (23) L_G^{\text {total }}\lambda_{2 \phi}\left(L_{G_\phi^A}L_{G_\phi^B}\right)\lambda_{2 \theta}\left(L_{G_\theta^A}L_{G_\theta^B}\right)L_{\mathrm{cyc}} \tag{23} LGtotal λ2ϕ(LGϕALGϕB)λ2θ(LGθALGθB)Lcyc(23) 其中 λ 2 ϕ , 2 θ λ_{2ϕ,2θ} λ2ϕ,2θ分别是来自非扩散模块和扩散模块的对抗性损失项的权重对于每个模态 L G ϕ L_{G_\phi} LGϕ定义如公式17, L G θ L_{G_\theta} LGθ定义如公式 11。总的判别器损失为 L D total λ 2 ϕ ( L D ϕ A L D ϕ B ) λ 2 θ ( L D θ A L D θ B ) (24) L_D^{\text {total }}\lambda_{2 \phi}\left(L_{D_\phi^A}L_{D_\phi^B}\right)\lambda_{2 \theta}\left(L_{D_\theta^A}L_{D_\theta^B}\right) \tag{24} LDtotal λ2ϕ(LDϕALDϕB)λ2θ(LDθALDθB)(24) 其中 L D ϕ L_{D_\phi} LDϕ定义如公式18, L D θ L_{D_\theta} LDθ定义如公式12。
在训练过程中必须使用非扩散模块来产生与给定目标图像配对的源图像的估计。然而在推理过程中任务是在给定已获取的解剖学源图像的情况下合成未获取的目标图像因此只需要扩散模块中执行所需任务的相应生成器。例如为了进行A→B(即源→目标)的映射使用 G θ B ( x t B , y A , t ) G_{\boldsymbol{\theta}^B}\left(\boldsymbol{x}_t^B, \boldsymbol{y}^A, t\right) GθB(xtB,yA,t)其中 x t B \boldsymbol{x}_t^B xtB是在时间步长t时模态B的目标图像样本 y A \boldsymbol{y}^A yA是作为输入提供的模态A的获取的源图像。从时间步长T开始推理从 N ( 0 , I ) \mathcal{N}(\mathbf{0}, \boldsymbol{I}) N(0,I)中提取高斯噪声样本 x T B \boldsymbol{x}_T^B xTB并将每个反向扩散步骤结束时产生的带噪声目标图像样本作为下一步的输入目标图像样本。按照公式19-20所示共进行 T / k T / k T/k次反向扩散步骤以在时间步长0处获得合成目标图像的 x ^ 0 B \hat{\boldsymbol{x}}_0^B x^0B。
IV. METHODS
A. 数据集
我们在两个多对比脑MRI数据集(IXI1, BRA TS[62])和多模态骨盆MRI数据集[63]上验证了SynDiff。在每个数据集中执行三向分裂以创建无主题重叠的训练验证和测试集。虽然所有的无监督医学图像翻译模型都是在未配对的图像上训练的但性能评估需要存在配对注册的源-目标卷。因此在验证和测试集中给定受试者的单独体积在空间上进行配对注册以便计算定量指标。FSL通过仿射变换和互信息损失实现配准[64]。在每个受试者中每个成像体积分别归一化为平均强度1。然后将受试者之间的最大体素强度归一化为1以确保强度范围为[0,1]。在建模之前为了在所有数据集中获得一致的256×256图像大小需要对横截面图像进行零填充。
1) IXI数据集对40名健康受试者的T1-、T2-、PD-加权图像进行分析其中(25、5、10)名受试者保留用于(训练、验证、测试)。T2和PD体素被配对注册到验证/测试集中的T1卷上。每名受试者取100张脑组织轴向横切面。扫描参数T1为TE4.6ms, TR9.81msT2时TE100ms, TR8178.34msPD图像TE8ms, TR8178.34ms共同的空间分辨率0.94×0.94×1.2mm3。
2) BRA TS数据集对55例胶质瘤患者的T1- T2-流体衰减反转恢复(FLAIR)加权脑MR图像进行分析(训练验证测试)分割(25,10,20)名受试者。T2和FLAIR卷被注册到验证/测试集中的T1卷上。在每个受试者中选择100个包含脑组织的轴向横切面。不同的扫描协议在不同的机构使用。
3) 骨盆MRI-CT数据集对15名受试者的骨盆T1、T2加权MRI和CT图像进行分析对(9,2,4)名受试者进行(训练、验证、测试)分割。在验证/测试集中T1和CT体积被注册到T2体积上。在每个受试者中选取90个轴向截面。对于T1扫描规定TE7.2ms, TR500-600ms, 0.88×0.88×3mm3分辨率或TE4.77ms, TR7.46ms, 1.10×1.10×2mm3分辨率。T2扫描规定TE97ms, TR60006600ms分辨率0.88×0.88×2.50mm3或TE91-102ms, TR 12000-16000ms分辨率0.88-1.10×0.88-1.10×2.50mm3。对于CT扫描规定0.10×0.10×3mm3分辨率KernelB30f或0.10×0.10×2mm3分辨率KernelFC17。为了实现加速MRI扫描的合成任务[65][66]对全采样MRI数据在二维上进行回顾性欠采样4倍以16倍加速速率获得低分辨率图像[65]。
B. 对比方法
我们针对几种最先进的非注意GAN、注意GAN和扩散模型阐明SynDiff。
所有竞争的方法都对未配对的源和目标模态进行无监督学习。对于每个模型执行超参数选择以最大化验证集上的性能。在翻译任务中选择了一组通用参数这些参数在保持高空间敏锐度的同时提供了近乎最佳的定量性能。所选参数包括训练次数、优化器的学习率和每个模型的损失项权重。此外还选择了扩散模型的步长。
1) SynDiff在非扩散模块中生成器使用具有3个编码、6个残差和3个解码块的ResNet主干[67]判别器使用带有两个卷积层的六个块然后进行两次空间下采样。在扩散模块中生成器使用具有六个编码和解码块的UNet主干[68]。每个块有两个残差子块后面跟着一个卷积层。对于编码卷积层的特征映射分辨率减半通道维数每隔一个块增加一倍。对于解码卷积层的分辨率翻倍通道维数每隔一个块减半。残差子锁通过一个双层多层感知器(MLP)[59]对32维正弦位置编码进行时域嵌入。他们还从三层MLP接收256维随机潜在空间通过自适应归一化调制特征映射[69]。判别器使用六个具有两个卷积层的块然后进行两次下采样并将时间嵌入添加到每个块的特征映射上。交叉验证的超参数为50 epoch, 10−4学习率µ0.5T 1000步长k250T /k4扩散步长。循环一致性和对抗损失项的权重分别为 λ 1 ϕ , 1 θ 0.5 λ_{1ϕ,1θ}0.5 λ1ϕ,1θ0.5和 λ 2 ϕ , 2 θ 1 λ_{2ϕ,2θ}1 λ2ϕ,2θ1。根据βmin0.1 βmax20设置噪声方差表的下界和上界。
2) cGAN采用[21]的结构和损失函数考虑循环一致的GAN模型。cGAN包括两个具有ResNet主干的生成器和两个具有级联卷积块的判别器然后是实例规范化。交叉验证的超参数为100个epoch在最后50个epoch中2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。
3) UNIT考虑一种无监督GAN模型该模型假设源-目标模态之间存在共享的潜在空间其架构和损失函数采用[70]。单元包括两个判别器和两个翻译与ResNet骨干网在一个循环设置。翻译器包含并行连接的域图像编码器和具有共享潜在空间的生成器。判别器包含一个级联的下采样卷积块。交叉验证的超参数为100次10−4学习率循环一致性、对抗性和重建损失的权重分别为10、1和10。
4) MUNIT考虑了一种无监督GAN模型该模型假设共享内容空间尽管源-目标模式的风格分布不同其架构和损失函数采用了[71]。MUNIT由判别器对、带ResNet主干的内容编码器、MLP风格编码器和带ResNet主干的解码器组成。交叉验证的超参数为100次学习率为10−4。图像、内容、风格重建、对抗损失的权重分别为10、1、1和1。
5) AttGAN在无监督翻译中采用了带有注意生成器的循环一致GAN模型[72]。AttGAN包括两个卷积注意力UNet生成器和两个patch判别器[72]。交叉验证的超参数为100个epoch在最后50个epoch中2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。
6) SAGAN采用带有自注意生成器的循环一致GAN模型[73]进行无监督翻译。SAGAN由两个基于ResNet骨干网的生成器和两个patch discriminator组成其中ResNet骨干网在最后两个残差块中具有自关注层[73]。交叉验证的超参数为100个epoch在最后50个epoch中2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。
7) DDPM考虑了一种具有改进采样效率的最新扩散模型其结构和损失函数采用了[74]。源模态作为反向扩散步骤的条件输入并且通过像SynDiff一样包含非扩散模块来实现循环一致学习。交叉验证的超参数为50 epoch, 10−4学习率T 1000, k1, 1000扩散步长。余弦噪声表如[74]所示。循环一致性损失的权重为1。
8) UNIT-DDPM考虑了一种允许无监督训练的最新扩散模型其架构和损失函数采用[54]。UNIT-DDPM包括源模态和目标模态的两个平行扩散过程其中每个模态的噪声样本作为条件输入用于另一个模态的反向扩散步骤。交叉验证的超参数为50 epoch, 10−4学习率T 1000, k1, 1000扩散步长。使用余弦噪声表[74]。循环一致性损失的权重为1释放时间为1见[54]。
C. 建模过程
所有模型都是使用PyTorch框架在Python中实现的。模型采用 β 1 0.5 β_10.5 β10.5 β 2 0.9 β_20.9 β20.9的Adam优化器进行训练。模型在配备Nvidia RTX 3090 GPU的工作站上执行。在每个数据集内的测试集上评估模型性能。为了公平比较基于给定各自源图像的每个截面合成的单个目标图像对确定性和随机方法进行了评估。性能评估通过峰值信噪比(PSNR)结构相似指数(SSIM)指标在有条件的合成任务其中有一个ground truth参考。对于无条件任务通过比较随机合成图像的总体分布和实际图像的总体分布使用FR起始距离(FID)评分来评估生成的随机合成图像的感知质量。在评估之前所有图像都按其平均值归一化然后根据参考图像中的最大强度归一化给定截面中的所有检查图像。通过非参数Wilcoxon符号秩检验评估竞争方法之间性能差异的显著性(p0.05)。
V. RESULTS
A. MRI多对比翻译
我们对比了SynDiff用于无监督MRI对比翻译的最先进的非注意GAN (cGAN, UNIT, MUNIT)注意GAN (AttGAN, SAGAN)和规则扩散(DDPM, UNIT-DDPM)模型。首先对IXI健康受试者的脑图像进行实验。表2列出了T2→T1、T1→T2、PD→T1、T1→PD、PD→T2和T2→PD合成任务的性能指标。SynDiff在所有任务中产生最高的性能(p0.05)除了PD→T2其中cGAN表现相似。平均而言SynDiff的PSNR和SSIM分别比非注意型GANs高2.2dB和2.5%注意型Gan高1.4dB和1.2%规则扩散模型高5.7dB和6.6%p0.05。 代表性图像如图3所示。GAN在组织造影术中表现为噪声或局部不准确。规则的扩散模型遭受一定程度空间扭曲和模糊。UNIT-DDPM显示相对较低的解剖精度偶尔组织特征丢失。相比之下SynDiff产生更低的噪声和伪影并且在组织描绘中具有更高的准确性。 接下来对BRATS中神经胶质瘤患者的大脑图像进行了实验。表三列出了T2→T1、T1→T2、FLAIR→T1、T1→FLAIR、FLAIR→T2和T2→FLAIR任务的性能指标。除了cGAN在T1→FLAIR中产生相似的PSNR并且在FLAIR→T1中表现相似外SynDiff在所有任务中再次获得最高的合成性能(p0.05)。平均而言SynDiff模型优于非注意GAN模型1.5dB的PSNR和3.5%的SSIM优于注意GAN模型2.7dB的PSNR和5.0%的SSIM优于扩散模型4.2dB的PSNR和6.8%的SSIM (p0.05)。 代表性图像如图4所示。非注意力GAN显示噪音和人工制品水平升高。注意GAN偶尔会受到源图像对比度特征泄漏的影响(例如信号水平明显较亮或较暗的区域产生幻觉)。常规扩散模型显示出一定程度的模糊和特征损失。相反SynDiff生成具有低噪声和伪影的高保真目标图像。 B. 多模态翻译
我们还展示了SynDiff在不同模式之间的无监督翻译。特别地实验使用SynDiff、非注意GAN、注意GAN和骨盆数据集的规则扩散模型进行MRI-CT翻译。表4列出了T2→CT、T1→CT、加速T2→CT和加速T1→CT合成任务的性能指标。SynDiff在所有任务中的表现最高(p0.05)。平均而言SynDiff模型优于非注意gan模型2.1dB的PSNR和7.6%的SSIM优于注意gan模型3.3dB的PSNR和14.4%的SSIM优于扩散模型2.8dB的PSNR和6.1%的SSIM (p0.05)。 代表性图像如图5所示。非注意力GAN和AttGAN显示局部对比度损失和伪像SAGAN遭受对比度泄漏规则扩散模型产生过度平滑可能导致精细特征的损失。虽然UNIT在组织边界附近的一些片段上提供了更高的合成性能特别是在外围体-背景边界附近但SynDiff在整个图像上通常具有更高的性能。总的来说SynDiff合成的目标图像具有很高的解剖保真度。注意图5b中的参考CT图像具有金属诱导的条纹伪影这在合成CT图像中通常是不存在的。植入金属导致MRI信号强度降低而它们在CT上引起条纹伪影偏离正常组织外观。由于骨盆数据集中的训练和验证对象没有携带任何植入物训练后的模型学会了将T1加权MR图像中的暗区与引发低信号的常规组织(如外骨层[51])联系起来。反过来训练模型合成具有规则组织外观的CT图像而不是金属附近的伪影。 C. 模型复杂度
医学图像翻译的一个实际问题是应用模型的计算复杂性。表V列出了竞争方法的训练时间、推理时间和内存使用情况。正如预期的那样与扩散模型相比单次GAN模型具有显著的快速训练和推理。虽然SynDiff的训练时间与其他扩散模型相当但其快速的扩散过程比DDPM和UNIT-DDPM提高了两个数量级以上的推理效率。在内存利用率方面SynDiff的需求高于cGAN、attention GAN和UNIT与MUNIT的需求相当但明显低于DDPM和UNIT-DDPM。总的来说SynDiff在图像保真度和计算复杂性之间提供了比常规扩散模型更有利的折衷。 D. 图像变异
涉及随机噪声变量的图像平移模型产生随机输出这可以引起对给定源图像独立合成的目标图像的变异性。为了评估图像的可变性我们研究了不同随机方法(SynDiff、MUNIT、DDPM和UNIT-DDPM)的目标图像样本。对于每个任务从测试集中随机选择50个截面。对于每个截面在给定各自源图像的情况下独立合成10个目标图像样本。在10个样本中计算性能指标的平均值和标准差(std.)。在平均横截面上除了UNIT-DDPM的std小于0.27dB的PSNR和0.31%的SSIM所有方法的样本间std小于0.02dB的PSNR和0.07%的SSIM。因此所有的随机方法相对于平均值具有最小的std值这表明合成目标图像的可变性有限。
E. 抗噪可靠性
翻译方法的一个重要问题是它们对训练集和测试集之间噪声水平分布变化的可靠性。为了研究这个问题在多模态T2→CT任务的测试集中在源图像上添加了不同程度的噪声。将零均值二元高斯白噪声添加到每个横截面上标准值范围为相对于平均像素强度[49]的[0.03 0.21]。图6绘制了在没有添加噪声的图像上训练的模型在添加了噪声的图像上测试时的性能。当然随着噪声水平的增加所有方法都表现出性能损失。与原始图像的性能相比在最高噪声水平(0.21 std)下非注意GAN的性能损失为3.4dB PSNR7.6% SSIM注意GAN的性能损失为0.9dB PSNR3.9% SSIM规则扩散模型的性能损失为1.9dB PSNR3.6% SSIM。相比之下SynDiff的性能差异相对较小PSNR为1.0dB, SSIM为0.7%。这些结果表明SynDiff对噪声保持一定程度的可靠性。 F. 消融研究
我们进行了一组消融研究以系统地评估SynDiff中主要元素的重要性。为了证明对抗性扩散过程的重要性我们比较了SynDiff中基于对抗性投影器的扩散模块与基于L1-损失投影器的变体扩散模块。变体模块共享相同的整体损失函数尽管它消除了扩散生成器和判别器的对抗损失项。因此扩散模块的残差损失项基于类似于常规扩散模型的逐像素的L1-损失。为了集中评估扩散模块在无条件综合任务中进行了展示其中从所有模型中删除了来自非扩散模块的指导。代表性任务的合成图像如图7所示FID分数列于表6。与ℓ1 T/k4的对抗性投影相比于ℓ1 T/k4的投影同时与ℓ1 T/k1000的投影。这些结果证明了对抗投影在反向扩散过程中有效和准确的图像采样的效用。 然后我们实验了对抗性、循环一致性和扩散学习在SynDiff中的贡献。通过消隐对抗性损失建立了第一变量模型采用消融循环一致性损失法建立了第二变量模型通过消去扩散模块直接利用非扩散模块合成目标图像构建了第三种变体模型。如表7所示SynDiff的性能明显高于所有变体这表明每种学习策略的重要性。 我们还将SynDiff的测试性能评估为扩散步骤数(T /k)的函数以及控制单独损失项(λ1ϕ λ1θ λ2ϕ λ2θ)之间平衡的权重函数。在每种情况下模型都是在基于验证性能选择的参数的中心范围内进行训练的。如表8所示基于不同参数值的变量之间的图像质量通常存在微小差异。在整个任务中我们发现所选T/k值和剩余T/k值之间的平均PSNR小于0.2dBSSIM差为0.2%所选损失项权重和剩余损失项权重之间的PSNR小于0.3dBSSIM差为0.4%。总的来说这些结果表明SynDiff对参数变化表现出一定程度的可靠性。 接下来我们对SynDiff是否会从非扩散模块的预训练中受益提出疑问以提高稳定性。为了解决这个问题将SynDiff与预训练非扩散模块50次以优化其翻译性能的变体模型进行比较然后将预训练的非扩散模块与随机初始化的扩散模块结合起来。当非扩散模块被冻结时预训练的冷冻变体训练组合模型。在更新扩散模块和非扩散模块的同时预先训练的变体训练了组合模型。如表9所示SynDiff和变体之间存在边际性能变化跨任务的平均差异小于0.3dB PSNR和0.3% SSIM。这一结果表明两个模块可以联合训练没有明显的稳定性问题。与SynDiff相比预训练适度降低了变体模型在较容易的PD→T1任务中的表现但在相对较困难的T1→T2和T2→CT任务中预训练总体上提高了变体模型的表现。为了评估这种模式的潜在原因我们比较了SynDiff中非扩散模块与预训练的变体的翻译性能。在PD→T1中预训练的平均PSNR降低了1.5dB, SSIM降低了2.6%而在其余任务中预训练的PSNR平均提高了1.3dB, SSIM降低了0.7%。这一发现表明预训练非扩散模块可能会导致在较容易的翻译任务中过度拟合而它可以帮助提高在相对困难的任务中的表现。 最后我们评估了扩散模块对非扩散模块提供的源图像估计质量的依赖性。为此我们训练了不同的模型其中非扩散模块被故意训练不足以产生次优的源图像估计。因此非扩散模块的训练在一定的epoch (nND)后通过冻结其权值来提前停止而扩散模块的训练则继续进行完整的50 epoch。表X列出了不同模型在不同nN D值范围内的性能。与nND50时的SynDiff相比我们发现nND25时的性能差异相对较小为0.7dB PSNR, 1.1% SSIM而nND10时的性能差异更显著为2.0dB PSNR, 3.6% SSIM。这些结果表明虽然扩散模块的训练对次优源图像估计显示出一定程度的可靠性但功能良好的非扩散模块是扩散模块在无监督医学图像翻译中性能的关键。 VI. DISCUSSION
A. 扩散与GAN模型
据报道在无约束的图像生成任务中规则扩散模型比GAN模型更有优势尽管GAN模型具有高图像质量但其训练稳定性和样本多样性有限[74]。虽然SynDiff明显优于所有竞争方法但在这里我们观察到常规扩散模型(如DDPM)在解剖学约束的医学图像翻译中与GAN模型相比竞争力较弱特别是在多对比MRI任务中。请注意用于图像生成的无条件模型通常是在具有高度异构样本的大型数据集上训练的。相比之下这里考虑的条件翻译模型是在相对有限的规模和异质性的数据集上训练的[21][24]。此外医学图像比自然图像具有更高的固有噪声。这可能会限制使用逐像素损失训练的规则扩散模型的空间敏锐度这些模型对细粒度特征(如噪声[21])的灵敏度低于对抗性损失[75]。鉴于这些差异扩散模型在稳定性和样本多样性方面的优势在医学图像翻译中可能不太明显。进一步的工作需要系统地探索扩散模型对抗GAN的相对性能作为医学成像数据集的大小、异质性和噪声水平的函数。
用于医学图像翻译的扩散模型和GAN模型之间的另一个区别涉及从给定源图像合成的独立目标图像的可变性。这两种模型都是从给定源模态的目标条件分布中提取样本但目标图像可以是确定性的也可以是随机的这取决于随机变量的使用。在对比方法中除了MUNIT在中间阶段接收随机噪声变量外所有GAN模型都只接收源图像以产生确定性图像。同时所有扩散模型都是从随机噪声图像开始对目标图像进行采样从而产生随机图像。在这里我们观察到包括SynDiff在内的所有扩散模型在从同一源图像合成的独立目标样本中显示有限的可变性这可能是因为随机噪声图像的影响在扩散步骤中减弱了。尽管如此未来的研究有必要深入评估平移估计的可变性及其在表征扩散模型不确定性方面的效用。
B. 局限性
SynDiff是一种基于扩散的方法它在扩散模块中采用对抗损失来加速图像采样在非扩散模块中采用对抗损失来实现无监督训练。理论上这些损失可能会引入训练不稳定性的脆弱性通常表现为模型性能的振荡模式和次优收敛[61]。为了排除这个潜在的问题我们检查了SynDiff跨训练循环的验证性能。我们没有发现任何显著的不稳定性迹象因为模型跨时代的性能平稳地向一个收敛点发展没有突然的跳跃(未报告)。我们还观察到非扩散模块的预训练并没有产生显著的收益这表明扩散模块和非扩散模块的联合训练可以稳定地进行。如果在训练SynDiff过程中怀疑存在不稳定性可以通过谱归一化或特征匹配来实现对抗性成分的稳定[61]。
SynDiff中的非扩散模块计算与训练集中目标图像配对的源图像估计并基于这些估计对扩散模块进行训练。为了评估扩散模块对非扩散模块的依赖我们系统地对非扩散模块进行了欠训练以产生次优的源图像估计。请注意尽管扩散模块是用低质量的源图像估计进行训练的但在推理过程中仍然使用获取的源图像进行测试。这造成了源图像输入到训练集和测试集之间扩散模块的分布之间的差异。虽然扩散模块在适度差异下表现出一定程度的可靠性但在训练不足的显著差异下其性能会下降。因此功能良好的非扩散模块是训练扩散模块的关键。
在这里高质量的图像是在MRI对比(如T1、T2)和MRI到CT之间转换时合成的。然而我们观察到所有检测方法在CT到MRI转换方面的表现都很差(未报道)。需要注意的是CT主要根据x射线衰减对致密的外层骨层产生强烈的对比而MRI根据组织磁化显示软组织和骨骼之间的强烈对比。因此合成MRI图像所需的软组织主要信息在CT图像中几乎不存在导致CT到MRI的一对多映射影响了模型的性能。特别是SynDiff基于源到目标映射是一个单射函数的理论假设来表达去噪分布因此在ct到mri的转换过程中计算的反向转移概率的准确性会受到影响。对于这种病态任务可以通过在目标模态[23][27]上使用传统的或基于学习的正则化先验来提高图像质量[23], [27],[76]。
C. 未来工作
可以进行若干技术发展以改进SynDiff。在这里我们考虑了源和目标模态在受试者中不配对的合成任务。当有匹配的源-目标图像时SynDiff可以用于监督训练方法是用像素代替循环一致性损失并提供实际源图像作为条件输入[21][77]。通过扩大训练数据集的大小基于未充分采样的源和目标模态采集[66]或者结合成对和未成对的源-目标模态数据[34]也可以提高性能。
架构开发也可能有助于提高翻译性能。SynDiff中的扩散生成器和非扩散生成器是基于卷积主干实现的。最近的研究报道与卷积架构相比基于Transformer的架构可以提高医学成像任务中的上下文敏感性[78]。语境表征在实施反向扩散步骤中的重要性仍有待证明但Transformer中的注意机制可能有助于增强对非典型解剖的泛化性能[79]。
最后可以考虑在计算效率方面的发展以进一步提高实用性。与具有缓慢推理的常规扩散模型不同SynDiff提供了与GAN模型更具竞争力的推理时间。因此通过将SynDiff中的对抗式投影与其他加速方法相结合例如用中间图像启动采样[80]或在紧凑的潜在空间[50]中运行扩散过程可能会获得进一步的速度优势。SynDiff的训练时间明显高于GAN并且由于增加了对抗组件和损失的计算比常规扩散模型的训练时间略长。在需要时可以通过在多个GPU上并行执行来提高训练效率。
D. 潜在应用
SynDiff的主要应用是在多对比MRI和多模态成像中缺失扫描的植入。在临床方案中由于时间限制或由于不合作患者的运动伪影通常会忽略一部分扫描。为了保持原始协议可以从获得的扫描中推算出遗漏的扫描。虽然在原生MRI对比图之间的映射和MRI到CT的映射已经证明了成功的结果但在其他情况下合成目标图像所需的信息可能没有充分编码到源图像中。例如外源剂增强的MRI对比图所携带的信息与原生对比图不同因此从原生MRI对比图[25]合成增强MRI图像相对困难。在这种情况下可以通过结合多种源模式来提高翻译性能这些模式可以捕获更多不同的组织信息[26][28][29]。
SynDiff的另一个潜在应用是对基于学习的模型的无监督适应用于下游任务如跨不同领域的分割和分类(例如扫描仪、成像站点、模态)。当标记数据的数量在主领域是有限的在具有大量标记数据集的辅助领域中得到充分训练的模型可能会被转移[81][82]。然而由于数据跨域分布的固有变化盲目的模型转移将导致大量的性能损失。假设主域有足够大的未标记图像集则可以使用SynDiff在主域和副域之间进行翻译[83]。将翻译后的图像作为输入可以提高迁移模型的性能因为它们的分布与二级域图像更接近。也就是说与扫描插入的情况类似域适应的成功与否取决于域之间共享信息的程度。当次要域的信息在主域中没有充分编码时下游模型在翻译后的图像上可能表现出次优的性能。
VII. CONCLUSION
在这项研究中我们引入了一种新的对抗扩散模型用于医学图像在源和目标模式之间的转换。SynDiff利用快速扩散过程有效地合成目标图像并使用条件对抗投影进行准确的储备扩散采样。无监督学习是通过循环一致的架构实现的该架构体现了两种模式之间的耦合扩散过程。与最先进的GAN和扩散模型相比SynDiff实现了卓越的质量并且在高保真医学图像翻译方面具有很大的前景。SynDiff中的快速条件扩散过程也可能在其他应用中提供优于GAN的性能优势例如去噪和超分辨率[49][84][85]。