DiffFashion：基於擴散模型的結構感知時尚設計

1. 目錄

1.1 簡介與概述
1.2 核心方法論
1.2.1 使用語義遮罩進行結構解耦
1.2.2 引導式去噪過程
1.2.3 視覺Transformer (ViT) 引導
1.3 技術細節與數學公式
1.4 實驗結果與效能
1.5 關鍵洞察與分析框架
1.6 應用前景與未來方向
1.7 參考文獻

1.1 簡介與概述

DiffFashion 解決了AI驅動時尚設計中一項新穎且具挑戰性的任務：將參考影像（可能來自非時尚領域）的外觀轉移到目標服裝影像上，同時精確地保留原始服裝的結構（例如剪裁、縫線、褶皺）。這與傳統的神經風格轉移（NST）或由CycleGAN處理的領域轉換任務不同，後者的來源和目標領域通常在語義上相關（例如馬轉斑馬）。核心挑戰在於參考物件（例如豹、畫作）與服裝項目之間存在顯著的語義鴻溝，且缺乏針對新穎設計輸出的配對訓練資料。

1.2 核心方法論

DiffFashion 是一個基於擴散模型的無監督框架。它不需要配對的 {服裝，參考，輸出} 資料集。相反地，它利用預訓練擴散模型的生成先驗，並引入新穎的引導機制，在反向去噪過程中分別控制結構和外觀。

1.2.1 使用語義遮罩進行結構解耦

模型首先自動為目標影像中的前景服裝生成語義遮罩。此遮罩通常透過預訓練的分割模型（如U-Net或Mask R-CNN）取得，明確定義了外觀轉移應發生的區域。它作為一個硬性約束，將服裝的形狀從背景和影像的無關部分中隔離出來。

1.2.2 引導式去噪過程

擴散模型的反向過程同時以目標服裝影像的結構和參考影像的外觀為條件。語義遮罩被注入作為引導，確保去噪步驟主要改變遮罩區域內的像素，從而保留原始服裝的整體結構和精細細節（如領口形狀、袖長）。

1.2.3 視覺Transformer (ViT) 引導

使用預訓練的視覺Transformer (ViT) 作為特徵提取器，提供語義引導。提取參考影像（外觀）和目標服裝影像（結構）的特徵，並用於引導擴散採樣。這有助於將高階語義圖案和紋理從參考影像轉移到結構完整的服裝畫布上，即使跨越巨大的領域鴻溝。

1.3 技術細節與數學公式

DiffFashion 的核心在於修改標準的擴散採樣過程。給定一個雜訊向量 $z_T$ 和條件輸入，模型旨在採樣一個乾淨影像 $x_0$。時間 $t$ 的去噪步驟由修改後的評分函數引導：

$\nabla_{x_t} \log p(x_t | c_s, c_a) \approx \nabla_{x_t} \log p(x_t) + \lambda_s \cdot \nabla_{x_t} \log p(c_s | x_t) + \lambda_a \cdot \nabla_{x_t} \log p(c_a | x_t)$

其中：
- $\nabla_{x_t} \log p(x_t)$ 是來自預訓練擴散模型的無條件評分。
- $c_s$ 是結構條件（源自目標服裝影像及其遮罩）。
- $c_a$ 是外觀條件（透過ViT特徵源自參考影像）。
- $\lambda_s$ 和 $\lambda_a$ 是分別控制結構和外觀引導強度的縮放參數。

結構引導 $\nabla_{x_t} \log p(c_s | x_t)$ 通常透過比較當前雜訊樣本 $x_t$ 的遮罩區域與目標結構來實作，以鼓勵對齊。外觀引導 $\nabla_{x_t} \log p(c_a | x_t)$ 是使用ViT特徵空間中參考影像與生成影像內容之間的距離度量（例如餘弦相似度）來計算的。

1.4 實驗結果與效能

該論文證明，DiffFashion 的表現優於最先進的基準方法，包括基於GAN的方法（如帶有自適應實例歸一化的StyleGAN2）和其他基於擴散的影像轉換模型。關鍵評估指標可能包括：
- Fréchet Inception Distance (FID)：用於衡量生成影像相對於真實資料集的真實感和多樣性。
- LPIPS (Learned Perceptual Image Patch Similarity)：用於評估外觀轉移的感知品質和忠實度。
- 使用者研究：與其他方法相比，人類評估者可能對DiffFashion輸出的結構保留和美學品質給予更高評分。

圖表描述（隱含）： 長條圖將顯示，與CycleGAN、DiffusionCLIP和Paint-by-Example等基準方法相比，DiffFashion獲得了更低的FID分數（表示品質更好）和更高的結構保留分數（來自使用者研究）。定性圖像網格將顯示樣本輸入：一件素色T恤（目標）和一張豹皮（參考）。DiffFashion的輸出將顯示一件帶有逼真、扭曲豹紋的T恤，紋理跟隨衣服的褶皺，而基準方法的輸出可能會扭曲T恤的形狀或不真實地應用紋理。

1.5 關鍵洞察與分析框架

分析師觀點：四步驟解構

核心洞察： DiffFashion的真正突破不僅僅是另一個「風格轉移」工具；它是一個用於跨領域創意的實用約束求解引擎。雖然像Stable Diffusion這樣的模型在開放式生成方面表現出色，但在精確的結構保真度上卻表現不佳。DiffFashion直接識別並正面攻擊這個特定弱點，認識到在時尚等應用領域中，「畫布」（服裝剪裁）是不可妥協的。這將典範從「生成並期望」轉變為「約束並創造」。

邏輯流程： 該方法論優雅而直接。它沒有試圖教導模型豹皮與棉質襯衫之間的抽象關係（這在資料有限的情況下幾乎是不可能的任務），而是將問題分解。使用分割模型（一個已解決的問題）來鎖定結構。使用強大的預訓練ViT（如DINO或CLIP）作為通用的「外觀解譯器」。然後，使用擴散過程作為一個靈活的渲染器，在這兩個固定引導之間進行協調。這種模組化是其最大優勢，使其能夠借助分割和基礎視覺模型的獨立進展。

優勢與缺陷： 其主要優勢是約束下的精確性，使其立即適用於專業的數位原型製作。然而，該方法有明顯的缺陷。首先，它高度依賴初始語義遮罩的品質；蕾絲或薄紗等複雜細節可能會丟失。其次，來自ViT的「外觀」引導可能在語義上很脆弱。正如Radford等人在CLIP論文中指出的，這些模型可能對虛假相關性敏感——轉移豹的「概念」可能會無意中帶來不需要的黃色調或背景元素。該論文可能輕描淡寫了手動調整 $\lambda_s$ 和 $\lambda_a$ 權重的過程，這在實務中成為避免偽影的主觀試錯過程。

可行洞察： 對於產業採用，下一步不僅僅是更好的指標，而是工作流程整合。該工具需要從獨立的演示轉變為CLO3D或Browzwear等CAD軟體的外掛程式，其中「結構」不是2D遮罩，而是3D服裝版型。當參考不僅僅是影像，而是具有物理屬性（例如反射率、垂墜感）的材料樣品時，真正的價值將被釋放，從而將AI與實體設計連接起來。投資者應關注將此方法與3D感知擴散模型相結合的團隊。

1.6 應用前景與未來方向

近期應用：

數位時尚與原型製作： 為電子商務、社群媒體和虛擬試穿快速視覺化設計概念。
永續設計： 透過允許設計師數位化實驗無限的紋理和圖案，減少實體樣品浪費。
個人化時尚： 使消費者能夠用個人影像或藝術作品「混搭」服裝。

未來研究方向：

3D服裝轉移： 將框架擴展到直接在3D服裝網格或UV貼圖上操作，實現真正的多視角一致設計。
多模態條件設定： 將文字提示與參考影像結合（例如「一件帶有梵谷《星夜》圖案的絲質襯衫」）。
物理屬性建模： 超越顏色和紋理，模擬轉移的材料將如何影響垂墜感、硬挺度和動態。
互動式精煉： 開發使用者參與的迴圈介面，設計師可以提供稀疏的塗鴉或修正，以迭代方式引導擴散過程。

1.7 參考文獻

Cao, S., Chai, W., Hao, S., Zhang, Y., Chen, H., & Wang, G. (2023). DiffFashion: Reference-based Fashion Design with Structure-aware Transfer by Diffusion Models. IEEE Conference.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision.
Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning.
Kwon, G., & Ye, J. C. (2022). Diffusion-based Image Translation using Disentangled Style and Content Representation. International Conference on Learning Representations.