IMAGGarment：用於可控時尚設計的細粒度服裝生成

1. 簡介與概述

細粒度服裝生成（FGG）是 AI 驅動時尚技術的一個關鍵前沿領域，旨在透過精確的多條件控制來合成高品質的數位服裝。論文《IMAGGarment：用於可控時尚設計的細粒度服裝生成》提出了一個新穎的框架，旨在克服現有單一條件生成方法的限制。傳統的時尚設計流程是手動、耗時且容易出現不一致性，特別是在為季節性系列或多個產品視圖進行擴展時。IMAGGarment 透過創新的兩階段架構，實現了對全域屬性（輪廓、顏色）和局部細節（標誌位置、內容）的統一控制，並由新發布的大規模資料集 GarmentBench 提供支援，從而解決了這一問題。

2. 方法論與技術框架

IMAGGarment 採用了一種兩階段訓練策略，將全域外觀和局部細節的建模解耦，從而實現可控生成的端到端推論。

2.1. 全域外觀建模

第一階段著重於捕捉服裝的整體結構和配色方案。它利用混合注意力模組來共同編碼輪廓資訊（來自草圖）和顏色參考。專用的顏色適配器確保了生成服裝的高保真顏色轉移和一致性，避免了在較簡單的條件式 GAN 中常見的顏色滲透或褪色問題。

2.2. 局部增強建模

第二階段透過注入使用者定義的標誌並遵循空間約束來精煉輸出。此處的關鍵是自適應外觀感知模組。它使用第一階段的全域特徵作為上下文，來指導標誌的精確放置、縮放和視覺整合，確保標誌能與服裝的紋理、褶皺和光影效果真實地融合。

2.3. 兩階段訓練策略

這種解耦方法是該框架的核心創新。透過分別訓練全域和局部模型，IMAGGarment 避免了「條件糾纏」問題，即一個控制訊號（例如強烈的標誌約束）可能會降低另一個訊號（例如整體輪廓）的品質。在推論過程中，這兩個階段依序工作，以產生滿足所有輸入條件的最終連貫影像。

3. GarmentBench 資料集

為了訓練和評估 IMAGGarment，作者引入了GarmentBench，這是一個大規模、多模態的資料集。它包含超過 180,000 個服裝樣本，每個樣本都標註了：

草圖：定義服裝輪廓的線條圖。
顏色參考：用於顏色指導的調色盤或色板。
標誌遮罩與位置：用於標誌插入的二值遮罩和空間座標。
文字提示：服裝風格的描述性說明。

這個全面的資料集是一項重要貢獻，為未來多條件時尚生成的研究提供了基準。

GarmentBench 一覽

180,000+ 服裝樣本

4 種配對條件類型（草圖、顏色、標誌、文字）

公開供研究使用

4. 實驗結果與評估

IMAGGarment 與條件式影像生成領域的幾個最先進基準模型進行了嚴格的比較評估。

4.1. 量化指標

該模型使用標準指標進行評估，例如用於整體影像品質的弗雷歇初始距離（FID）、用於對輸入草圖保真度的結構相似性指數（SSIM），以及用於遵循顏色參考的顏色一致性誤差。與 Pix2PixHD 和 SPADE 等競爭對手相比，IMAGGarment 始終獲得較低的 FID 分數和較高的 SSIM 值，在真實感和條件遵循方面均表現出優越的性能。

4.2. 質性分析

視覺比較顯示了 IMAGGarment 的明顯優勢：

結構穩定性：服裝輪廓清晰，準確遵循輸入草圖，無變形。
顏色保真度：顏色鮮豔，與參考調色盤緊密匹配，避免混濁。
標誌可控性：標誌按照指定位置精確放置，並自然地融入布料中，考慮了皺褶和透視效果。

圖 1（概念描述）：並排比較顯示，基準方法產生了模糊的標誌或不正確的顏色，而 IMAGGarment 則生成了一件輪廓清晰的 T 恤，其標誌位置正確、透視準確，且顏色完美匹配。

4.3. 消融研究

消融研究證實了每個元件的必要性。移除顏色適配器會導致顯著的顏色漂移。停用自適應外觀感知模組會導致標誌看起來像是「貼上去的」，並忽略了服裝的幾何形狀。兩階段策略本身被證明至關重要；同時在所有條件上訓練的單階段模型，由於條件干擾，在所有指標上都表現出性能下降。

5. 技術細節與數學公式

混合注意力模組的核心可以被概念化為學習一個聯合表徵。給定草圖特徵圖 $F_s$ 和顏色特徵圖 $F_c$，該模組計算一個控制它們融合的注意力圖 $A$：

$A = \text{softmax}(\frac{Q_s K_c^T}{\sqrt{d_k}})$

$F_{fusion} = A \cdot V_c + F_s$

其中 $Q_s$、$K_c$、$V_c$ 是從 $F_s$ 和 $F_c$ 推導出的查詢、鍵和值投影，$d_k$ 是鍵向量的維度。這使得模型能夠動態決定將哪些顏色資訊應用到草圖的哪些部分。訓練目標結合了對抗損失 $\mathcal{L}_{GAN}$、重建損失 $\mathcal{L}_{recon}$（例如 L1），以及用於風格和內容的專用感知損失 $\mathcal{L}_{perc}$：

$\mathcal{L}_{total} = \lambda_{GAN}\mathcal{L}_{GAN} + \lambda_{recon}\mathcal{L}_{recon} + \lambda_{perc}\mathcal{L}_{perc}$

6. 分析框架：核心見解與評論

核心見解： IMAGGarment 不僅僅是另一個影像到影像的模型；它是針對特定產業痛點——多面向設計控制的解耦——的一個務實的工程解決方案。雖然像 CycleGAN（Zhu 等人，2017）這樣的模型革新了非配對轉換，而 StyleGAN（Karras 等人，2019）掌握了無條件保真度，但時尚產業的需求是精確編輯，而不僅僅是生成。IMAGGarment 的兩階段流程是對困擾端到端多模態模型的「條件衝突」問題的直接且有效的解答。

邏輯流程： 其邏輯無可挑剔地符合產業流程：1) 定義形狀和基礎顏色（「製造」階段）。2) 應用品牌標誌和精細細節（「客製化」階段）。這反映了實際的服裝生產流程，使得設計師能夠直觀地採用這項技術。GarmentBench 的發布是一個戰略性的妙招，因為它立即圍繞他們提出的任務定義建立了一個基準和生態系統。

優勢與缺陷： 其最大的優勢在於其聚焦的實用性以及在特定領域中展現的優越性。分開的訓練階段是確保穩定性的巧妙技巧。然而，其缺陷在於潛在的僵化性。該流程是順序性的；全域階段的錯誤（例如，錯誤建模的褶皺）會不可逆轉地傳遞到局部階段。它缺乏更近期基於擴散架構（例如 Stable Diffusion）所具有的迭代式、整體性精煉能力。此外，雖然其控制是多條件的，但仍基於預先定義的輸入（草圖、色板）。它尚未解決自然語言提示所提供的更模糊但更強大的、同等細粒度的控制。

可行見解： 對於研究人員來說，下一步是將這種兩階段理念整合到擴散框架中，使用第一階段建立強先驗，第二階段進行細節感知、雜訊引導的精煉。對於產業採用者，優先事項應是將 IMAGGarment 作為外掛程式整合到現有的 CAD 軟體（如 Browzwear 或 CLO）中，專注於從粗略草圖生成即時預覽。該模型目前的成功是在相對乾淨、正面視角的服裝上；下一個挑戰是將其擴展到複雜的 3D 垂墜、多樣化的體型和動態姿勢——這是實現真正虛擬試穿應用的必要條件，也是像 Google（搜尋生成體驗）和 Meta 等公司大量投資的領域。

7. 應用前景與未來方向

IMAGGarment 的應用前景廣闊，並與數位時尚的關鍵趨勢相符：

電子商務與虛擬試穿： 按需生成多種顏色並帶有自訂標誌的逼真產品影像，降低拍攝成本。
個人化時尚設計： 允許消費者透過上傳草圖、選擇顏色和放置個人標誌來共同設計產品。
元宇宙與數位資產： 為遊戲和虛擬世界中的虛擬化身快速創建獨特、高品質的服裝資產。
設計師工具： 加速情緒板和原型製作階段，實現設計概念的快速迭代。

未來方向：

3D 服裝生成： 將框架擴展到從 2D 條件生成一致、有紋理的 3D 服裝模型，這是 AR/VR 的關鍵一步。
動態材質合成： 納入對布料類型（牛仔布、絲綢、針織品）和物理屬性的控制，超越僅限顏色和標誌。
互動式精煉： 開發允許在初始條件之外進行迭代式、人機協同回饋（「把領子加寬」、「把標誌向左移」）的模型。
與大型語言/視覺模型整合： 使用 LLM（如 GPT-4）或 LVM 來解釋高階的文字設計簡報，並將其轉換為 IMAGGarment 所需的精確條件圖（草圖、調色盤）。

8. 參考文獻

Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
Karras, T., Laine, S., & Aila, T. (2019). A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4401-4410).
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684-10695).
Wang, T. C., Liu, M. Y., Zhu, J. Y., Tao, A., Kautz, J., & Catanzaro, B. (2018). High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 8798-8807). (Pix2PixHD)
Park, T., Liu, M. Y., Wang, T. C., & Zhu, J. Y. (2019). Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 2337-2346). (SPADE)
Shen, F., Yu, J., Wang, C., Jiang, X., Du, X., & Tang, J. (2021). IMAGGarment: Fine-Grained Garment Generation for Controllable Fashion Design. Journal of LaTeX Class Files, Vol. 14, No. 8.

目錄