ST-Net：一種用於無監督協調服裝合成的自驅動框架

1. 簡介

協調服裝合成（CCS）是AI驅動時尚技術中的一項關鍵任務，旨在生成與給定輸入服裝單品（例如，為一件上衣生成相配的下裝）和諧相容的服裝單品。傳統方法高度依賴精心策劃的配對服裝資料集，這些資料集的建立既耗時又昂貴，且需要專業的時尚知識。本文介紹了ST-Net（風格與紋理引導生成網路），這是一種新穎的自驅動框架，消除了對配對數據的需求。透過利用自監督學習，ST-Net直接從未配對的服裝圖像的風格和紋理屬性中學習時尚相容性規則，代表了向更具擴展性和資料效率的時尚AI邁出的重要一步。

2. 方法論

2.1. 問題定義

核心挑戰被定義為兩個領域之間的無監督圖像到圖像（I2I）轉換問題：來源域（例如，上衣）和目標域（例如，下裝）。與標準的I2I任務（例如CycleGAN中的馬到斑馬轉換）不同，上衣和下裝之間沒有空間對齊關係。相容性由共享的高階屬性定義，例如風格（例如，正式、休閒）和紋理/圖案（例如，條紋、花卉）。目標是學習一個映射函數 $G: X \rightarrow Y$，使得給定一個單品 $x \in X$，能生成一個相容的單品 $\hat{y} = G(x) \in Y$。

2.2. ST-Net 架構

ST-Net建基於生成對抗網路（GAN）框架。其關鍵創新在於一個雙路徑編碼器，能將輸入圖像明確解耦為風格編碼 $s$ 和紋理編碼 $t$。

風格編碼器：提取高階、全域的語意特徵（例如，「波西米亞風」、「極簡主義」）。
紋理編碼器：捕捉低階、局部的圖案特徵（例如，格紋、圓點）。

生成器 $G$ 隨後在學習到的相容性函數引導下，透過重組這些解耦的編碼，在目標領域中合成一個新單品。判別器 $D$ 則確保生成的單品真實且屬於目標領域。

2.3. 自監督學習策略

為了在沒有配對數據的情況下進行訓練，ST-Net採用了受循環一致性啟發的策略，但將其調整為適用於屬性層級的相容性學習。核心思想是屬性交換與重構。對於兩個未配對的單品 $(x_i, y_j)$，提取它們的風格和紋理編碼。例如，透過結合 $x_i$ 的風格與來自目標領域的紋理，創建一個「虛擬」的相容配對。網路被訓練從這些交換後的表徵中重構原始單品，從而迫使它學習到有意義且可遷移的相容性表徵。

3. 技術細節

3.1. 數學公式

令 $E_s$ 和 $E_t$ 分別為風格和紋理編碼器，$G$ 為生成器。對於輸入圖像 $x$，我們有： $$s_x = E_s(x), \quad t_x = E_t(x)$$ 生成相容單品 $\hat{y}$ 的過程為： $$\hat{y} = G(s_x, t')$$ 其中 $t'$ 是一個紋理編碼，它可以被採樣、從另一個單品推導而來，或是作為 $t_x$ 的轉換以適應目標領域而學習得到。

3.2. 損失函數

總損失 $\mathcal{L}_{total}$ 是幾個目標的組合：

對抗損失 ($\mathcal{L}_{adv}$)：標準的GAN損失，確保輸出真實性。 $$\min_G \max_D \mathbb{E}_{y \sim p_{data}(y)}[\log D(y)] + \mathbb{E}_{x \sim p_{data}(x)}[\log(1 - D(G(x)))]$$
自我重構損失 ($\mathcal{L}_{rec}$)：確保編碼器捕獲足夠的資訊。 $$\mathcal{L}_{rec} = \|x - G(E_s(x), E_t(x))\|_1$$
屬性一致性損失 ($\mathcal{L}_{attr}$)：核心創新。在交換屬性（例如，使用 $x$ 的風格和隨機 $y$ 的紋理）後，網路應能重構原始的 $y$，強制生成的單品保留被交換的屬性。 $$\mathcal{L}_{attr} = \|y - G(E_s(x), E_t(y))\|_1$$
KL散度損失 ($\mathcal{L}_{KL}$)：鼓勵解耦的潛在空間（風格/紋理）遵循先驗分佈（例如，高斯分佈），以提升泛化能力。

$$\mathcal{L}_{total} = \lambda_{adv}\mathcal{L}_{adv} + \lambda_{rec}\mathcal{L}_{rec} + \lambda_{attr}\mathcal{L}_{attr} + \lambda_{KL}\mathcal{L}_{KL}$$

4. 實驗與結果

4.1. 資料集

作者從網路來源構建了一個大規模無監督CCS資料集，包含數十萬張未配對的上衣和下裝服裝圖像。這解決了該領域的一個主要資料瓶頸。

4.2. 評估指標

使用以下指標評估性能：

初始分數（IS）與弗雷歇初始距離（FID）：評估圖像生成品質與多樣性的標準指標。
時尚相容性分數（FCS）：一種學習得到的指標或人工評估，用於評估生成單品在風格上與輸入單品的匹配程度。
使用者研究（A/B測試）：人類評審在相容性和真實性方面，更偏好ST-Net的輸出，而非基準方法。

4.3. 量化與質化結果

量化結果：與CycleGAN和MUNIT等最先進的無監督I2I方法相比，ST-Net取得了更優的FID和IS分數，顯示出更好的圖像品質。在時尚相容性分數上，它也顯著優於這些方法。
質化結果：視覺結果顯示，ST-Net成功生成了與輸入上衣具有連貫風格（例如，商務休閒）和紋理（例如，匹配的條紋或配色方案）的下裝。相比之下，基準方法生成的單品雖然可能真實，但常常風格不匹配或未能轉移關鍵圖案。

關鍵結果摘要

FID（數值越低越好）：ST-Net: 25.3, CycleGAN: 41.7, MUNIT: 38.2

人類偏好（相容性）：在成對比較中，ST-Net在78%的情況下被選中。

5. 分析框架與個案研究

核心洞見：本文的真正突破不僅僅是另一個GAN變體；而是對「相容性」問題的根本性重新思考。他們沒有將其視為像素層級的轉換（這會因空間不對齊而失敗），而是將其重新定義為屬性層級的條件生成。這是一種更聰明、更接近人類思維的時尚AI方法。

邏輯流程：其邏輯優雅：1) 承認配對數據是瓶頸。2) 識別出驅動相容性的是風格/紋理，而非形狀。3) 設計一個能明確解耦這些屬性的網路。4) 使用自監督（屬性交換）從未配對數據中學習相容性函數。這個流程直接針對核心問題的限制進行攻擊。

優點與不足：
優點：明確的解耦策略具有可解釋性且有效。建立專用的大規模資料集是一項重要的實務貢獻。該方法比依賴配對的方法更具擴展性。
不足：本文暗示但未完全解決「風格模糊性」問題——如何定義和量化超越紋理的「風格」？評估雖然有所改進，但仍部分依賴主觀的人類評分。對於相容性規則較不明確的高度抽象或前衛風格轉換，該方法可能面臨困難。

可行洞見：對於實務工作者：此框架是超越監督式時尚AI的藍圖。屬性交換的自監督技巧可應用於其他領域，如家具套裝設計或室內裝飾。對於研究人員：下一個前沿是整合多模態信號（風格的文字描述），並朝著使用者參與迴路的個人化，邁向完整服裝生成（配件、鞋履）。麻省理工學院媒體實驗室研究人員在美學智能方面的工作，為計算定義風格提供了互補的方向。

6. 未來應用與方向

個人化時尚助理：整合到電子商務平台中，提供即時的「完成造型」建議，顯著提高購物籃金額。
永續時尚與數位原型設計：設計師可以快速以數位方式生成相容的系列，減少實體樣品浪費。
元宇宙與數位身份：在虛擬世界中生成連貫的數位化身與服裝的核心技術。
研究方向：
- 多模態風格理解：整合文字（趨勢報告、風格部落格）和社交情境，以精煉風格編碼。
- 擴散模型整合：遵循如Stable Diffusion等模型設定的趨勢，用潛在擴散模型取代GAN骨幹，以獲得更高的保真度和多樣性。
- 互動式與可控生成：允許使用者調整風格滑桿（「更正式」、「增加更多色彩」）以進行微調控制。
- 跨類別完整服裝合成：從上衣/下裝擴展到在單一連貫框架中包含外套、鞋履和配件。

7. 參考文獻

Dong, M., Zhou, D., Ma, J., & Zhang, H. (2023). Towards Intelligent Design: A Self-Driven Framework for Collocated Clothing Synthesis Leveraging Fashion Styles and Textures. 預印本.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE國際電腦視覺會議（ICCV）.
Huang, X., Liu, M.-Y., Belongie, S., & Kautz, J. (2018). Multimodal Unsupervised Image-to-Image Translation. 歐洲電腦視覺會議（ECCV）.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. IEEE/CVF電腦視覺與模式識別會議（CVPR）.
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences. IEEE國際電腦視覺會議（ICCV）.
MIT Media Lab. (n.d.). 美學與計算組. 取自 media.mit.edu

目錄