基於圖像轉提示的細粒度客製化時裝設計：BUG 基準與資料集

1. 緒論

生成式人工智慧（GenAI）正在革新複雜的產業工作流程。在服裝產業中，從客戶需求到設計師、打版師、裁縫師，再到最終交付的傳統流程，正因大型多模態模型（LMMs）的加入而得到增強。雖然當前的 LMMs 擅長分析客戶偏好以進行商品推薦，但在實現細粒度、使用者驅動的客製化方面仍存在顯著差距。使用者越來越希望扮演自己的設計師角色，創造並反覆修改設計直到滿意為止。然而，純文字提示（例如「白色西裝外套」）存在模糊性，缺乏設計師能夠推斷的專業細節（例如特定的領型）。本文介紹了更佳理解生成（BUG）工作流程，該流程利用 LMMs 來解讀圖像轉提示輸入與文字，實現精確、可迭代的時裝設計編輯，彌合了業餘使用者意圖與專業級輸出之間的差距。

2. 方法論

2.1 BUG 工作流程

BUG 工作流程模擬了真實世界的設計諮詢過程。它始於初始化階段，根據使用者的文字描述（例如「一件帶有布料圖案的棉質西裝外套」）生成基礎服裝圖像。隨後，使用者可以透過一個迭代循環請求編輯。每次迭代都包含一個文字提示（例如「修改領子」），以及關鍵的圖像轉提示——一張說明所需風格元素的參考圖像（例如一張戧駁領的圖片）。LMM 處理此多模態輸入以產生編輯後的設計，使用者可以接受該設計或將其作為下一次細化的基礎。

2.2 圖像轉提示機制

這是核心創新。系統不再僅僅依賴對視覺概念的純文字描述，而是攝取一張參考圖像。LMM 的視覺編碼器從此參考圖像中提取視覺特徵，然後將其與編碼後的文字提示融合。這種融合為圖像生成/編輯模型創造了一個更豐富、更少歧義的條件訊號，直接解決了緒論中強調的「文字不確定性」問題。

2.3 LMM 架構

所提出的系統採用雙 LMM 設置，在圖 2 中暗示為eLMM和mLMM。eLMM（編輯器 LMM）負責理解多模態編輯請求並規劃修改方案。mLMM（修改器 LMM）執行實際的圖像編輯，很可能基於像 Stable Diffusion 3 這樣的擴散架構，並以融合的文字-圖像表徵為條件。這種分離允許專門的推理和執行。

3. FashionEdit 資料集

3.1 資料集建構

為了驗證 BUG 工作流程，作者們引入了FashionEdit資料集。該資料集旨在模擬真實世界的服裝設計工作流程。它包含三元組：(1) 基礎服裝圖像、(2) 文字編輯指令（例如「改為戧駁領風格」），以及(3) 描繪目標屬性的參考風格圖像。該資料集涵蓋了細粒度編輯，例如領型變更（戧駁領）、扣合方式修改（四釦雙排釦）和配件添加（添加一朵襟花）。

3.2 評估指標

提出的評估分為三個方面：

生成相似度：衡量編輯後的輸出與參考圖像中預期屬性的接近程度，使用 LPIPS（學習感知圖像塊相似度）和 CLIP 分數等指標。
使用者滿意度：透過人工評估或問卷調查來評估實際有用性以及與使用者意圖的一致性。
品質：評估生成圖像的整體視覺逼真度和連貫性，確保沒有瑕疵。

4. 實驗與結果

4.1 實驗設定

在 FashionEdit 資料集上，將 BUG 框架與僅使用文字的基準編輯方法（使用如 Stable Diffusion 3 和 DALL-E 2 搭配修補功能的模型）進行基準測試。實驗測試了系統在參考圖像引導下執行精確、特定屬性編輯的能力。

4.2 量化結果

論文報告了 BUG 工作流程在所有三個評估指標上均優於純文字基準方法。主要發現包括：

更高的 LPIPS/CLIP 分數：編輯後的圖像在感知上與參考圖像指定的目標屬性更為相似。
更高的使用者滿意度：在人工評估中，圖像轉提示方法的輸出被一致評為更能準確滿足編輯請求。
保持圖像品質：BUG 工作流程在進行目標編輯的同時，保持了基礎服裝的整體品質和連貫性。

4.3 質性分析與個案研究

PDF 中的圖 1 和圖 2 提供了令人信服的質性證據。圖 1 說明了真實場景：使用者提供一張穿著白色西裝外套的人物圖像和一張特定領型的參考圖片，要求進行修改。僅文字描述「白色西裝外套」是不夠的。圖 2 直觀地對比了迭代式 BUG 流程（同時使用文字和圖像提示）與純文字編輯流程，顯示了前者如何導向正確的設計，而後者在處理細粒度任務（如添加襟花或改為四釦雙排釦風格）時經常產生錯誤或模糊的結果。

5. 技術分析與框架

5.1 數學公式化

核心生成過程可以框架化為一個條件擴散過程。令 $I_0$ 為初始基礎圖像。一個編輯請求是一對 $(T_{edit}, I_{ref})$，其中 $T_{edit}$ 是文字指令，$I_{ref}$ 是參考圖像。LMM 將其編碼為一個組合條件向量 $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$，其中 $\mathcal{F}$ 是一個融合網路（例如交叉注意力）。然後，編輯後的圖像 $I_{edit}$ 從以 $c$ 為條件的反向擴散過程中採樣得到： $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ 其中 $\theta$ 是 mLMM 的參數。與標準文字轉圖像擴散的主要區別在於源自多模態融合的豐富條件 $c$。

5.2 分析框架範例

案例：編輯西裝外套駁領

輸入： 基礎圖像 ($I_0$)：一張穿著平駁領西裝外套的女性圖像。編輯請求：$(T_{edit}="改為戧駁領風格", I_{ref}=[戧駁領圖像])$。
LMM 處理： eLMM 解析 $T_{edit}$ 以識別目標區域（「駁領」）和動作（「改變風格」）。視覺編碼器從 $I_{ref}$ 中提取定義視覺上「戧駁領」的特徵。
條件融合： 來自 $I_0$ 的「駁領」特徵、文字概念「戧駁」以及來自 $I_{ref}$ 的視覺模板被對齊並融合成一個統一的、具有空間感知的條件映射，供 mLMM 使用。
執行： mLMM（一個擴散模型）在融合條件的引導下，對 $I_0$ 的駁領區域進行修補/編輯，將平駁領轉變為戧駁領，同時保留西裝外套的其餘部分和模特兒的姿勢。
輸出： $I_{edit}$：相同的基礎圖像，但駁領已準確修改為戧駁領。

此框架展示了圖像轉提示範式所實現的精確、屬性層級控制。

6. 未來應用與方向

BUG 工作流程的影響超越了時尚領域：

室內與產品設計： 使用者可以展示家具腿部或布料紋理的參考圖像來修改 3D 模型或房間渲染圖。
遊戲資產創建： 透過將基礎模型與風格參考相結合，快速原型化角色盔甲、武器或環境。
建築視覺化： 基於範例圖像修改建築外觀或室內裝飾。
未來研究： 擴展到影片編輯（跨影格更改演員服裝）、3D 形狀編輯，以及改進編輯的組合性（處理多個可能相互衝突的參考圖像）。一個主要方向是增強 LMM 對空間關係和物理特性的推理能力，以確保編輯不僅視覺上正確，而且合理（例如，襟花正確地別在駁領上）。

7. 參考文獻

Stable Diffusion 3: 研究論文，Stability AI。
Rombach, R., 等人. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
Isola, P., 等人. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN 是一種相關的無監督方法)。
Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
Brooks, T., 等人. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Li, H., 等人. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.

8. 原創分析與專家評論

核心洞見： 這篇論文不僅僅是圖像編輯領域的又一次漸進式改進；它是一次朝向多模態意圖消歧的戰略性轉向。作者正確地指出，生成式 AI 在創意領域的下一個前沿並非原始能力，而是精準溝通。真正的瓶頸不在於模型生成「西裝外套」的能力，而在於其理解使用者心中所想的是哪一件具體的西裝外套的能力。透過將「圖像作為參考」的範式形式化為「圖像轉提示」基準（BUG），他們正在解決困擾人機協同創作的根本性模糊問題。這超越了像 CycleGAN（學習非配對風格轉換）或 InstructPix2Pix（僅依賴文字）這類模型的老路，明確要求 AI 交叉參考視覺範例，這是一個更接近人類設計師工作方式的認知步驟。

邏輯流程： 論證具有說服力且結構良好。它始於一個清晰的產業痛點（業餘文字提示與專業設計輸出之間的差距），提出了一個認知上合理的解決方案（模仿設計師使用參考圖像的方式），然後用具體的技術工作流程（BUG）和量身定制的評估資料集（FashionEdit）來支持。雙 LMM 架構（eLMM/mLMM）的使用，在邏輯上將高階規劃與低階執行分離，這是一種在基於代理的 AI 系統中日益受到關注的設計模式，正如 Google DeepMind 等機構在工具使用和規劃方面的研究所見。

優勢與缺陷： 主要優勢在於問題框架化和基準創建。FashionEdit 資料集如果公開，可能成為評估細粒度編輯的標準，就像 MS-COCO 之於物件偵測一樣。將使用者滿意度作為指標也值得讚揚，承認僅有技術分數是不夠的。然而，從摘要來看，這篇論文存在明顯的不足。LMM 融合機制的技術細節非常簡略。來自 $I_{ref}$ 的視覺特徵究竟如何與 $I_0$ 中的空間區域對齊？是透過交叉注意力、專用的空間對齊模組，還是其他方式？此外，評估雖然前景看好，但需要更嚴謹的消融研究。改進有多少來自參考圖像，又有多少僅僅是因為擁有調整得更好的基礎模型？與像InstructPix2Pix或DragGAN風格的基於點編輯等強基準進行比較，將提供更有力的證據。

可行動的見解： 對於產業從業者而言，這項研究傳達了一個明確的指示：為您的生成式 AI 產品投資多模態互動層。一個簡單的文字方塊已經不夠了。使用者介面必須允許使用者拖放或圈選參考圖像。對於研究人員，BUG 基準開闢了幾個方向：1) 穩健性測試——模型在面對低品質或語意上不相關的參考圖像時表現如何？2) 組合性——它能否處理「將圖像 A 的領子和圖像 B 的袖子結合」？3) 泛化能力——這些原則能否應用於非時尚領域，如平面設計或工業 CAD？最終的考驗將是這種方法能否從受控的資料集轉移到真實使用者混亂、開放式的創意中，這是一個常常將學術原型與商業突破區分開來的挑戰，正如早期基於 GAN 的創意工具的歷史所顯示的那樣。