Style2Vec：從風格套組學習時尚單品的向量表示法

1. 緒論

隨著線上時尚市場的快速成長，對於有效的推薦系統需求日益迫切。傳統的協同過濾方法依賴使用者購買歷史（評分），並不適用於時尚領域。使用者的歷史記錄可能包含迥異的風格（例如：正式西裝與休閒丹寧），使得無法為單品或整體穿搭學習到連貫且細緻的風格特徵。核心挑戰在於如何建模單品之間微妙且常為主觀的「風格相容性」概念。

本文介紹 Style2Vec，一種新穎的時尚單品分佈式表示模型。其靈感來自自然語言處理中的分佈語意學（例如：Word2Vec），從使用者策劃的「風格套組」——構成一個連貫整體穿搭的服裝與配件集合——中學習單品的嵌入表示。關鍵創新在於使用卷積神經網路作為從單品影像到嵌入向量的投影函數，克服了單品僅出現在少數風格套組中的稀疏性問題。

2. 方法論

2.1. 問題定義與風格套組

一個 風格套組 定義為構成單一、連貫整體穿搭的單品集合（例如：外套、襯衫、褲子、鞋子、包包）。這類似於自然語言處理中的「句子」，而每個時尚單品則是一個「詞彙」。模型的目標是學習一個函數 $f: I \rightarrow \mathbb{R}^d$，將單品影像 $I$ 映射到一個 $d$ 維的潛在風格向量，使得屬於同一風格套組的單品在嵌入空間中具有相似的向量。

2.2. Style2Vec 架構

該模型採用兩個獨立的卷積神經網路：

輸入CNN ($\text{CNN}_i$)：處理目標單品的影像，其表示法正在被學習。
上下文CNN ($\text{CNN}_c$)：處理上下文單品（同一風格套組中的其他單品）的影像。

兩個網路都將其各自的輸入影像映射到相同的 $d$ 維嵌入空間。這種雙網路方法允許模型在學習過程中區分目標單品與其上下文的不同角色。

2.3. 訓練目標

模型使用對比學習目標進行訓練，其靈感來自帶有負採樣的跳躍式模型。對於給定的風格套組 $S = \{i_1, i_2, ..., i_n\}$，目標是最大化在給定目標單品 $i_t$ 的情況下，觀察到任何上下文單品 $i_c$ 的機率。單一（目標，上下文）配對的目標函數為：

$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$

其中 $\mathbf{v}_{i} = \text{CNN}(I_i)$ 是單品 $i$ 的嵌入，$\sigma$ 是 sigmoid 函數，$P_n$ 是用於對 $K$ 個負樣本進行負採樣的雜訊分佈。

3. 實驗設定

3.1. 資料集

模型在從一個流行時尚網站收集的 297,083 個使用者創建的風格套組 上進行訓練。每個套組包含來自不同類別（上衣、下著、鞋子、配件）的多個單品影像。

資料集統計

風格套組總數： 297,083

平均每組單品數： ~5-7

單品類別： 多樣化（服裝、鞋類、配件）

3.2. 基準模型

效能與以下幾個基準模型進行比較：

基於類別： 使用獨熱編碼的單品類別作為特徵。
基於屬性： 使用手動定義的視覺屬性（顏色、圖案）。
CNN 特徵： 使用預訓練 CNN（例如：ResNet）從單個單品影像提取的特徵，忽略套組上下文。
傳統 Word2Vec 應用於類別： 將單品類別視為風格套組「句子」中的「詞彙」。

3.3. 評估指標

使用了兩種主要的評估方法：

時尚類比測試： 類似於詞嵌入中的「國王 - 男人 + 女人 = 女王」測試。評估學習到的向量是否能捕捉語意關係（例如：「踝靴 - 冬季 + 夏季 = 涼鞋」）。
風格分類： 使用學習到的 Style2Vec 特徵作為分類器的輸入，以預測預先定義的風格標籤（例如：正式、龐克、商務休閒）。使用準確率作為指標。

4. 結果與分析

4.1. 時尚類比測試

Style2Vec 成功解決了多種時尚類比問題，證明其嵌入表示法捕捉到了超越基本類別的豐富語意。範例包括與以下相關的轉換：

季節性： 冬季單品 → 夏季單品。
正式度： 休閒單品 → 正式單品。
顏色/圖案： 素色單品 → 有圖案單品。
輪廓/版型： 合身單品 → 寬鬆單品。

這表明模型學習到了一種解耦的表示法，其中向量空間的特定維度或方向對應於可解釋的風格屬性。

4.2. 風格分類效能

當用作風格分類器的特徵時，Style2Vec 嵌入表示法 顯著優於所有基準方法。關鍵見解是，從風格套組中共現學習到的特徵，比從單個影像（CNN基準）或元資料（類別/屬性基準）學習到的特徵，更能預測整體風格標籤。這驗證了核心假設：風格是一種關係屬性，最好從上下文中學習。

關鍵見解

上下文為王： 風格並非單品的固有屬性，而是源自其與其他單品的關係。
克服稀疏性： 使用 CNN 作為可訓練的投影網路，有效緩解了將每個獨特單品視為離散符號所固有的資料稀疏性問題。
豐富語意： 嵌入空間沿著多個可解釋的風格維度組織單品，從而實現複雜的類比推理。

5. 技術細節與數學公式

核心創新在於將 Word2Vec 框架適配到視覺領域。令 $D = \{S_1, S_2, ..., S_N\}$ 為風格套組的語料庫。對於一個風格套組 $S = \{I_1, I_2, ..., I_m\}$，其中 $I_j$ 是影像，我們從 $S$ 中採樣一個目標單品 $I_t$ 和一個上下文單品 $I_c$。

嵌入計算如下： $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ 其中 $\theta_i$ 和 $\theta_c$ 分別是輸入 CNN 和上下文 CNN 的參數。通過優化第 2.3 節定義的目標函數 $J(\theta)$，在資料集中所有（目標，上下文）配對上進行端到端訓練。訓練完成後，僅使用 輸入CNN ($\text{CNN}_i$) 為任何新單品影像生成最終的 Style2Vec 嵌入表示。

6. 分析框架：非程式碼案例研究

情境： 一個時尚電商平台希望改進其「完成整體造型」推薦小工具。

傳統方法： 該小工具根據共同購買頻率或共享的類別標籤（例如：「購買這件西裝外套的顧客也購買了這些褲子」）來推薦單品。這導致推薦結果過於通用，且經常風格不匹配。

啟用 Style2Vec 的方法：

嵌入生成： 目錄中的所有單品都透過訓練好的輸入 CNN 處理，以獲得其 Style2Vec 向量。
查詢形成： 使用者將一條海軍藍卡其褲和一雙白色運動鞋加入購物車。平台計算這兩個單品的 Style2Vec 向量的平均值，創建一個代表初始風格套組的「查詢向量」。
最近鄰搜尋： 系統在嵌入空間中搜尋向量最接近查詢向量的單品。例如，它會檢索到一件淺藍色牛津襯衫、一件條紋圓領毛衣和一條帆布腰帶。
結果： 推薦的單品不僅是經常一起購買的，而且與使用者選擇的單品在風格上連貫一致，推廣了一種休閒、商務休閒的造型。平台可以透過類比來解釋推薦：「我們推薦這件襯衫，是因為它能完成您的休閒造型，就像西裝外套能完成正式造型一樣。」

此框架將推薦邏輯從統計相關性轉向語意風格相容性。

7. 產業分析師觀點

核心見解： Style2Vec 不僅僅是另一個嵌入模型；它是從建模使用者品味到建模在風格上下文中的單品語意的戰略性轉向。本文正確地指出了將傳統協同過濾應用於時尚的根本缺陷：使用者的購買歷史是一個充滿雜訊、包含多種風格的訊號。透過將整體穿搭（風格套組）作為風格的原子單位，他們繞過了這種雜訊，捕捉到了時尚的本質——即組合性與關係性。這與人工智慧更廣泛的趨勢相符，即朝向關係型和基於圖的推理發展，正如在社交網路或知識圖譜中應用的圖神經網路等模型所見。

邏輯流程： 論證具有說服力。1) 問題：基於使用者歷史的推薦在風格上失敗。2) 見解：風格由單品在整體穿搭中的共現定義。3) 借鑑：自然語言處理的分佈假設（相似上下文中的詞彙具有相似含義）。4) 適配：用單品影像替換詞彙，用風格套組替換句子。5) 解決稀疏性：使用 CNN 作為可訓練的編碼器，而非查找表。6) 驗證：透過類比和分類任務展示嵌入表示法的有效性。邏輯清晰，工程選擇（雙 CNN、負採樣）是對成熟技術的務實適配。

優點與缺陷：

優點： 本文最大的優點是其概念清晰度和有效的跨領域遷移。使用 CNN 處理視覺輸入和稀疏性是優雅的設計。時尚類比測試是一個出色且直觀的評估指標，能立即傳達模型的能力，就像原始的 Word2Vec 論文對自然語言處理所做的那樣。
缺陷與不足： 該模型本質上是反應性和描述性的，而非生成性的。它從現有的使用者創建套組中學習，可能強化流行或主流風格，而難以處理前衛或新穎的組合——這是分佈式方法的已知限制。它也迴避了個人化方面。我的「龐克」風格可能與你的不同。正如 He 等人（2017，WWW）關於神經協同過濾的開創性工作所指出的，最終目標是一個個人化函數。Style2Vec 提供了出色的單品表示法，但並未明確建模特定使用者如何與該風格空間互動。

可行見解：

對研究人員： 直接的下一步是混合化。將 Style2Vec 的上下文感知單品嵌入與使用者個人化模組（例如：神經推薦系統）結合。研究少樣本或零樣本風格學習，以打破流行度偏見。
對從業者（電商、造型應用程式）： 將此模型作為整體穿搭匹配、虛擬衣櫥造型和按風格搜尋的骨幹服務來實施。投資回報率是明確的：透過更好的「完成整體造型」建議提高平均訂單價值，並透過互動式風格探索工具（「尋找風格類似的單品」）提升客戶參與度。
戰略性啟示： 時尚人工智慧的未來在於多模態、上下文感知的系統。Style2Vec 是超越純視覺分析（如 DeepFashion 資料集所做）和純協同過濾的關鍵一步。成功的平台將是能夠將這種語意風格理解與個人使用者偏好建模相結合，甚至可能結合生成能力以創造新的虛擬風格，類似於 DALL-E 2 或 Stable Diffusion 等模型從文字提示生成影像，但受時尚合理性約束。

8. 未來應用與研究方向

個人化 Style2Vec： 擴展模型以學習使用者特定的風格嵌入，實現「為你量身打造的風格」而不僅僅是「通用風格」。這可能涉及結合單品和使用者編碼器的雙塔架構。
跨模態風格學習： 結合文字描述（產品標題、使用者評論）和社交媒體資料（帶有標籤的 Instagram 貼文）與影像一起，創建更豐富的多模態風格表示法。
生成式風格應用： 使用學習到的風格空間作為生成對抗網路（如 StyleGAN）或擴散模型的調節機制，以生成符合目標風格的新服裝設計，或透過操作單品嵌入來虛擬「試穿」不同風格。圖像到圖像轉換的研究，例如 CycleGAN（Zhu 等人，2017），顯示了跨領域轉換單品外觀的潛力，這可以由 Style2Vec 的方向引導。
動態風格趨勢預測： 追蹤風格向量質心隨時間的演變，以預測新興趨勢，類似於如何使用詞嵌入來追蹤語言中的語意轉變。
永續時尚： 透過在 Style2Vec 空間中尋找最近鄰，推薦風格連貫的二手或租賃單品，促進循環時尚經濟。

9. 參考文獻

Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).