Style2Vec: Stil Kümelerinden Moda Ürünleri için Temsil Öğrenimi

1. Giriş

Çevrimiçi moda pazarının hızlı büyümesiyle birlikte, etkili tavsiye sistemlerine duyulan ihtiyaç kritik bir hal almıştır. Kullanıcı satın alma geçmişine (puanlara) dayanan geleneksel işbirlikçi filtreleme yöntemleri moda için uygun değildir. Bir kullanıcının geçmişi birbirinden farklı stiller (örneğin, resmi takım elbiseler ve gündelik kot pantolonlar) içerebilir, bu da bireysel ürünler veya kıyafetler için tutarlı, ince taneli stil özelliklerinin öğrenilmesini imkansız kılar. Temel zorluk, ürünler arasındaki genellikle öznel olan "stil uyumluluğu" kavramını modellemektir.

Bu makale, moda ürünleri için yeni bir dağıtılmış temsil modeli olan Style2Vec'i tanıtmaktadır. Doğal Dil İşlemedeki (NLP) dağılımsal anlambilimden (örneğin, Word2Vec) ilham alarak, kullanıcıların derlediği "stil kümeleri"nden -uyumlu bir kıyafet oluşturan giysi ve aksesuar koleksiyonları- ürün yerleştirmelerini öğrenir. Temel yenilik, Evrişimli Sinir Ağlarını (CNN) ürün görüntülerinden yerleştirme vektörlerine projeksiyon fonksiyonları olarak kullanarak, her bir ürünün az sayıda stil kümesinde göründüğü seyreklik sorununun üstesinden gelmektir.

2. Metodoloji

2.1. Problem Formülasyonu & Stil Kümeleri

Bir stil kümesi, tek bir uyumlu kıyafeti oluşturan ürünlerin (örneğin, ceket, gömlek, pantolon, ayakkabı, çanta) bir koleksiyonu olarak tanımlanır. Bu, NLP'deki bir "cümle"ye benzerken, her bir moda ürünü bir "kelime"dir. Modelin amacı, bir ürün görüntüsü $I$'yı $d$-boyutlu gizli stil vektörüne eşleyen, $f: I \rightarrow \mathbb{R}^d$ fonksiyonunu öğrenmektir; öyle ki aynı stil kümesine ait ürünler, yerleştirme uzayında benzer vektörlere sahip olur.

2.2. Style2Vec Mimarisi

Model, iki ayrı Evrişimli Sinir Ağı (CNN) kullanır:

Girdi CNN'si ($\text{CNN}_i$): Temsili öğrenilen hedef ürünün görüntüsünü işler.
Bağlam CNN'si ($\text{CNN}_c$): Bağlam ürünlerinin (aynı stil kümesindeki diğer ürünler) görüntülerini işler.

Her iki ağ da kendi girdi görüntülerini aynı $d$-boyutlu yerleştirme uzayına eşler. Bu çift-ağ yaklaşımı, modelin öğrenme sırasında hedef ürünün rolünü ve bağlamını ayırt etmesine olanak tanır.

2.3. Eğitim Hedefi

Model, negatif örnekleme ile skip-gram'dan ilham alan bir karşılaştırmalı öğrenme hedefi kullanılarak eğitilir. Verilen bir stil kümesi $S = \{i_1, i_2, ..., i_n\}$ için amaç, bir hedef ürün $i_t$ verildiğinde herhangi bir bağlam ürünü $i_c$'yi gözlemleme olasılığını maksimize etmektir. Tek bir (hedef, bağlam) çifti için amaç fonksiyonu şudur:

$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$

Burada $\mathbf{v}_{i} = \text{CNN}(I_i)$, $i$ ürününün yerleştirmesidir, $\sigma$ sigmoid fonksiyonudur ve $P_n$, $K$ negatif örnek için negatif örnekleme gürültü dağılımıdır.

3. Deneysel Kurulum

3.1. Veri Kümesi

Model, popüler bir moda web sitesinden toplanan 297.083 kullanıcı tarafından oluşturulmuş stil kümesi üzerinde eğitilmiştir. Her küme, farklı kategorilerden (üst giyim, alt giyim, ayakkabı, aksesuar) birden fazla ürün görüntüsü içerir.

Veri Kümesi İstatistikleri

Toplam Stil Kümesi: 297.083

Küme Başına Ort. Ürün: ~5-7

Ürün Kategorileri: Çeşitli (giyim, ayakkabı, aksesuar)

3.2. Temel Modeller

Performans, çeşitli temel modellerle karşılaştırılmıştır:

Kategori Tabanlı: Özellik olarak one-hot kodlanmış ürün kategorilerinin kullanılması.
Nitelik Tabanlı: Elle hazırlanmış görsel niteliklerin (renk, desen) kullanılması.
CNN Özellikleri: Bireysel ürün görüntülerinden önceden eğitilmiş CNN (örneğin, ResNet) özelliklerinin kullanılması, küme bağlamı göz ardı edilir.
Kategoriler Üzerinde Geleneksel Word2Vec: Ürün kategorilerini stil kümesi "cümlelerinde" "kelime" olarak ele almak.

3.3. Değerlendirme Metrikleri

İki birincil değerlendirme yöntemi kullanılmıştır:

Moda Benzeşim Testi: Kelime yerleştirmelerindeki "kral - erkek + kadın = kraliçe" testine benzer. Öğrenilen vektörlerin anlamsal ilişkileri yakalayıp yakalamadığını değerlendirir (örneğin, "bilekten bağlamalı bot - kış + yaz = sandalet").
Stil Sınıflandırma: Öğrenilen Style2Vec özelliklerinin, önceden tanımlanmış stil etiketlerini (örneğin, resmi, punk, business casual) tahmin etmek için bir sınıflandırıcıya girdi olarak kullanılması. Metrik olarak doğruluk kullanılır.

4. Sonuçlar & Analiz

4.1. Moda Benzeşim Testi

Style2Vec, çeşitli moda benzeşimlerini başarıyla çözmüş, yerleştirmelerinin temel kategorilerin ötesinde zengin anlambilim yakaladığını göstermiştir. Örnekler şunlarla ilgili dönüşümleri içerir:

Mevsimsellik: Kış ürünü → Yaz ürünü.
Resmiyet: Gündelik ürün → Resmi ürün.
Renk/Desen: Düz renkli ürün → Desenli ürün.
Siluet/Şekil: Dar kesim ürün → Bol kesim ürün.

Bu, modelin, vektör uzayındaki belirli boyutların veya yönlerin yorumlanabilir stil niteliklerine karşılık geldiği ayrıştırılmış bir temsil öğrendiğini gösterir.

4.2. Stil Sınıflandırma Performansı

Bir stil sınıflandırıcısı için özellik olarak kullanıldığında, Style2Vec yerleştirmeleri tüm temel yöntemleri önemli ölçüde geride bırakmıştır. Temel içgörü, stil kümelerindeki birlikte oluşumdan öğrenilen özelliklerin, bireysel görüntülerden (CNN temelleri) veya meta verilerden (kategori/nitelik temelleri) gelen özelliklere göre, genel stil etiketlerini tahmin etmede daha etkili olmasıdır. Bu, stilin, bağlamdan en iyi şekilde öğrenilen ilişkisel bir özellik olduğu temel hipotezini doğrular.

Temel İçgörüler

Bağlam Kraldır: Stil, bir ürünün içsel bir özelliği değil, diğer ürünlerle olan ilişkisinden doğar.
Seyreklik Sorununun Üstesinden Gelmek: Her benzersiz ürünü ayrı bir simge olarak ele almanın doğasında bulunan veri seyreklik sorununu etkili bir şekilde hafifletmek için CNN'lerin eğitilebilir projeksiyon ağları olarak kullanılması.
Zengin Anlambilim: Yerleştirme uzayı, ürünleri birden fazla yorumlanabilir stil boyutu boyunca düzenleyerek karmaşık benzeşimsel akıl yürütmeyi mümkün kılar.

5. Teknik Detaylar & Matematiksel Formülasyon

Temel yenilik, Word2Vec çerçevesini görsel alana uyarlamaktadır. $D = \{S_1, S_2, ..., S_N\}$, stil kümelerinin derlemi olsun. $I_j$ bir görüntü olmak üzere, bir stil kümesi $S = \{I_1, I_2, ..., I_m\}$ için, $S$'den bir hedef ürün $I_t$ ve bir bağlam ürünü $I_c$ örnekleriz.

Yerleştirmeler şu şekilde hesaplanır: $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ Burada $\theta_i$ ve $\theta_c$ sırasıyla girdi ve bağlam CNN'lerinin parametreleridir. Ağlar, veri kümesindeki tüm (hedef, bağlam) çiftleri üzerinden Bölüm 2.3'te tanımlanan $J(\theta)$ amaç fonksiyonunu optimize ederek uçtan uca eğitilir. Eğitimden sonra, yalnızca Girdi CNN'si ($\text{CNN}_i$) herhangi bir yeni ürün görüntüsü için nihai Style2Vec yerleştirmesini oluşturmak üzere kullanılır.

6. Analiz Çerçevesi: Kod İçermeyen Bir Vaka Çalışması

Senaryo: Bir moda e-ticaret platformu, "Görünümü Tamamla" tavsiye bileşenini geliştirmek istiyor.

Geleneksel Yaklaşım: Bileşen, birlikte satın alma sıklığına veya paylaşılan kategori etiketlerine (örneğin, "bu blazer'ı satın alan müşteriler şu pantolonları da satın aldı") dayalı ürünler önerir. Bu, genel, çoğunlukla stilistik olarak uyumsuz önerilere yol açar.

Style2Vec Destekli Yaklaşım:

Yerleştirme Oluşturma: Katalogdaki tüm ürünler, Style2Vec vektörlerini elde etmek için eğitilmiş Girdi CNN'si üzerinden işlenir.
Sorgu Oluşturma: Bir kullanıcı sepetine lacivert chino pantolon ve beyaz spor ayakkabı ekler. Platform, bu iki ürünün Style2Vec vektörlerinin ortalamasını alarak, oluşmakta olan stil kümesini temsil eden bir "sorgu vektörü" oluşturur.
En Yakın Komşu Arama: Sistem, vektörleri sorgu vektörüne en yakın olan ürünleri yerleştirme uzayında arar. Örneğin, açık mavi Oxford gömlek, çizgili yuvarlak yaklı kazak ve kanvas kemer gibi ürünleri getirir.
Sonuç: Öneriler sadece sık birlikte satın alınan ürünler değil, aynı zamanda kullanıcının seçtiği ürünlerle stilistik olarak uyumlu ürünlerdir ve gündelik, smart-casual bir görünümü teşvik eder. Platform, benzeşim yoluyla önerileri açıklayabilir: "Bu gömleği önerdik çünkü sizin gündelik görünümünüzü tamamlıyor, tıpkı bir blazer'ın resmi bir görünümü tamamladığı gibi."

Bu çerçeve, tavsiye mantığını istatistiksel korelasyondan anlamsal stil uyumluluğuna kaydırır.

7. Sektör Analisti Perspektifi

Temel İçgörü: Style2Vec sadece başka bir yerleştirme modeli değil; kullanıcı zevkini modellemekten, stilistik bir bağlam içindeki ürün anlambilimini modellemeye yönelik stratejik bir dönüşümdür. Makale, geleneksel işbirlikçi filtrelemeyi modaya uygulamanın temel hatasını doğru bir şekilde tespit ediyor: bir kullanıcının satın alma geçmişi, gürültülü, çoklu stil içeren bir sinyaldir. Kıyafeti (stil kümesini) stilin atomik birimi olarak odak noktasına alarak, bu gürültüyü atlar ve modanın özünü -ki bu kombinatoriyel ve ilişkiseldir- yakalar. Bu, sosyal ağlara veya bilgi grafiklerine uygulanan Grafik Sinir Ağları (GNN'ler) gibi modellerde görüldüğü üzere, AI'daki ilişkisel ve grafik tabanlı akıl yürütmeye doğru olan daha geniş eğilimlerle uyumludur.

Mantıksal Akış: Argüman ikna edicidir. 1) Problem: Kullanıcı geçmişi tabanlı tavsiyeler stil için başarısız. 2) İçgörü: Stil, ürünlerin kıyafetlerdeki birlikte oluşumuyla tanımlanır. 3) Ödünç Alma: NLP'nin dağılımsal hipotezi (benzer bağlamlardaki kelimeler benzer anlama sahiptir). 4) Uyarlama: Kelimeleri ürün görüntüleriyle, cümleleri stil kümeleriyle değiştir. 5) Seyreklik Sorununu Çözme: Arama tabloları yerine eğitilebilir kodlayıcılar olarak CNN'leri kullan. 6) Doğrulama: Yerleştirmelerin benzeşim ve sınıflandırma görevleriyle çalıştığını göster. Mantık temizdir ve mühendislik seçimleri (çift CNN'ler, negatif örnekleme) kanıtlanmış tekniklerin pragmatik uyarlamalarıdır.

Güçlü Yönler & Zayıflıklar:

Güçlü Yönler: Makalenin en büyük gücü, kavramsal netliği ve etkili çapraz alan transferidir. Görsel girdiyi ve seyreklik sorununu ele almak için CNN'lerin kullanımı zariftir. Moda benzeşim testi, modelin yeteneğini hemen ileten, orijinal Word2Vec makalesinin NLP için yaptığı gibi, parlak ve sezgisel bir değerlendirme metriğidir.
Zayıflıklar & Boşluklar: Model doğası gereği tepkisel ve betimleyicidir, üretici değildir. Mevcut kullanıcı tarafından oluşturulmuş kümelerden öğrenir, potansiyel olarak popüler veya ana akım stilleri pekiştirir ve avangart veya yeni kombinasyonlarla mücadele eder - bu, dağılımsal yöntemlerin bilinen bir sınırlamasıdır. Ayrıca kişiselleştirme boyutunu atlar. Benim "punk" stilim seninkinden farklı olabilir. He ve diğerlerinin (2017, WWW) sinirsel işbirlikçi filtreleme üzerine temel çalışmasında belirtildiği gibi, nihai hedef kişiselleştirilmiş bir fonksiyondur. Style2Vec harika ürün temsilleri sağlar ancak belirli bir kullanıcının bu stil uzayıyla nasıl etkileşime girdiğini açıkça modellemez.

Uygulanabilir İçgörüler:

Araştırmacılar İçin: Acil bir sonraki adım melezlemedir. Style2Vec'in bağlam-bilinirli ürün yerleştirmelerini bir kullanıcı-kişiselleştirme modülüyle (örneğin, bir sinirsel tavsiye sistemi) birleştirin. Popülerlik yanlılığını kırmak için az-örnekli veya sıfır-örnekli stil öğrenimini araştırın.
Uygulayıcılar İçin (E-ticaret, Stil Uygulamaları): Bu modeli, kıyafet eşleştirme, sanal gardırop stilizasyonu ve stile göre arama için bir omurga hizmeti olarak uygulayın. ROI açıktır: daha iyi "görünümü tamamla" önerileriyle artan ortalama sipariş değeri ve etkileşimli stil keşif araçları ("bunun gibi stil olan ürünleri bul") ile gelişmiş müşteri katılımı.
Stratejik Çıkarım: Moda AI'sının geleceği çok modlu, bağlam-bilinir sistemlerdedir. Style2Vec, saf görsel analizin (DeepFashion veri kümelerinde yapılan gibi) ve saf işbirlikçi filtrelemenin ötesinde kritik bir adımdır. Kazanan platform, bu tür anlamsal stil anlayışını bireysel kullanıcı tercih modellemesiyle ve hatta yeni sanal stiller oluşturmak için üretici yeteneklerle harmanlayabilen platform olacaktır; tıpkı DALL-E 2 veya Stable Diffusion gibi modellerin metin istemlerinden görüntü üretmesi gibi, ancak moda olasılığıyla sınırlandırılmış şekilde.

8. Gelecek Uygulamalar & Araştırma Yönleri

Kişiselleştirilmiş Style2Vec: Modeli, kullanıcıya özgü stil yerleştirmeleri öğrenecek şekilde genişletmek, sadece "genel stil" değil "sizin için stil" sağlamak. Bu, ürün ve kullanıcı kodlayıcılarını birleştiren iki kuleli bir mimari içerebilir.
Çapraz Modlu Stil Öğrenimi: Görüntülerin yanı sıra metin açıklamalarını (ürün başlıkları, kullanıcı yorumları) ve sosyal medya verilerini (hashtag'li Instagram gönderileri) dahil ederek daha zengin, çok modlu stil temsilleri oluşturmak.
Üretici Stil Uygulamaları: Öğrenilen stil uzayını, StyleGAN veya difüzyon modelleri gibi üretici çekişmeli ağlar (GAN'lar) için bir koşullandırma mekanizması olarak kullanarak, hedef bir stile uygun yeni giysi tasarımları üretmek veya ürün yerleştirmelerini manipüle ederek farklı stilleri sanal olarak "denemek". CycleGAN (Zhu ve diğerleri, 2017) gibi görüntüden görüntüye çeviri araştırmaları, ürün görünümlerini alanlar arasında dönüştürme potansiyelini gösterir ve bu, Style2Vec yönleri tarafından yönlendirilebilir.
Dinamik Stil Trend Tahmini: Stil vektör merkezlerinin zaman içindeki evrimini izleyerek, kelime yerleştirmelerinin dildeki anlamsal değişimi izlemek için kullanıldığı gibi, yükselen trendleri tahmin etmek.
Sürdürülebilir Moda: Style2Vec uzayında en yakın komşuları bularak, stilistik olarak uyumlu ikinci el veya kiralık ürünler önermek, döngüsel moda ekonomilerini teşvik etmek.

9. Kaynaklar

Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).