Style2Vec: Uwakilishi wa Kujifunza kwa Vitu vya Mitindo kutoka kwa Seti za Mitindo

1. Utangulizi

Kwa ukuaji wa haraka wa soko la mitindo mtandaoni, kuna hitaji kubwa la mifumo bora ya mapendekezo. Mbinu za jadi za kuchuja kwa ushirikiano, ambazo zinategemea historia ya ununuzi ya mtumiaji (ukadiriaji), hazifai kwa mitindo. Historia ya mtumiaji inaweza kuwa na mitindo tofauti (mfano, suti rasmi na jeans za kawaida), na hivyo kufanya iwe vigumu kujifunza sifa za mitindo zinazofanana na zenye maelezo mazuri kwa vitu binafsi au mavazi. Changamoto kuu ni kuiga dhana nyeti, mara nyingi ya kibinafsi ya "ulinganifu wa mtindo" kati ya vitu.

Karatasi hii inatanguliza Style2Vec, muundo mpya wa uwakilishi uliosambazwa kwa vitu vya mitindo. Ikivutiwa na semantiki za usambazaji katika NLP (mfano, Word2Vec), inajifunza uingizaji wa vitu kutoka kwa "seti za mitindo" zilizokusanywa na watumiaji—mkusanyiko wa nguo na vifaa vya kufaa vinavyounda mavazi yanayofanana. Uvumbuzi mkuu ni kutumia Mitandao ya Neural ya Convolutional (CNN) kama kazi za makadirio kutoka kwa picha za vitu hadi vekta za uingizaji, na hivyo kushinda tatizo la uchache wa data ambapo vitu binafsi huonekana katika seti chache za mitindo.

2. Mbinu

2.1. Uundaji wa Tatizo & Seti za Mitindo

Seti ya mtindo inafafanuliwa kama mkusanyiko wa vitu (mfano, koti, shati, suruali, viatu, mfuko) ambayo pamoja hufanya mavazi moja yanayofanana. Inafanana na "sentensi" katika NLP, wakati kila kitu cha mitindo ni "neno". Lengo la muundo ni kujifunza kazi $f: I \rightarrow \mathbb{R}^d$ inayobadilisha picha ya kitu $I$ kuwa vekta ya siri ya mtindo yenye vipimo $d$, hivi kwamba vitu vinavyomilikiwa na seti sawa ya mtindo vina vekta zinazofanana katika nafasi ya uingizaji.

2.2. Muundo wa Style2Vec

Muundo hutumia Mitandao miwili tofauti ya Neural ya Convolutional (CNN):

CNN ya Ingizo ($\text{CNN}_i$): Inachakata picha ya kitu lengwa ambacho uwakilishi wake unajifunzwa.
CNN ya Muktadha ($\text{CNN}_c$): Inachakata picha za vitu vya muktadha (vitu vingine katika seti sawa ya mtindo).

Mitandao yote miwili hubadilisha picha zao za ingizo kuwa nafasi sawa ya uingizaji yenye vipimo $d$. Mbinu hii ya mitandao miwili huruhusu muundo kutofautisha kati ya jukumu la kitu lengwa na muktadha wake wakati wa kujifunza.

2.3. Lengo la Mafunzo

Muundo unafunzwa kwa kutumia lengo la kujifunza kwa kulinganisha lililovutiwa na skip-gram na sampuli hasi. Kwa seti fulani ya mtindo $S = \{i_1, i_2, ..., i_n\}$, lengo ni kuongeza uwezekano wa kuona kitu chochote cha muktadha $i_c$ ikitolewa kitu lengwa $i_t$. Kazi ya lengo kwa jozi moja (lengwa, muktadha) ni:

$$ J(\theta) = \log \sigma(\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_c}) + \sum_{k=1}^{K} \mathbb{E}_{i_k \sim P_n} [\log \sigma(-\mathbf{v}_{i_t} \cdot \mathbf{v}_{i_k})] $$

ambapo $\mathbf{v}_{i} = \text{CNN}(I_i)$ ni uingizaji wa kitu $i$, $\sigma$ ni kazi ya sigmoid, na $P_n$ ni usambazaji wa kelele kwa sampuli hasi ya mifano $K$ hasi.

3. Usanidi wa Majaribio

3.1. Seti ya Data

Muundo ulifunzwa kwenye seti 297,083 za mitindo zilizoundwa na watumiaji zilizokusanywa kutoka kwa tovuti maarufu ya mitindo. Kila seti ina picha nyingi za vitu kutoka kwa jamii tofauti (vitu vya juu, vya chini, viatu, vifaa).

Takwimu za Seti ya Data

Jumla ya Seti za Mitindo: 297,083

Wastani wa Vitu kwa Seti: ~5-7

Jamii za Vitu: Mbalimbali (nguo, viatu, vifaa)

3.2. Miundo ya Msingi

Utendaji ulilinganishwa na miundo kadhaa ya msingi:

Kulingana na Jamii: Kwa kutumia sifa za jamii za vitu zilizopigwa kwa njia ya one-hot.
Kulingana na Sifa: Kwa kutumia sifa za kuona zilizoundwa kwa mkono (rangi, muundo).
Sifa za CNN: Kwa kutumia sifa za CNN zilizofunzwa awali (mfano, ResNet) kutoka kwa picha za vitu binafsi, bila kuzingatia muktadha wa seti.
Word2Vec ya Jadi kwenye Jamii: Kuchukulia jamii za vitu kama "maneno" katika "sentensi" za seti za mitindo.

3.3. Vipimo vya Tathmini

Njia mbili kuu za tathmini zilitumika:

Jaribio la Mfano wa Mitindo: Linalofanana na jaribio la "mfalme - mwanamume + mwanamke = malkia" katika uingizaji wa maneno. Inatathmini ikiwa vekta zilizojifunza zinashika uhusiano wa maana (mfano, "buti ya kifundo cha mguu - majira ya baridi + majira ya joto = sandali").
Uainishaji wa Mtindo: Kwa kutumia sifa za Style2Vec zilizojifunza kama ingizo kwa kikaguzi ili kutabiri lebo za mtindo zilizobainishwa awali (mfano, rasmi, punk, kawaida ya biashara). Usahihi hutumika kama kipimo.

4. Matokeo & Uchambuzi

4.1. Jaribio la Mfano wa Mitindo

Style2Vec ilifanikiwa kutatua mifano mbalimbali ya mitindo, na kuonyesha kwamba uingizaji wake unashika semantiki tajiri zaidi ya jamii za msingi. Mifano inajumuisha mabadiliko yanayohusiana na:

Msimu: Kitu cha majira ya baridi → Kitu cha majira ya joto.
Urasmi: Kitu cha kawaida → Kitu cha rasmi.
Rangi/Muundo: Kitu cha rangi moja → Kitu chenye muundo.
Umbo/Umbo: Kitu kilichofaa → Kitu chenye nafasi.

Hii inaonyesha muundo ulijifunza uwakilishi uliotenganishwa ambapo vipimo maalum au mwelekeo katika nafasi ya vekta yanalingana na sifa za mtindo zinazoweza kufasiriwa.

4.2. Utendaji wa Uainishaji wa Mitindo

Ilipotumika kama sifa za kikaguzi cha mtindo, uingizaji wa Style2Vec ulishinda kwa kiasi kikubwa njia zote za msingi. Ufahamu mkuu ni kwamba sifa zilizojifunza kutoka kwa kuwepo pamoja katika seti za mitindo zinabashiri zaidi lebo za mtindo kuliko sifa kutoka kwa picha za vitu binafsi (CNN za msingi) au metadata (jamii/sifa za msingi). Hii inathibitisha dhana kuu kwamba mtindo ni sifa ya uhusiano inayojifunza vyema kutoka kwa muktadha.

Ufahamu Muhimu

Muktadha ni Mfalme: Mtindo sio sifa ya ndani ya kitu bali hutokana na uhusiano wake na vitu vingine.
Kushinda Uchache wa Data: Kutumia CNN kama mitandao inayoweza kufunzwa ya makadirio inapunguza kwa ufanisi tatizo la uchache wa data linalojitokeza wakati wa kuchukulia kila kitu kipekee kama ishara tofauti.
Semantiki Tajiri: Nafasi ya uingizaji hupanga vitu kwenye vipimo vingi vya mtindo vinavyoweza kufasiriwa, na kuwezesha hoja ngumu za mifano.

5. Maelezo ya Kiufundi & Uundaji wa Kihisabati

Uvumbuzi mkuu upo katika kurekebisha mfumo wa Word2Vec kwa kikoa cha kuona. Acha $D = \{S_1, S_2, ..., S_N\}$ iwe mkusanyiko wa seti za mitindo. Kwa seti ya mtindo $S = \{I_1, I_2, ..., I_m\}$, ambapo $I_j$ ni picha, tunachukua sampuli ya kitu lengwa $I_t$ na kitu cha muktadha $I_c$ kutoka $S$.

Uingizaji huhesabiwa kama: $$\mathbf{v}_t = \text{CNN}_i(I_t; \theta_i), \quad \mathbf{v}_c = \text{CNN}_c(I_c; \theta_c)$$ ambapo $\theta_i$ na $\theta_c$ ni vigezo vya CNN za ingizo na muktadha, mtawalia. Mitandao hufunzwa kwa mwisho-hadi-mwisho kwa kuboresha kazi ya lengo $J(\theta)$ iliyofafanuliwa katika Sehemu ya 2.3 kwenye jozi zote (lengwa, muktadha) katika seti ya data. Baada ya mafunzo, CNN ya Ingizo ($\text{CNN}_i$) pekee ndiyo hutumiwa kutoa uingizaji wa mwisho wa Style2Vec kwa picha yoyote mpya ya kitu.

6. Mfumo wa Uchambuzi: Utafiti wa Kesi Usio na Msimbo

Hali: Jukwaa la biashara ya mitindo mtandaoni linataka kuboresha kifaa chake cha mapendekezo cha "Kamilisha Mtazamo".

Mbinu ya Jadi: Kifaa hicho kinapendekeza vitu kulingana na mzunguko wa ununuzi pamoja au lebo za jamii zinazoshirikiwa (mfano, "wateja walionunua koti hili pia walinunua suruali hizi"). Hii husababisha mapendekezo ya jumla, mara nyingi yasiyolingana kimtindo.

Mbinu Yenye Uwezo wa Style2Vec:

Uzalishaji wa Uingizaji: Vitu vyote katika katalogi vinachakatwa kupitia CNN ya Ingizo iliyofunzwa ili kupata vekta zao za Style2Vec.
Uundaji wa Swala: Mtumiaji anaongeza jozi ya suruali za chino za navy na viatu vyeupe vya sneaker kwenye gari lake la ununuzi. Jukwaa linapata wastani wa vekta za Style2Vec za vitu hivi viwili ili kuunda "vekta ya swala" inayowakilisha seti ya mtindo inayoanza.
Utafutaji wa Jirani wa Karibu: Mfumo hutafuta nafasi ya uingizaji kwa vitu ambavyo vekta zake ziko karibu zaidi na vekta ya swala. Inapata, kwa mfano, shati la Oxford la rangi ya samawati, sweta ya crewneck yenye mistari, na ukanda wa kitambaa.
Matokeo: Mapendekezo hayajununuliwa pamoja mara kwa mara tu bali pia yanafanana kimtindo na vitu vilivyochaguliwa na mtumiaji, na kukuza mtazamo wa kawaida, wa kisasa. Jukwaa linaweza kuelezea mapendekezo kupitia mfano: "Tulipendekeza shati hili kwa sababu linakamilisha mtazamo wako wa kawaida, sawa na jinsi koti linavyokamilisha la rasmi."

Mfumo huu hubadilisha mantiki ya mapendekezo kutoka kwa uhusiano wa takwimu hadi ulinganifu wa maana ya mtindo.

7. Mtazamo wa Mchambuzi wa Sekta

Ufahamu Mkuu: Style2Vec sio muundo mwingine wa uingizaji tu; ni mabadiliko ya kimkakati kutoka kwa kuiga ladha ya mtumiaji hadi kuiga maana ya kitu ndani ya muktadha wa kimtindo. Karatasi inatambua kosa la msingi katika kutumia uchujaji wa jadi wa ushirikiano kwa mitindo: historia ya ununuzi ya mtumiaji ni ishara yenye kelele na mitindo mingi. Kwa kuzingatia mavazi (seti ya mtindo) kama kitengo cha msingi cha mtindo, wanapita kelele hii na kunasa kiini cha mitindo—ambacho ni cha mchanganyiko na uhusiano. Hii inalingana na mienendo mikubwa katika AI inayoelekea kwenye hoja za uhusiano na za msingi wa grafu, kama inavyoonekana katika miundo kama Mitandao ya Neural ya Grafu (GNN) inayotumika kwa mitandao ya kijamii au grafu za maarifa.

Mtiririko wa Kimantiki: Hoja hiyo ni ya kuvutia. 1) Tatizo: Mapendekezo yanayotegemea historia ya mtumiaji yanashindwa kwa mtindo. 2) Ufahamu: Mtindo unafafanuliwa na kuwepo pamoja kwa vitu katika mavazi. 3) Kukopa: Dhana ya usambazaji ya NLP (maneno katika miktadha inayofanana yana maana inayofanana). 4) Kurekebisha: Badilisha maneno na picha za vitu, sentensi na seti za mitindo. 5) Kutatua Uchache wa Data: Tumia CNN kama viwezeshaji vinavyoweza kufunzwa badala ya meza za kutafuta. 6) Thibitisha: Onyesha uingizaji unafanya kazi kupitia kazi za mifano na uainishaji. Mantiki ni safi na chaguzi za uhandisi (CNN mbili, sampuli hasi) ni marekebisho ya vitendo ya mbinu zilizothibitishwa.

Nguvu & Kasoro:

Nguvu: Nguvu kuu ya karatasi ni uwazi wake wa dhana na uhamishaji mzuri wa kuvuka vikoa. Matumizi ya CNN kushughulikia ingizo la kuona na uchache wa data ni mazuri. Jaribio la mfano wa mitindo ni kipimo bora cha tathmini, kinachoeleweka kwa urahisi, kinachoonyesha mara moja uwezo wa muundo, sawa na karatasi ya asili ya Word2Vec ilivyofanya kwa NLP.
Kasoro & Mapungufu: Muundo kwa asili ni wa kukabiliana na maelezo, sio wa kuzalisha. Unajifunza kutoka kwa seti zilizopo zilizoundwa na watumiaji, na kwa uwezekano mkubwa kuimarisha mitindo maarufu au ya kawaida na kukosa mchanganyiko mpya au wa kisasa—kikomo kinachojulikana cha mbinu za usambazaji. Pia unapita kando ya kipengele cha kubinafsisha. Mtindo wangu wa "punk" unaweza kutofautiana na wako. Kama ilivyoelezwa katika kazi muhimu ya uchujaji wa ushirikiano wa neural na He et al. (2017, WWW), lengo la mwisho ni kazi ya kibinafsi. Style2Vec hutoa uwakilishi bora wa vitu lakini haiwazi kwa uwazi jinsi mtumiaji maalum anavyoshirikiana na nafasi hiyo ya mtindo.

Ufahamu Unaoweza Kutekelezwa:

Kwa Watafiti: Hatua inayofuata mara moja ni mchanganyiko. Unganisha uingizaji wa vitu unaotambua muktadha wa Style2Vec na moduli ya kibinafsi ya mtumiaji (mfano, mfumo wa mapendekezo wa neural). Chunguza kujifunza kwa mtindo kwa mifano michache au bila mfano ili kuvunja upendeleo wa umaarufu.
Kwa Watendaji (Biashara ya E, Programu za Mitindo): Tekeleza muundo huu kama huduma ya msingi ya kuendana kwa mavazi, mitindo ya wadhibiti ya kimaandishi, na utafutaji-kwa-mtindo. Faida ya uwekezaji ni wazi: ongezeko la thamani ya wastani ya agizo kupitia mapendekezo bora ya "kamilisha mtazamo" na uboreshaji wa ushirikiano wa wateja kupitia zana za kuchunguza mtindo zinazoshirikiana ("tafuta vitu vinavyofanana na mtindo huu").
Hitimisho la Kimkakati: Mustakabali wa AI ya mitindo upo katika mifumo ya hali nyingi, inayotambua muktadha. Style2Vec ni hatua muhimu zaidi ya uchambuzi wa kuona tu (kama ulivyofanywa na seti za data za DeepFashion) na uchujaji wa ushirikiano tu. Jukwaa litakaloshinda litakuwa lile linaloweza kuchanganya aina hii ya uelewa wa maana ya mtindo na uigaji wa mapendeleo ya mtumiaji binafsi na labda hata uwezo wa kuzalisha kwa ajili ya kuunda mitindo mpya ya kimaandishi, sawa na jinsi miundo kama DALL-E 2 au Stable Diffusion inavyozalisha picha kutoka kwa maagizo ya maandishi, lakini ikizuiliwa na uwezekano wa mitindo.

8. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Style2Vec ya Kibinafsi: Kupanua muundo kujifunza uingizaji wa mtindo maalum wa mtumiaji, na kuwezesha "mtindo kwako" badala ya "mtindo kwa ujumla". Hii inaweza kuhusisha muundo wa mnara-mbili unaochanganya viwezeshaji vya kitu na mtumiaji.
Kujifunza Mtindo wa Hali Nyingi: Kujumuisha maelezo ya maandishi (majina ya bidhaa, hakiki za watumiaji) na data ya mitandao ya kijamii (michapo ya Instagram yenye vitambulisho) pamoja na picha ili kuunda uwakilishi tajiri zaidi wa mtindo wa hali nyingi.
Matumizi ya Kuzalisha Mtindo: Kutumia nafasi ya mtindo iliyojifunza kama utaratibu wa kudhibiti kwa mitandao ya kupinga ya kuzalisha (GANs) kama StyleGAN au miundo ya usambazaji ili kuzalisha miundo mpya ya nguo inayofaa mtindo lengwa, au kujaribu kimaandishi mitindo tofauti kwa kubadilisha uingizaji wa vitu. Utafiti katika tafsiri ya picha-hadi-picha, kama vile CycleGAN (Zhu et al., 2017), unaonyesha uwezekano wa kubadilisha muonekano wa vitu kuvuka vikoa, ambavyo vinaweza kuongozwa na mwelekeo wa Style2Vec.
Utabiri wa Mienendo ya Mtindo Inayobadilika: Kufuatilia mageuzi ya vituo vya vekta vya mtindo kwa muda ili kutabiri mienendo inayoibuka, sawa na jinsi uingizaji wa maneno umetumika kufuatilia mabadiliko ya maana katika lugha.
Mitindo Endelevu: Kupendekeza vitu vya mitindo vinavyofanana vilivyotumika au vya kukodisha kwa kutafuta jirani wa karibu katika nafasi ya Style2Vec, na hivyo kukuza uchumi wa mzunguko wa mitindo.

9. Marejeo

Lee, H., Seol, J., & Lee, S. (2017). Style2Vec: Representation Learning for Fashion Items from Style Sets. arXiv preprint arXiv:1708.04014.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T. S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173–182).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).