ST-Net: Mfumo wa Kujiongoza kwa Usanisi wa Nguo Zinazolingana bila Usimamizi

Yaliyomo

1. Utangulizi

Usanisi wa Nguo Zinazolingana (CCS) ni kazi muhimu katika teknolojia ya mitindo inayoendeshwa na Akili Bandia, inayolenga kutengeneza kipande cha nguo kinacholingana kwa usawa na kipande cha pembejeo kilichotolewa (k.m., kutengeneza suruali inayolingana kwa fulana fulani). Njia za jadi hutegemea sana seti za data zilizokusanywa za nguo zilizopangwa, ambazo zinahitaji nguvu kazi nyingi na ghali kuunda, zinazohitaji ujuzi wa kitaalamu wa mitindo. Karatasi hii inatangaza ST-Net (Mtandao wa Kizalendo Unaongozwa na Mtindo na Muundo), mfumo mpya wa kujiongoza ambao huondoa hitaji la data zilizopangwa. Kwa kuchukua faida ya kujifunza kwa kujiongoza, ST-Net hujifunza kanuni za ulinganifu wa mitindo moja kwa moja kutoka kwa sifa za mtindo na muundo za picha za nguo zisizopangwa, ikiwakilisha mabadiliko makubwa kuelekea Akili Bandia ya mitindo inayoweza kuongezeka na yenye ufanisi wa data.

2. Njia ya Utafiti

2.1. Uundaji wa Tatizo

Changamoto kuu imeundwa kama tatizo la tafsiri ya picha-hadi-picha (I2I) isiyo na usimamizi kati ya nyanja mbili: chanzo (k.m., fulana) na lengo (k.m., suruali). Tofauti na kazi za kawaida za I2I (k.m., tafsiri ya farasi-hadi-punda milia kwenye CycleGAN), hakuna mpangilio wa anga kati ya fulana na suruali. Ulinganifu unafafanuliwa na sifa za kiwango cha juu zilizoshirikiwa kama mtindo (k.m., rasmi, rahisi) na muundo/ruwaza (k.m., mistari, maua). Lengo ni kujifunza uchoraji ramani $G: X \rightarrow Y$ ambao, kwa kipande $x \in X$, hutengeneza kipande kinacholingana $\hat{y} = G(x) \in Y$.

2.2. Muundo wa ST-Net

ST-Net imejengwa juu ya mfumo wa Mtandao wa Kizalendo wa Kupingana (GAN). Uvumbuzi wake mkuu ni kipaza sauti cha njia mbili ambacho wazi hutenganisha picha ya pembejeo kuwa msimbo wa mtindo $s$ na msimbo wa muundo $t$.

Kipaza Sauti cha Mtindo: Hutoa sifa za juu, za kimantiki za kimataifa (k.m., "kiboho", "rahisi").
Kipaza Sauti cha Muundo: Hunasa sifa za chini, za mitaa za ruwaza (k.m., karatasi, nukta).

Kizalendo $G$ kisha husanisi kipande kipya katika nyanja lengwa kwa kuchanganya tena misimbo hii iliyotenganishwa, ikiongozwa na kazi ya ulinganifu iliyojifunza. Kipitishi $D$ huhakikisha vipande vilivyotengenezwa ni vya kweli na vinamilikiwa na nyanja lengwa.

2.3. Mkakati wa Kujifunza kwa Kujiongoza

Ili kufundisha bila jozi, ST-Net hutumia mkakati unaovutiwa na uthabiti wa mzunguko lakini unaufaa kwa ulinganifu wa kiwango cha sifa. Wazo la msingi ni kubadilishana sifa na ujenzi upya. Kwa vipande viwili visivyopangwa $(x_i, y_j)$, misimbo yao ya mtindo na muundo hutolewa. Jozi "ya kuwazi" inayolingana huundwa kwa mfano, kwa kuchanganya mtindo wa $x_i$ na muundo kutoka nyanja lengwa. Mtandao unafundishwa kuunda upya vipande asili kutoka kwa uwakilishi huu uliobadilishwa, ukilazimisha kujifunza uwakilishi wenye maana na unaoweza kuhamishwa wa ulinganifu.

3. Maelezo ya Kiufundi

3.1. Uundaji wa Kihisabati

Acha $E_s$ na $E_t$ ziwe vipaza sauti vya mtindo na muundo, na $G$ iwe kizalendo. Kwa picha ya pembejeo $x$, tuna: $$s_x = E_s(x), \quad t_x = E_t(x)$$ Mchakato wa utengenezaji wa kipande kinacholingana $\hat{y}$ ni: $$\hat{y} = G(s_x, t')$$ ambapo $t'$ ni msimbo wa muundo, ambao unaweza kuchukuliwa sampuli, kupatikana kutoka kipande kingine, au kujifunza kama mabadiliko ya $t_x$ ili kufaa nyanja lengwa.

3.2. Kazi za Hasara

Hasara ya jumla $\mathcal{L}_{total}$ ni mchanganyiko wa malengo kadhaa:

Hasara ya Kupingana ($\mathcal{L}_{adv}$): Hasara ya kawaida ya GAN inayohakikisha ukweli wa matokeo. $$\min_G \max_D \mathbb{E}_{y \sim p_{data}(y)}[\log D(y)] + \mathbb{E}_{x \sim p_{data}(x)}[\log(1 - D(G(x)))]$$
Hasara ya Kujijenga Upya ($\mathcal{L}_{rec}$): Inahakikisha vipaza sauti vinakamata taarifa za kutosha. $$\mathcal{L}_{rec} = \|x - G(E_s(x), E_t(x))\|_1$$
Hasara ya Uthabiti wa Sifa ($\mathcal{L}_{attr}$): Uvumbuzi wa msingi. Baada ya kubadilishana sifa (k.m., kutumia mtindo kutoka $x$ na muundo kutoka $y$ ya nasibu), mtandao unapaswa kuwa na uwezo wa kujenga upya $y$ asili, ikilazimisha kipande kilichotengenezwa kihifadhi sifa iliyobadilishwa. $$\mathcal{L}_{attr} = \|y - G(E_s(x), E_t(y))\|_1$$
Hasara ya Tofauti ya KL ($\mathcal{L}_{KL}$): Inahimiza nafasi za siri zilizotenganishwa (mtindo/muundo) kufuata usambazaji wa awali (k.m., Gaussian), ikiboresha ujumla.

$$\mathcal{L}_{total} = \lambda_{adv}\mathcal{L}_{adv} + \lambda_{rec}\mathcal{L}_{rec} + \lambda_{attr}\mathcal{L}_{attr} + \lambda_{KL}\mathcal{L}_{KL}$$

4. Majaribio na Matokeo

4.1. Seti ya Data

Waandishi waliunda seti kubwa ya data ya CCS isiyo na usimamizi kutoka vyanzo vya wavuti, ikichukua mamia ya maelfu ya picha za nguo za juu na chini zisizopangwa. Hii inashughulikia kikwazo kikuu cha data katika uwanja huu.

4.2. Vipimo vya Tathmini

Utendaji ulitathminiwa kwa kutumia:

Alama ya Kuanzishwa (IS) & Umbali wa Kuanzishwa wa Fréchet (FID): Vipimo vya kawaida vya ubora wa utengenezaji wa picha na utofauti.
Alama ya Ulinganifu wa Mitindo (FCS): Kipimo kilichojifunza au tathmini ya kibinadamu inayokadiria jinsi kipande kilichotengenezwa kinavyolingana na kipande cha pembejeo kwa mtindo.
Utafiti wa Watumiaji (Kupima A/B) Wamahakimu wa kibinadamu walipendelea matokeo kutoka ST-Net kuliko njia za msingi kwa suala la ulinganifu na ukweli.

4.3. Matokeo ya Kiasi na Ubora

Kiasi: ST-Net ilipata alama bora za FID na IS ikilinganishwa na njia za kisasa za I2I zisizo na usimamizi kama CycleGAN na MUNIT, ikionyesha ubora bora wa picha. Pia ilifanya vizuri zaidi kuliko hizo kwenye Alama ya Ulinganifu wa Mitindo.
Ubora: Matokeo ya kuona yanaonyesha ST-Net inafanikiwa kutengeneza suruali zinazoshiriki mitindo inayofanana (k.m., rahisi ya biashara) na muundo (k.m., mistari inayolingana au sauti ya rangi) na fulana ya pembejeo. Kinyume chake, njia za msingi mara nyingi zilitengeneza vipande ambavyo vilikuwa vya kweli lakini vilivyokosekana kwa mtindo au kushindwa kuhamisha ruwaza muhimu.

Picha Muhimu ya Matokeo

FID (Chini ni Bora): ST-Net: 25.3, CycleGAN: 41.7, MUNIT: 38.2

Upendeleo wa Kibinadamu (Ulinganifu): ST-Net ilichaguliwa katika 78% ya kulinganisha kwa jozi.

5. Mfumo wa Uchambuzi na Utafiti wa Kesi

Uelewa wa Msingi: Mafanikio halisi ya karatasi sio tu tofauti nyingine ya GAN; ni kufikiria upya kwa msingi wa tatizo la "ulinganifu". Badala ya kulichukulia kama tafsiri ya kiwango cha pikseli (ambayo inashindwa kwa sababu ya kutopatana kwa anga), wanaulibadilisha kuwa utengenezaji wa masharti wa kiwango cha sifa. Hii ni njia ya busara zaidi, inayofanana zaidi na kibinadamu ya Akili Bandia ya mitindo.

Mtiririko wa Kimantiki: Mantiki ni nzuri: 1) Kubali data zilizopangwa ni kikwazo. 2) Tambua kuwa mtindo/muundo, sio umbo, ndio unaoendesha ulinganifu. 3) Buni mtandao ambao wazi hutenganisha sifa hizi. 4) Tumia kujiongoza (kubadilishana sifa) kujifunza kazi ya ulinganifu kutoka kwa data zisizopangwa. Mtiririko huu unashambulia moja kwa moja vikwazo vya tatizo la msingi.

Nguvu na Kasoro:
Nguvu: Mkakati wa kutenganisha wazi unaweza kufasiriwa na ni mzuri. Kuunda seti kubwa ya data maalum ni mchango mkubwa wa vitendo. Njia hii inaweza kuongezeka zaidi kuliko njia zinazotegemea jozi.
Kasoro: Karatasi inadokeza lakini haitatui kabisa tatizo la "utata wa mtindo"—jinsi ya kufafanua na kupima "mtindo" zaidi ya muundo? Tathmini, ingawa imeboreshwa, bado inategemea sehemu ya alama za kibinadamu za kibinafsi. Njia hii inaweza kukumbwa na ugumu na uhamishaji wa mtindo wa juu sana au wa kisasa ambapo kanuni za ulinganifu hazijafafanuliwa vizuri.

Uelewa Unaoweza Kutekelezwa: Kwa watendaji: Mfumo huu ni mfano wa kuhamia zaidi ya Akili Bandia ya mitindo inayosimamiwa. Hila ya kujiongoza ya kubadilishana sifa inatumika kwa nyanja zingine kama usanisi wa seti ya fanicha au mapambo ya ndani. Kwa watafiti: Upeo unaofuata ni kuunganisha ishara za njia nyingi (maelezo ya maandishi ya mtindo) na kuhamia kuelekea utengenezaji kamili wa nguo (vipodozi, viatu) na ubinafsishaji wa mtumiaji-katika-kitanzi. Kazi ya watafiti katika Maabara ya Vyombo vya Habari ya MIT juu ya akili ya urembo hutoa mwelekeo wa ziada wa kufafanua mtindo kwa hesabu.

6. Matumizi ya Baadaye na Mwelekeo

Wasaidizi wa Mitindo Walio Binafsishwa: Kuunganishwa katika majukwaa ya biashara ya elektroniki kwa mapendekezo ya "kukamilisha muonekano" kwa wakati halisi, ikiongeza kwa kiasi kikubwa saizi ya kikapu.
Mitindo Endelevu na Uundaji wa Kielektroniki: Wabunifu wanaweza kwa haraka kutengeneza makusanyo yanayolingana kwa njia ya kielektroniki, ikipunguza taka ya sampuli za kimwili.
Metaverse na Utambulisho wa Kielektroniki: Teknolojia ya msingi ya kutengeneza avatari za kielektroniki zinazoshikamana na nguo katika ulimwengu wa kuwazi.
Mwelekeo wa Utafiti:
- Uelewa wa Mtindo wa Njia Nyingi: Kuunganisha maandishi (ripoti za mienendo, blogu za mitindo) na muktadha wa kijamii ili kuboresha misimbo ya mtindo.
- Ujumuishaji wa Mfano wa Uenezi: Kuchukua nafasi ya msingi wa GAN na miundo ya uenezi ya siri kwa uaminifu wa juu na utofauti, kufuata mienendo iliyowekwa na miundo kama Stable Diffusion.
- Utengenezaji wa Kuingiliana na Unaoweza Kudhibitiwa: Kuruhusu watumiaji kurekebisha vitegemezi vya mtindo ("zaidi ya rasmi", "ongeza rangi zaidi") kwa udhibiti uliosafishwa.
- Usanisi wa Nguo Kamili wa Kuvuka Kategoria: Kupanua kutoka fulana/suruali kujumuisha nguo za nje, viatu, na vipodozi katika mfumo mmoja unaoshikamana.

7. Marejeo

Dong, M., Zhou, D., Ma, J., & Zhang, H. (2023). Towards Intelligent Design: A Self-Driven Framework for Collocated Clothing Synthesis Leveraging Fashion Styles and Textures. Preprint.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
Huang, X., Liu, M.-Y., Belongie, S., & Kautz, J. (2018). Multimodal Unsupervised Image-to-Image Translation. European Conference on Computer Vision (ECCV).
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Veit, A., Kovacs, B., Bell, S., McAuley, J., Bala, K., & Belongie, S. (2015). Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences. IEEE International Conference on Computer Vision (ICCV).
MIT Media Lab. (n.d.). Aesthetics & Computation Group. Retrieved from media.mit.edu