DeepVRSketch+: Uundaji wa Mitindo ya 3D ya Kibinafsi kupitia Uchoraji wa AR/VR

Yaliyomo

1. Utangulizi na Muhtasari

Kazi hii inashughulikia pengo muhimu katika kuwezesha uundaji wa mitindo ya kidijitali kwa watu wote. Ingawa teknolojia za AR/VR zinakuwa vifaa vya kawaida vya matumizi ya watu, zana za kuunda maudhui ya 3D ndani ya mazingira haya ya kuzama bado ni ngumu na hazipatikani kwa wasio wataalamu. Karatasi hii inapendekeza DeepVRSketch+, mfumo mpya unaowezesha watumiaji wa kawaida kubuni nguo za 3D za kibinafsi kupitia uchoraji wa 3D wa mikono huru na wa kueleweka katika mazingira ya AR/VR. Uvumbuzi wa msingi upo katika kutafsiri michoro ya 3D isiyo sahihi, iliyochorwa na mtumiaji, kuwa mifano ya nguo za 3D zenye usahihi wa juu na zinazoweza kuvaliwa kwa kutumia mfuatano wa AI wa uzalishaji uliobuniwa kwa uangalifu.

Matumizi ya mfumo huu yanajumuisha kujieleza kwa kibinafsi katika metaverse, taswira ya AR/VR, na kujaribu nguo kivitendo, na kuuweka kama kiwezeshaji muhimu cha maudhui yanayotengenezwa na watumiaji katika majukwaa ya kidijitali ya kizazi kijacho.

Tatizo Kuu Lililosuluhishwa

Kuwezesha ubunifu wa mitindo ya 3D kwa watu wote, kuondoa vizuizi vikali vya kiufundi kwa watumiaji wa kawaida.

Teknolojia ya Msingi

Mfumo wa Usambazaji wenye Masharti + Kipochi cha Michoro ya 3D + Kujifunza Kwa Mtaala Unaobadilika.

Mchango Mpya

Kuanzishwa kwa seti ya data ya KO3DClothes: jozi za mifano ya nguo za 3D na michoro ya watumiaji.

2. Mbinu na Mfumo wa Kiufundi

Mfumo uliopendekezwa umejengwa juu ya nguzo tatu: seti mpya ya data, muundo wa mfano wa uzalishaji, na mkakati wa mafunzo ulioboreshwa.

2.1. Seti ya Data ya KO3DClothes

Ili kushinda ukosefu wa data ya mafunzo kwa kazi za kutoka kwa michoro ya 3D hadi nguo, waandishi wanaanzisha KO3DClothes. Seti hii ya data ina jozi za mifano ya nguo za 3D zenye ubora wa juu (k.m., gauni, mashati, suruali) na michoro inayolingana ya 3D iliyoundwa na watumiaji katika mazingira ya VR yaliyodhibitiwa. Michoro hii inashika kutokuwa sahihi kiasili na tofauti za mtindo za mchango usio wa kitaalamu, jambo muhimu kwa kufundisha mfano thabiti.

2.2. Muundo wa DeepVRSketch+

Mfano wa msingi wa uzalishaji ni mfano wa usambazaji wenye masharti. Mchakato unajumuisha Kipochi cha Michoro $E_s$ kinachotupilia mchoro wa 3D wa mchango katika vekta ya siri $z_s$. Msimbo huu wa siri huweka masharti kwa mfano wa usambazaji $G_\theta$ ili kuzalisha jiometri ya lengo ya nguo ya 3D $\hat{X}$.

Lengo la mafunzo hupunguza mchanganyiko wa hasara: hasara ya ujenzi upya $L_{rec}$ (k.m., Umbali wa Chamfer) kati ya wavu uliozalishwa $\hat{X}$ na ukweli wa msingi $X$, na hasara ya kupingana $L_{adv}$ ili kuhakikisha uhalisi:

$L_{total} = \lambda_{rec} L_{rec}(\hat{X}, X) + \lambda_{adv} L_{adv}(D(\hat{X}))$

ambapo $D$ ni mtandao wa kigunduzi.

2.3. Kujifunza Kwa Mtaala Unaobadilika

Ili kushughulikia aina nyingi za ubora na ugumu wa michoro, mkakati wa kujifunza kwa mtaala unaobadilika unatumiwa. Mfano huanza mafunzo kwenye jozi rahisi, safi za michoro na nguo na hatua kwa hatua kuleta michoro changamano zaidi, yenye kelele, au ya kufikirika. Hii inafanana na mchakato wa kujifunza kwa mwanadamu na inaboresha sana uthabiti wa mfano kwa mchango usio kamili.

3. Matokeo ya Majaribio na Tathmini

3.1. Vipimo vya Kiasi

Karatasi hii inatathmini DeepVRSketch+ dhidi ya misingi kadhaa kwa kutumia vipimo vya kawaida vya uzalishaji wa maumbo ya 3D:

Umbali wa Chamfer (CD): Hupima umbali wa wastani wa karibu zaidi kati ya mawingu ya pointi yaliyozalishwa na yale ya ukweli wa msingi. DeepVRSketch+ ilipata CD iliyo chini 15-20% kuliko msingi wa karibu zaidi, ikionyesha usahihi bora wa jiometri.
Umbali wa Fréchet Inception (FID) katika 3D: Iliboreshwa kwa maumbo ya 3D, hupima ufanano wa usambazaji. Mfano uliopendekezwa ulionyesha alama bora zaidi (ya chini) ya FID, ikithibitisha kuwa nguo zilizozalishwa ni za kihalisi zaidi na zenye anuwai.
Alama ya Upendeleo wa Mtumiaji: Katika majaribio ya A/B, zaidi ya 78% ya nguo zilizozalishwa zilipendelewa kuliko zile kutoka kwa njia za msingi.

3.2. Utafiti wa Watumiaji na Uchambuzi wa Ubora

Utafiti kamili wa watumiaji wenye washiriki wasio na uzoefu wa kuiga 3D ulifanywa. Watumiaji waliombwa kuunda michoro katika VR na kukadiria matokeo yaliyozalishwa. Matokeo muhimu:

Uwezo wa Kutumika: 92% ya watumiaji walipata kiolesura cha kuchora 3D kinaeleweka na kinachofurahisha.
Ubora wa Matokeo: 85% waliridhika na maelezo na uwezo wa kuvaliwa wa nguo iliyozalishwa kutoka kwa mchoro wao.
Uchambuzi wa Mchoro 1: Mchoro kwenye PDF unaonyesha kwa ufanisi mfuatano: kutoka kwa uchoraji wa 3D katika AR/VR, kupitia mfano wa AI (DeepVRSketch+), hadi mfano wa mwisho wa 3D na matumizi yake (Onyesho la AR/VR, Uelezo wa Kidijitali, Kujaribu Nguo Kivitendo). Inawasilisha kwa kuona kuwezeshwa kwa mchakato wa kubuni kutoka mwanzo hadi mwisho.

4. Uelewa wa Msingi na Mtazamo wa Mchambuzi

Uelewa wa Msingi: Karatasi hii sio tu juu ya mfano bora wa 3D; ni kamari ya kimkakati juu ya ufanyaji wa jukwaa kwa ubunifu. Kwa kupunguza kiwango cha ujuzi cha uundaji wa maudhui ya 3D hadi "unaweza kuchora michoro hewani?", DeepVRSketch+ inalenga kumfanya kila mmiliki wa kichwa cha VR/AR kuwa mbunifu wa mitindo anayewezekana. Hii inashambulia moja kwa moja kikwazo kikuu cha metaverse na mitindo ya kidijitali: uhaba wa maudhui ya kuvutia, yanayotengenezwa na watumiaji. Bidhaa halisi hapa sio nguo, bali ni uwezo wa ubunifu uliopewa mtumiaji.

Mkondo wa Mantiki: Mantiki yake ni ya kulazimisha lakini inafuata njia iliyotembelea sana katika utafiti wa AI: kutambua kikoa kinachokosa data (kutoka kwa michoro ya 3D hadi nguo), kujenga seti mpya ya data (KO3DClothes) ili kuisuluhisha, kutumia muundo wa kisasa wa uzalishaji (mifano ya usambazaji), na kuongeza mabadiliko ya mafunzo yenye akili (kujifunza kwa mtaala) kwa uthabiti. Mkondo kutoka tatizo (zana zisizopatikana) hadi suluhisho (uchoraji wa kueleweka + AI) ni wazi na tayari kwa soko. Inafanana na mafanikio ya mifano ya maandishi-hadi-picha kama DALL-E 2 katika kuwezesha sanaa ya 2D, lakini imetumika kwa nafasi ya kuzama ya 3D—kipaumbele kinachofuata kimantiki.

Nguvu na Kasoro: Nguvu kuu ni mwelekeo wake wa vitendo kwenye uwezo wa kutumika na data. Kuunda KO3DClothes ni mchango muhimu, wenye gharama kubwa ambao utafaidia jumuiya nzima ya watafiti, sawa na jinsi ImageNet ilivyobadilisha taswira ya kompyuta. Matumizi ya kujifunza kwa mtaala kushughulikia mchango wa kibinadamu "wenye fujo" ni uhandisi mwerevu. Hata hivyo, kasoro iko katika kile kisichojadiliwa: tatizo la "maili ya mwisho" ya mitindo ya kidijitali. Kuzalisha wavu wa 3D ni hatua ya kwanza tu. Karatasi hii inapita juu ya mambo muhimu kama uigaji wa nguo wa kihalisi kwa uhuishaji, uzalishaji wa muundo/nyenzo, na ujumuishaji katika injini zilizopo za michezo/VR—matatizo ambayo kampuni kama NVIDIA zinashughulikia na suluhisho kama Omniverse. Zaidi ya hayo, ingawa utafiti wa watumiaji ni chanya, ushiriki wa muda mrefu na athari ya uvumbuzi ya "kuchora nguo" bado haijathibitishwa. Je, watumiaji wataunda nguo moja na kusimama, au itahimiza uundaji endelevu? Ulinganisho na kazi ya msingi ya Isola et al. kwenye Pix2Pix (Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017) unafaa kwa njia ya data ya jozi, lakini kikoa cha anga cha 3D kinaongeza ugumu wa kiwango kikubwa zaidi.

Uelewa Unaoweza Kutekelezwa: Kwa wawekezaji, hii inaashiria eneo lililoiva: Zana za uundaji wa maudhui ya 3D zinazoendeshwa na AI kwa majukwaa ya kuzama. Mpango wa haraka unapaswa kujumuisha ushirikiano na watengenezaji wa vifaa vya VR (Meta Quest, Apple Vision Pro) kwa ujumuishaji wa asili. Kwa watengenezaji wa programu, kufunguliwa kwa KO3DClothes (ikiwa imepangwa) kungeongeza kasi ya ukuaji wa mfumo wa ikolojia. Kikwazo kinachofuata cha kiufundi ni kuhamia kutoka kwa uzalishaji wa nguo tuli hadi vitambaa vinavyoweza kuigwa na kubadilika. Kushirikiana na utafiti wa uigaji wa kimsingi wa fizikia, labda kwa kutumia mitandao ya neva ya grafu kama inavyoonekana katika kazi kutoka Maabara ya Sayansi ya Kompyuta na Ujasusi wa Bandia ya MIT (CSAIL) kwenye uigaji unaojifunza, ni muhimu. Hatimaye, muundo wa biashara unapaswa kuangalia zaidi ya uundaji wa mara moja hadi soko au usajili wa mali za mitindo zilizozalishwa na AI, na kuunda uchumi wa mzunguko uliofungwa wa uundaji na matumizi.

5. Maelezo ya Kiufundi na Muundo wa Hisabati

Mfano wa usambazaji wenye masharti unafanya kazi katika nafasi ya siri. Kwa kuzingatia uwakilishi wa umbo la 3D lenye kelele $X_t$ kwenye hatua ya wakati $t$ na mchoro wa siri wenye masharti $z_s$, mfano hujifunza kutabiri kelele $\epsilon_\theta(X_t, t, z_s)$ itakayondolewa. Mchakato wa kinyume wa kuondoa kelele umefafanuliwa na:

$p_\theta(X_{0:T} | z_s) = p(X_T) \prod_{t=1}^{T} p_\theta(X_{t-1} | X_t, z_s)$

ambapo $p_\theta(X_{t-1} | X_t, z_s) = \mathcal{N}(X_{t-1}; \mu_\theta(X_t, t, z_s), \Sigma_\theta(X_t, t, z_s))$

Mfano unafunzwa ili kuboresha tofauti rahisi ya kikomo cha chini cha tofauti, kama inavyotumika kwa kawaida katika mifano ya uwezekano wa usambazaji wa kuondoa kelele (DDPM):

$L_{simple} = \mathbb{E}_{t, X_0, \epsilon} [\| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} X_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t, z_s) \|^2]$

ambapo $\epsilon$ ni kelele ya Gaussian, na $\bar{\alpha}_t$ ni kazi ya ratiba ya kelele.

6. Mfumo wa Uchambuzi na Mfano wa Kesi

Mfumo wa Kutathmini Zana za AI za Kibunifu:

Uhalisi wa Mchango: Mfumo unatafsiri vipi dhamira ya mtumiaji kutoka kwa mchango usio kamili? (DeepVRSketch+ hutumia kipochi cha michoro na kujifunza kwa mtaala kushughulikia hili).
Ubora wa Matokeo: Je, maudhui yaliyozalishwa yanaweza kutumika kwa kazi na yanawezekana kimaudhui? (Inapimwa na CD, FID, na kuridhika kwa watumiaji).
Faida ya Kibunifu: Je, zana hii inaongeza ubunifu wa kibinadamu au inabadilisha nafasi yake? (Mfumo huu uko kwenye kambi ya kuongeza, ukimweka mtumiaji "katika mzunguko").
Ujumuishaji wa Jukwaa: Matokeo yanajumuishwa vipi kwa urahisi katika mifuatano inayofuata? (Eneo la kazi ya baadaye, kama ilivyoelezwa).

Mfano wa Kesi - Kubuni Koti la Ndani la Kivitendo:

Kitendo cha Mtumiaji: Mtumiaji huvaa kichwa cha VR na kutumia kifaa cha kudhibiti kuchora umbo la koti la ndani la kivitendo karibu na sanamu ya 3D. Mchoro huo ni mbaya, na mistari iliyopinda.
Usindikaji wa Mfumo: Kipochi cha michoro $E_s$ kinatoa dhamira ya anga. Mfano wa usambazaji, wenye masharti kwenye vekta hii ya siri, huanza mchakato wa kuondoa kelele kutoka kwa kelele ya nasibu, ukielekezwa kuelekea maumbo yanayolingana na usambazaji wa michoro uliojifunzwa kutoka KO3DClothes.
Matokeo: Ndani ya sekunde chache, wavu kamili, usio na mapengo wa koti la ndani la kivitendo unaonekana, na mabano yanayowezekana, muundo wa ukosi, na jiometri ya zipi iliyotabiriwa, isiyochorwa.
Hatua Zinazofuata (Dira ya Baadaye): Mtumiaji kisha huchagua "denim" kutoka kwa ubao wa nyenzo, na moduli tofauti ya AI huweka muundo kwenye mfano. Kisha wanaiona ikikiigwa kwenye sanamu yao kwenye kioo cha kivitendo.

7. Matumizi ya Baadaye na Mpango wa Maendeleo

Muda mfupi (miaka 1-2):

Ujumuishaji kama programu-jalizi/kipengele katika majukwaa maarufu ya kijamii ya VR (VRChat, Horizon Worlds).
Uundaji wa toleo la AR ya rununu kwa kutumia vichunguzi vya kina/LiDAR kwa "kuchora angani."
Kupanuliwa kwa KO3DClothes kujumuisha aina zaidi za nguo, muundo, na michoro ya mtazamo mbalimbali.

Muda wa kati (miaka 3-5):

Uzalishaji wa mavazi ya mwili mzima kutoka kwa mfululizo wa michoro.
Ubunifu wa pamoja wa wakati halisi: watumiaji wengi wakichora kwa ushirikiano katika nafasi ya pamoja ya VR.
Ubunifu unaosaidiwa na AI kwa uzalishaji wa nguo halisi, kuunganisha uundaji wa kidijitali na mitindo ya ulimwengu halisi.

Dira ya Muda Mrefu:

Mfano wa msingi wa uzalishaji wa maumbo ya 3D kutoka kwa michango mbalimbali yasiyo wazi (mchoro, maandishi, ishara).
Muhimu kwa wadogo ya utambulisho wa kidijitali inayomilikiwa na mtumiaji, inayoweza kutumika katika uzoefu wote wa metaverse.
Kuwezeshwa kwa uzalishaji wa mitindo ya kibinafsi, inayotakiwa kwa wakati halisi.

8. Marejeo

Y. Zang et al., "From Air to Wear: Personalized 3D Digital Fashion with AR/VR Immersive 3D Sketching," Journal of LaTeX Class Files, 2021.
P. Isola, J.-Y. Zhu, T. Zhou, A. A. Efros, "Image-to-Image Translation with Conditional Adversarial Networks," CVPR, 2017. (Kazi ya msingi kwenye utafsiri wa picha za jozi).
J. Ho, A. Jain, P. Abbeel, "Denoising Diffusion Probabilistic Models," NeurIPS, 2020. (Msingi wa njia ya mfano wa usambazaji).
NVIDIA Omniverse, "Platform for Connecting 3D Tools and Assets," https://www.nvidia.com/en-us/omniverse/.
MIT CSAIL, "Research on Learning-based Physics Simulation," https://www.csail.mit.edu/.
J.-Y. Zhu, T. Park, P. Isola, A. A. Efros, "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN, kwa hali za utafsiri zisizo na jozi, tofauti na njia ya data ya jozi ya kazi hii).