1. Pengenalan

AI Generatif (GenAI) sedang merevolusikan aliran kerja industri yang kompleks. Dalam industri pakaian, saluran tradisional—daripada keperluan pelanggan kepada pereka, pembuat pola, tukang jahit, dan penghantaran akhir—sedang dipertingkatkan oleh Model Multimodal Besar (LMM). Walaupun LMM semasa cemerlang dalam menganalisis kecenderungan pelanggan untuk cadangan item, terdapat jurang yang ketara dalam membolehkan penyesuaian halus yang didorong oleh pengguna. Pengguna semakin ingin bertindak sebagai pereka mereka sendiri, mencipta dan mengulang kaji reka bentuk sehingga berpuas hati. Walau bagaimanapun, prompt berasaskan teks tulen (contohnya, "jaket putih") mengalami kekaburan, kekurangan butiran profesional (contohnya, gaya kolar khusus) yang akan disimpulkan oleh pereka. Kertas ini memperkenalkan aliran kerja Penjanaan Pemahaman Lebih Baik (BUG), yang memanfaatkan LMM untuk mentafsir input imej-ke-prompt bersama-sama teks, membolehkan suntingan reka bentuk fesyen yang tepat dan berulang yang merapatkan jurang antara niat pengguna amatur dan output peringkat profesional.

2. Metodologi

2.1 Aliran Kerja BUG

Aliran kerja BUG mensimulasikan perundingan reka bentuk dunia sebenar. Ia bermula dengan fasa pengawalan di mana imej pakaian asas dijana daripada huraian teks pengguna (contohnya, "jaket kapas dengan corak fabrik"). Seterusnya, pengguna boleh meminta suntingan melalui gelung berulang. Setiap lelaran melibatkan teks-sebagai-prompt (contohnya, "ubah kolar") dan, yang penting, imej-ke-prompt—imej rujukan yang menggambarkan elemen gaya yang dikehendaki (contohnya, gambar lapel puncak). LMM memproses input multimodal ini untuk menghasilkan reka bentuk yang disunting, yang boleh diterima oleh pengguna atau digunakan sebagai asas untuk penapisan seterusnya.

2.2 Mekanisme Imej-ke-Prompt

Ini adalah inovasi teras. Daripada bergantung semata-mata pada huraian teks konsep visual, sistem ini menerima imej rujukan. Penyandian penglihatan LMM mengekstrak ciri visual daripada rujukan ini, yang kemudiannya digabungkan dengan prompt teks yang disandikan. Penggabungan ini mewujudkan isyarat pengkondisian yang lebih kaya dan kurang kabur untuk model penjanaan/suntingan imej, secara langsung menangani masalah "ketidakpastian teks" yang diketengahkan dalam pengenalan.

2.3 Seni Bina LMM

Sistem yang dicadangkan menggunakan persediaan LMM dwi, seperti yang diisyaratkan dalam Rajah 2 sebagai eLMM dan mLMM. eLMM (Editor LMM) bertanggungjawab untuk memahami permintaan suntingan multimodal dan merancang pengubahsuaian. mLMM (Pengubah LMM) melaksanakan suntingan imej sebenar, kemungkinan dibina atas seni bina berasaskan penyebaran seperti Stable Diffusion 3, dikondisikan pada perwakilan teks-imej yang digabungkan. Pemisahan ini membolehkan penaakulan dan pelaksanaan khusus.

3. Set Data FashionEdit

3.1 Pembinaan Set Data

Untuk mengesahkan aliran kerja BUG, penulis memperkenalkan set data FashionEdit. Set data ini direka untuk mensimulasikan aliran kerja reka bentuk pakaian dunia sebenar. Ia mengandungi tiga serangkai: (1) imej pakaian asas, (2) arahan suntingan teks (contohnya, "tukar kepada gaya lapel puncak"), dan (3) imej gaya rujukan yang menggambarkan atribut sasaran. Set data ini meliputi suntingan halus seperti pertukaran gaya kolar (lapel puncak), pengubahsuaian pengancing (double-breasted 4 butang), dan penambahan aksesori (menambah boutonniere).

3.2 Metrik Penilaian

Penilaian yang dicadangkan adalah tiga segi:

  • Kesamaan Penjanaan: Mengukur sejauh mana output yang disunting sepadan dengan atribut yang dimaksudkan daripada imej rujukan, menggunakan metrik seperti LPIPS (Kesamaan Tampalan Imej Persepsi Dipelajari) dan skor CLIP.
  • Kepuasan Pengguna: Dinilai melalui penilaian manusia atau tinjauan untuk mengukur kegunaan praktikal dan keselarasan dengan niat pengguna.
  • Kualiti: Menilai kesetiaan visual keseluruhan dan koheren imej yang dijana, bebas daripada artifak.

4. Eksperimen & Keputusan

4.1 Persediaan Eksperimen

Kerangka kerja BUG ditanda aras terhadap kaedah suntingan teks sahaja asas (menggunakan model seperti Stable Diffusion 3 dan DALL-E 2 dengan inpainting) pada set data FashionEdit. Eksperimen menguji keupayaan sistem untuk melaksanakan suntingan khusus atribut yang tepat yang dipandu oleh imej rujukan.

4.2 Keputusan Kuantitatif

Kertas ini melaporkan prestasi unggul aliran kerja BUG berbanding asas teks sahaja merentas ketiga-tiga metrik penilaian. Penemuan utama termasuk:

  • Skor LPIPS/CLIP Lebih Tinggi: Imej yang disunting menunjukkan kesamaan persepsi yang lebih besar kepada atribut sasaran yang ditentukan oleh imej rujukan.
  • Kadar Kepuasan Pengguna Meningkat: Dalam penilaian manusia, output daripada kaedah imej-ke-prompt secara konsisten dinilai sebagai lebih tepat memenuhi permintaan suntingan.
  • Kualiti Imej Dikekalkan: Aliran kerja BUG mengekalkan kualiti keseluruhan dan koheren pakaian asas sambil membuat suntingan yang disasarkan.

4.3 Analisis Kualitatif & Kajian Kes

Rajah 1 dan 2 daripada PDF memberikan bukti kualitatif yang menarik. Rajah 1 menggambarkan senario dunia sebenar: pengguna memberikan imej seseorang dalam jaket putih dan gambar rujukan kolar tertentu, meminta pengubahsuaian. Huraian teks sahaja "jaket putih" adalah tidak mencukupi. Rajah 2 secara visual membezakan proses BUG berulang (menggunakan kedua-dua prompt teks dan imej) dengan saluran suntingan teks sahaja, menunjukkan bagaimana yang pertama membawa kepada reka bentuk yang betul manakala yang kedua sering menghasilkan keputusan yang salah atau kabur untuk tugas halus seperti menambah boutonniere atau menukar kepada gaya double-breasted 4 butang.

5. Analisis Teknikal & Kerangka Kerja

5.1 Rumusan Matematik

Proses penjanaan teras boleh dirangka sebagai proses penyebaran bersyarat. Biarkan $I_0$ menjadi imej asas awal. Permintaan suntingan adalah pasangan $(T_{edit}, I_{ref})$, di mana $T_{edit}$ adalah arahan teks dan $I_{ref}$ adalah imej rujukan. LMM menyandikan ini kepada vektor pengkondisian gabungan $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$, di mana $\mathcal{F}$ adalah rangkaian gabungan (contohnya, perhatian silang). Imej yang disunting $I_{edit}$ kemudiannya disampel daripada proses penyebaran terbalik yang dikondisikan pada $c$: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ di mana $\theta$ adalah parameter mLMM. Pembeza utama daripada penyebaran teks-ke-imej piawai adalah pengkondisian yang diperkaya $c$ yang diperoleh daripada gabungan multimodal.

5.2 Contoh Kerangka Analisis

Kes: Menyunting Lapel Jaket

  1. Input: Imej Asas ($I_0$): Imej wanita dalam jaket lapel takuk. Permintaan Sunting: $(T_{edit}="tukar kepada gaya lapel puncak", I_{ref}=[imej lapel puncak])$.
  2. Pemprosesan LMM: eLMM menghuraikan $T_{edit}$ untuk mengenal pasti kawasan sasaran ("lapel") dan tindakan ("tukar gaya"). Penyandian penglihatan mengekstrak ciri daripada $I_{ref}$ yang mentakrifkan "lapel puncak" secara visual.
  3. Gabungan Pengkondisian: Ciri untuk "lapel" daripada $I_0$, konsep teks "puncak", dan templat visual daripada $I_{ref}$ diselaraskan dan digabungkan ke dalam peta pengkondisian sedar ruang bersatu untuk mLMM.
  4. Pelaksanaan: mLMM (model penyebaran) melaksanakan inpainting/suntingan pada kawasan lapel $I_0$, dipandu oleh pengkondisian yang digabungkan, mengubah lapel takuk kepada lapel puncak sambil mengekalkan bahagian lain jaket dan pose model.
  5. Output: $I_{edit}$: Imej asas yang sama, tetapi dengan lapel puncak yang diubah suai dengan tepat.
Kerangka kerja ini menunjukkan kawalan peringkat atribut yang tepat yang dibolehkan oleh paradigma imej-ke-prompt.

6. Aplikasi & Hala Tuju Masa Depan

Aliran kerja BUG mempunyai implikasi melangkaui fesyen:

  • Reka Bentuk Dalaman & Produk: Pengguna boleh menunjukkan imej rujukan kaki perabot atau tekstur fabrik untuk mengubah suai model 3D atau pemaparan bilik.
  • Penciptaan Aset Permainan: Prototaip pantas perisai watak, senjata, atau persekitaran dengan menggabungkan model asas dengan rujukan gaya.
  • Visualisasi Seni Bina: Mengubah suai fasad bangunan atau kemasan dalaman berdasarkan imej contoh.
  • Penyelidikan Masa Depan: Melanjutkan kepada suntingan video (menukar kostum pelakon merentas bingkai), suntingan bentuk 3D, dan meningkatkan komposisi suntingan (mengendalikan pelbagai imej rujukan yang berpotensi bercanggah). Hala tuju utama adalah meningkatkan penaakulan LMM tentang hubungan ruang dan fizik untuk memastikan suntingan bukan sahaja betul secara visual tetapi juga munasabah (contohnya, boutonniere dilekatkan dengan betul pada lapel).

7. Rujukan

  1. Stable Diffusion 3: Kertas Penyelidikan, Stability AI.
  2. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  3. OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
  4. Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN adalah pendekatan tanpa penyeliaan yang berkaitan).
  5. Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
  6. Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  7. Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.

8. Analisis Asal & Ulasan Pakar

Pandangan Teras: Kertas ini bukan sekadar satu lagi peningkatan tambahan dalam suntingan imej; ia adalah perubahan hala tuju strategik ke arah penghapusan kekaburan niat multimodal. Penulis mengenal pasti dengan betul bahawa sempadan seterusnya untuk AI generatif dalam domain kreatif bukanlah kuasa mentah, tetapi komunikasi tepat. Halangan sebenar bukanlah keupayaan model untuk menjana "jaket," tetapi keupayaannya untuk memahami jaket khusus mana yang ada dalam fikiran pengguna. Dengan memformalkan paradigma "imej-sebagai-rujukan" kepada penanda aras "imej-ke-prompt" (BUG), mereka menangani masalah kekaburan asas yang membelenggu penciptaan bersama manusia-AI. Ini melangkaui laluan yang sudah biasa dilalui oleh model seperti CycleGAN (yang mempelajari pemindahan gaya tidak berpasangan) atau InstructPix2Pix (yang bergantung semata-mata pada teks) dengan secara eksplisit memerlukan AI untuk merujuk silang contoh visual, satu langkah kognitif yang lebih dekat dengan cara pereka manusia bekerja.

Aliran Logik: Hujahnya menarik dan berstruktur baik. Ia bermula dengan titik kesakitan industri yang jelas (jurang antara prompt teks amatur dan output reka bentuk profesional), mencadangkan penyelesaian yang munasabah secara kognitif (meniru penggunaan imej rujukan oleh pereka), dan kemudian menyokongnya dengan aliran kerja teknikal konkrit (BUG) dan set data penilaian khas (FashionEdit). Penggunaan seni bina LMM dwi (eLMM/mLMM) secara logik memisahkan perancangan peringkat tinggi daripada pelaksanaan peringkat rendah, corak reka bentuk yang semakin mendapat tempat dalam sistem AI berasaskan ejen, seperti yang dilihat dalam penyelidikan daripada institusi seperti Google DeepMind mengenai penggunaan alat dan perancangan.

Kekuatan & Kelemahan: Kekuatan utama adalah pembingkaian masalah dan penciptaan penanda aras. Set data FashionEdit, jika tersedia secara umum, boleh menjadi piawai untuk menilai suntingan halus, seperti MS-COCO untuk pengesanan objek. Integrasi kepuasan pengguna sebagai metrik juga dipuji, mengakui bahawa skor teknikal sahaja tidak mencukupi. Walau bagaimanapun, kertas ini, seperti yang dipersembahkan dalam petikan, mempunyai jurang yang ketara. Butiran teknikal mekanisme gabungan LMM adalah sedikit. Bagaimanakah sebenarnya ciri visual daripada $I_{ref}$ diselaraskan dengan kawasan ruang dalam $I_0$? Adakah melalui perhatian silang, modul penyelarasan ruang khusus, atau sesuatu yang lain? Tambahan pula, penilaian, walaupun menjanjikan, memerlukan kajian pemotongan yang lebih ketat. Berapa banyak peningkatan yang datang daripada imej rujukan berbanding hanya mempunyai model asas yang ditala lebih baik? Perbandingan dengan asas kuat seperti InstructPix2Pix atau suntingan berasaskan titik gaya DragGAN akan memberikan bukti yang lebih kukuh.

Pandangan Boleh Tindak: Untuk pengamal industri, penyelidikan ini memberi isyarat arahan yang jelas: melabur dalam lapisan interaksi multimodal untuk produk AI generatif anda. Kotak teks mudah tidak lagi mencukupi. UI mesti membenarkan pengguna untuk menarik, menjatuhkan, atau membulatkan imej rujukan. Untuk penyelidik, penanda aras BUG membuka beberapa laluan: 1) Ujian ketahanan—bagaimanakah prestasi model dengan imej rujukan berkualiti rendah atau jauh secara semantik? 2) Komposisi—bolehkah ia mengendalikan "buat kolar daripada imej A dan lengan daripada imej B"? 3) Generalisasi—bolehkah prinsip ini digunakan untuk domain bukan fesyen seperti reka bentuk grafik atau CAD industri? Ujian muktamad akan sama ada pendekatan ini boleh bergerak daripada set data terkawal kepada kreativiti terbuka yang tidak kemas pengguna sebenar, satu cabaran yang sering memisahkan prototaip akademik daripada kejayaan komersial, seperti yang ditunjukkan oleh sejarah dengan alat kreatif berasaskan GAN terdahulu.