1. Giriş
Üretici Yapay Zeka (ÜYZ), karmaşık endüstriyel iş akışlarını kökten değiştiriyor. Giyim endüstrisinde, geleneksel süreç—müşteri ihtiyaçlarından tasarımcıya, kalıpçıya, terziye ve nihai teslimata—Büyük Çok Modelli Modeller (BÇM'ler) ile güçlendiriliyor. Mevcut BÇM'ler ürün önerisi için müşteri tercihlerini analiz etmede üstün olsa da, ince taneli, kullanıcı odaklı özelleştirme sağlamada önemli bir boşluk bulunuyor. Kullanıcılar giderek kendi tasarımcıları gibi davranarak, memnun kalana kadar tasarımlar oluşturmak ve üzerinde yineleme yapmak istiyor. Ancak, salt metne dayalı prompt'lar (örn., "beyaz blazer") belirsizlikten muzdariptir ve bir tasarımcının çıkaracağı profesyonel detaydan (örn., belirli bir yaka stili) yoksundur. Bu makale, amatör kullanıcı niyeti ile profesyonel kalitede çıktı arasındaki boşluğu kapatarak, hassas, yinelemeli moda tasarımı düzenlemelerine olanak tanımak için BÇM'leri kullanarak görüntüden-prompta girdilerini metinle birlikte yorumlayan Daha İyi Anlama Üretimi (BUG) iş akışını tanıtmaktadır.
2. Metodoloji
2.1 BUG İş Akışı
BUG iş akışı, gerçek dünyadaki bir tasarım danışmanlığını simüle eder. Kullanıcının metin açıklamasından (örn., "kumaş desenli pamuklu bir blazer") bir temel giysi görüntüsünün oluşturulduğu bir başlatma aşamasıyla başlar. Ardından, kullanıcı yinelemeli bir döngü aracılığıyla düzenleme talep edebilir. Her yineleme, bir metin-prompt'u (örn., "yakayı değiştir") ve kritik olarak, bir görüntüden-prompt'u—istenen stil öğesini gösteren bir referans görüntüsünü (örn., sivri yaka resmi)—içerir. BÇM bu çok modlu girdiyi işleyerek düzenlenmiş tasarımı üretir ve kullanıcı bunu kabul edebilir veya bir sonraki iyileştirme için temel olarak kullanabilir.
2.2 Görüntüden-Prompta Mekanizması
Bu, temel yeniliktir. Sistem, görsel kavramların yalnızca metinsel açıklamalarına güvenmek yerine, bir referans görüntüsünü işler. BÇM'nin görü kodlayıcısı bu referanstan görsel özellikler çıkarır ve bunlar daha sonra kodlanmış metin prompt'u ile birleştirilir. Bu birleştirme, girişte vurgulanan "metin belirsizliği" sorununu doğrudan ele alarak, görüntü oluşturma/düzenleme modeli için daha zengin, daha az belirsiz bir koşullandırma sinyali yaratır.
2.3 BÇM Mimarisi
Önerilen sistem, Şekil 2'de eBÇM ve mBÇM olarak ima edilen çift BÇM kurulumundan yararlanır. eBÇM (Editör BÇM), çok modlu düzenleme isteğini anlamaktan ve değişikliği planlamaktan sorumludur. mBÇM (Değiştirici BÇM), birleştirilmiş metin-görüntü temsili üzerine koşullandırılmış, muhtemelen Stable Diffusion 3 gibi difüzyon tabanlı bir mimari üzerine inşa edilmiş olan gerçek görüntü düzenlemeyi yürütür. Bu ayrım, özelleşmiş akıl yürütme ve yürütmeye olanak tanır.
3. FashionEdit Veri Kümesi
3.1 Veri Kümesi Oluşturma
BUG iş akışını doğrulamak için yazarlar FashionEdit veri kümesini tanıtmaktadır. Bu veri kümesi, gerçek dünya giyim tasarımı iş akışlarını simüle etmek üzere tasarlanmıştır. Üçlüler içerir: (1) bir temel giysi görüntüsü, (2) metinsel bir düzenleme talimatı (örn., "sivri yaka stiline değiştir") ve (3) hedef özelliği betimleyen bir referans stil görüntüsü. Veri kümesi, yaka stili değişiklikleri (sivri yaka), düğme düzenleme değişiklikleri (4 düğmeli çift sıra) ve aksesuar eklemeleri (bir boutonniere ekleme) gibi ince taneli düzenlemeleri kapsar.
3.2 Değerlendirme Metrikleri
Önerilen değerlendirme üç yönlüdür:
- Üretim Benzerliği: Düzenlenmiş çıktının, referans görüntüsündeki amaçlanan özellikle ne kadar yakından eşleştiğini, LPIPS (Öğrenilmiş Algısal Görüntü Yama Benzerliği) ve CLIP skoru gibi metrikler kullanarak ölçer.
- Kullanıcı Memnuniyeti: Pratik kullanışlılığı ve kullanıcı niyetiyle uyumunu ölçmek için insan değerlendirmesi veya anketler yoluyla değerlendirilir.
- Kalite: Üretilen görüntünün genel görsel sadakatini ve tutarlılığını, yapay bozulmalardan arınmış olarak değerlendirir.
4. Deneyler ve Sonuçlar
4.1 Deney Kurulumu
BUG çerçevesi, FashionEdit veri kümesi üzerinde, yalnızca metne dayalı temel düzenleme yöntemlerine (Stable Diffusion 3 ve DALL-E 2 gibi modellerle iç boyama kullanarak) karşı kıyaslanmıştır. Deneyler, sistemin referans görüntüleri tarafından yönlendirilen hassas, öznitelik odaklı düzenlemeler yapma yeteneğini test etmektedir.
4.2 Nicel Sonuçlar
Makale, BUG iş akışının, her üç değerlendirme metriğinde de yalnızca metne dayalı temellere göre üstün performansını rapor etmektedir. Temel bulgular şunları içerir:
- Daha Yüksek LPIPS/CLIP Skorları: Düzenlenmiş görüntüler, referans görüntüsü tarafından belirtilen hedef özniteliklere daha büyük algısal benzerlik göstermektedir.
- Artmış Kullanıcı Memnuniyeti Oranları: İnsan değerlendirmelerinde, görüntüden-prompta yönteminin çıktıları, düzenleme isteğini daha doğru bir şekilde yerine getirdiği için tutarlı olarak daha yüksek puan almıştır.
- Korunmuş Görüntü Kalitesi: BUG iş akışı, hedeflenen düzenlemeyi yaparken temel giysinin genel kalitesini ve tutarlılığını korumaktadır.
4.3 Nitel Analiz ve Vaka Çalışması
PDF'deki Şekil 1 ve 2, ikna edici nitel kanıtlar sunmaktadır. Şekil 1, gerçek dünya senaryosunu göstermektedir: bir kullanıcı, beyaz blazerli bir kişinin görüntüsünü ve belirli bir yakanın referans resmini sağlayarak bir değişiklik talep etmektedir. Yalnızca metin açıklaması "beyaz blazer" yetersizdir. Şekil 2, yinelemeli BUG sürecini (hem metin hem de görüntü prompt'larını kullanarak) yalnızca metne dayalı bir düzenleme işlem hattıyla görsel olarak karşılaştırmakta ve ilkinin doğru tasarımlara yol açarken, ikincisinin bir boutonniere ekleme veya 4 düğmeli çift sıra stiline değiştirme gibi ince taneli görevler için genellikle yanlış veya belirsiz sonuçlar ürettiğini göstermektedir.
5. Teknik Analiz ve Çerçeve
5.1 Matematiksel Formülasyon
Temel üretim süreci, koşullu bir difüzyon süreci olarak çerçevelenebilir. $I_0$ başlangıç temel görüntüsü olsun. Bir düzenleme isteği, $(T_{edit}, I_{ref})$ çiftidir; burada $T_{edit}$ metinsel talimat ve $I_{ref}$ referans görüntüsüdür. BÇM bunu birleşik bir koşullandırma vektörüne kodlar: $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$, burada $\mathcal{F}$ bir birleştirme ağıdır (örn., çapraz dikkat). Düzenlenmiş görüntü $I_{edit}$ daha sonra $c$ koşullu ters difüzyon sürecinden örneklenir: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ burada $\theta$, mBÇM'nin parametreleridir. Standart metinden-görüntüye difüzyondan temel fark, çok modlu birleştirmeden türetilen zenginleştirilmiş koşullandırma $c$'dir.
5.2 Analiz Çerçevesi Örneği
Vaka: Bir Blazer Yaka Düzenlemesi
- Girdi: Temel Görüntü ($I_0$): Çentik yakalı blazerli bir kadın görüntüsü. Düzenleme İsteği: $(T_{edit}="sivri yaka stiline değiştir", I_{ref}=[sivri yaka görüntüsü])$.
- BÇM İşleme: eBÇM, $T_{edit}$'i ayrıştırarak hedef bölgeyi ("yaka") ve eylemi ("stil değiştir") tanımlar. Görü kodlayıcı, $I_{ref}$'den "sivri yaka"yı görsel olarak tanımlayan özellikleri çıkarır.
- Koşullandırma Birleştirme: $I_0$'dan "yaka" için özellikler, metinsel "sivri" kavramı ve $I_{ref}$'den gelen görsel şablon, mBÇM için birleşik bir mekansal farkındalıklı koşullandırma haritasında hizalanır ve birleştirilir.
- Yürütme: mBÇM (bir difüzyon modeli), birleştirilmiş koşullandırma tarafından yönlendirilerek $I_0$'ın yaka bölgesinde iç boyama/düzenleme yapar, çentik yakayı sivri bir yakaya dönüştürürken blazerin geri kalanını ve modelin pozunu korur.
- Çıktı: $I_{edit}$: Aynı temel görüntü, ancak doğru bir şekilde değiştirilmiş sivri yaka ile.
6. Gelecekteki Uygulamalar ve Yönelimler
BUG iş akışının modanın ötesinde etkileri vardır:
- İç Mekan ve Ürün Tasarımı: Kullanıcılar, bir 3B modeli veya oda görselleştirmesini değiştirmek için bir mobilya ayağı veya kumaş dokusu referans görüntüsü gösterebilir.
- Oyun Varlığı Oluşturma: Temel modelleri stil referanslarıyla birleştirerek karakter zırhı, silah veya ortamların hızlı prototiplemesi.
- Mimari Görselleştirme: Örnek görüntülere dayanarak bina cephelerini veya iç kaplamalarını değiştirme.
- Gelecek Araştırmalar: Video düzenlemeye (bir oyuncunun kostümünü kareler arasında değiştirme), 3B şekil düzenlemeye genişletme ve düzenlemelerin bileşimselliğini iyileştirme (birden fazla, potansiyel olarak çelişen referans görüntülerini işleme). Önemli bir yönelim, düzenlemelerin yalnızca görsel olarak doğru değil aynı zamanda makul olmasını sağlamak için BÇM'nin mekansal ilişkiler ve fizik hakkındaki akıl yürütmesini geliştirmektir (örn., bir boutonniere yakaya doğru şekilde iliştirilir).
7. Kaynaklar
- Stable Diffusion 3: Araştırma Makalesi, Stability AI.
- Rombach, R., vd. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
- Isola, P., vd. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN ilgili denetimsiz bir yaklaşımdır).
- Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
- Brooks, T., vd. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- Li, H., vd. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.
8. Özgün Analiz ve Uzman Yorumu
Temel İçgörü: Bu makale, görüntü düzenlemede sadece bir başka artımsal iyileştirme değil; çok modlu niyet belirsizliğini gidermeye yönelik stratejik bir dönüşümdür. Yazarlar, yaratıcı alanlarda üretici YZ'nin bir sonraki sınırının ham güç değil, hassas iletişim olduğunu doğru bir şekilde tespit etmektedir. Gerçek darboğaz, modelin bir "blazer" üretme yeteneği değil, kullanıcının aklındaki hangi spesifik blazer olduğunu anlama yeteneğidir. "Referans olarak görüntü" paradigmasını bir "görüntüden-prompta" kıyaslamasına (BUG) dönüştürerek, insan-YZ ortak yaratımını rahatsız eden temel belirsizlik sorununu ele almaktadırlar. Bu, CycleGAN (eşleştirilmemiş stil transferi öğrenen) veya InstructPix2Pix (yalnızca metne dayanan) gibi modellerin iyi bilinen yolunun ötesine geçerek, YZ'yi insan tasarımcıların çalışma şekline daha yakın bir bilişsel adım olan görsel örnekleri çapraz referans almasını açıkça gerektirmektedir.
Mantıksal Akış: Argüman ikna edici ve iyi yapılandırılmıştır. Net bir endüstriyel sorunla (amatör metin prompt'ları ile profesyonel tasarım çıktısı arasındaki boşluk) başlar, bilişsel olarak makul bir çözüm önerir (tasarımcının referans görüntüleri kullanımını taklit eder) ve ardından bunu somut bir teknik iş akışı (BUG) ve özel bir değerlendirme veri kümesi (FashionEdit) ile destekler. Çift BÇM mimarisinin (eBÇM/mBÇM) kullanımı, üst düzey planlamayı alt düzey yürütmeden mantıksal olarak ayırır; bu, Google DeepMind gibi kurumlardan araç kullanımı ve planlama üzerine araştırmalarda görüldüğü gibi, temelli YZ sistemlerinde ivme kazanan bir tasarım modelidir.
Güçlü ve Zayıf Yönler: Temel güçlü yan, sorun çerçeveleme ve kıyaslama oluşturmadır. FashionEdit veri kümesi, kamuya açık hale getirilirse, nesne tespiti için MS-COCO gibi, ince taneli düzenleme değerlendirmesi için bir standart haline gelebilir. Kullanıcı memnuniyetinin bir metrik olarak entegrasyonu da takdire şayandır ve yalnızca teknik skorların yetersiz olduğunu kabul etmektedir. Ancak, alıntıda sunulduğu haliyle makalenin dikkate değer boşlukları vardır. BÇM birleştirme mekanizmasının teknik detayları yetersizdir. $I_{ref}$'den gelen görsel özellikler, $I_0$'daki mekansal bölgeyle tam olarak nasıl hizalanır? Çapraz dikkat, özel bir mekansal hizalama modülü veya başka bir şey yoluyla mı? Ayrıca, değerlendirme umut verici olsa da, daha titrik ablasyon çalışmalarına ihtiyaç duymaktadır. İyileşmenin ne kadarı referans görüntüsünden, ne kadarı sadece daha iyi ayarlanmış bir temel modelden kaynaklanmaktadır? InstructPix2Pix veya DragGAN tarzı nokta tabanlı düzenleme gibi güçlü temellerle karşılaştırmalar daha güçlü kanıt sağlayacaktır.
Eyleme Geçirilebilir İçgörüler: Endüstri uygulayıcıları için bu araştırma net bir yön gösterir: üretici YZ ürünleriniz için çok modlu etkileşim katmanlarına yatırım yapın. Basit bir metin kutusu artık yeterli değildir. Kullanıcı arayüzü, kullanıcıların referans görüntülerini sürükleyip bırakmasına veya daire içine almasına izin vermelidir. Araştırmacılar için BUG kıyaslaması birkaç yol açar: 1) Sağlamlık testi—model, düşük kaliteli veya anlamsal olarak uzak referans görüntüleriyle nasıl performans gösterir? 2) Bileşimsellik—"A görüntüsünden yakayı ve B görüntüsünden kolları yap" gibi istekleri işleyebilir mi? 3) Genelleme—prensipler grafik tasarım veya endüstriyel CAD gibi moda dışı alanlara uygulanabilir mi? Nihai test, bu yaklaşımın kontrollü veri kümelerinden, gerçek kullanıcıların dağınık, açık uçlu yaratıcılığına geçip geçemeyeceği olacaktır; bu, akademik prototipler ile ticari atılımları ayıran, daha önceki GAN tabanlı yaratıcı araçların tarihinin gösterdiği gibi bir zorluktur.