1. مقدمه
هوش مصنوعی مولد (GenAI) در حال دگرگونی گردشهای کاری پیچیده صنعتی است. در صنعت پوشاک، خط لوله سنتی—از نیاز مشتری تا طراح، الگوساز، خیاط و تحویل نهایی—توسط مدلهای بزرگ چندوجهی (LMMs) تقویت میشود. در حالی که مدلهای بزرگ چندوجهی کنونی در تحلیل ترجیحات مشتری برای توصیه کالا عالی عمل میکنند، شکاف قابل توجهی در امکانپذیری سفارشیسازی ریزدانه و کاربر-محور وجود دارد. کاربران به طور فزایندهای مایلند خود به عنوان طراح عمل کنند، طرحها را ایجاد کرده و تا زمان رضایت تکرار کنند. با این حال، پرامپتهای صرفاً متنی (مانند "کت سفید") از ابهام رنج میبرند و فاقد جزئیات حرفهای (مانند سبک خاص یقه) هستند که یک طراح استنباط میکند. این مقاله گردش کار نسلسازی درک بهتر (BUG) را معرفی میکند که از مدلهای بزرگ چندوجهی برای تفسور ورودیهای تصویر-به-پِرامپت در کنار متن استفاده میکند و ویرایشهای دقیق و تکراری طراحی مُد را ممکن میسازد که شکاف بین قصد کاربر مبتدی و خروجی در سطح حرفهای را پر میکند.
2. روششناسی
2.1 گردش کار BUG
گردش کار BUG یک مشاوره طراحی واقعی را شبیهسازی میکند. این فرآیند با یک فاز مقداردهی اولیه آغاز میشود که در آن یک تصویر پایه از لباس از روی توصیف متنی کاربر (مانند "یک کت پنبهای با طرح پارچه") تولید میشود. سپس، کاربر میتواند از طریق یک حلقه تکراری درخواست ویرایش کند. هر تکرار شامل یک متن-به-عنوان-پِرامپت (مانند "یقه را تغییر بده") و مهمتر از آن، یک تصویر-به-پِرامپت—یعنی یک تصویر مرجع که عنصر سبک مورد نظر را نشان میدهد (مانند تصویری از یک یقهی هفت تیز)—میشود. مدل بزرگ چندوجهی این ورودی چندوجهی را پردازش میکند تا طرح ویرایش شده را تولید کند، که کاربر میتواند آن را بپذیرد یا به عنوان پایه برای اصلاح بعدی استفاده کند.
2.2 مکانیزم تصویر-به-پِرامپت
این هسته نوآوری است. به جای اتکای صرف به توصیفهای متنی از مفاهیم بصری، سیستم یک تصویر مرجع را دریافت میکند. رمزگذار بینایی مدل بزرگ چندوجهی، ویژگیهای بصری را از این مرجع استخراج میکند که سپس با پرامپت متنی رمزگذاری شده ادغام میشوند. این ادغام یک سیگنال شرطی غنیتر و کمابهامتر برای مدل تولید/ویرایش تصویر ایجاد میکند و مستقیماً به مسئله "عدم قطعیت متنی" که در مقدمه برجسته شده است، میپردازد.
2.3 معماری مدل بزرگ چندوجهی (LMM)
سیستم پیشنهادی از یک پیکربندی دوگانه مدل بزرگ چندوجهی استفاده میکند که در شکل ۲ با عناوین eLMM و mLMM به آن اشاره شده است. eLMM (مدل بزرگ چندوجهی ویرایشگر) مسئول درک درخواست ویرایش چندوجهی و برنامهریزی برای اصلاح است. mLMM (مدل بزرگ چندوجهی اصلاحکننده) ویرایش واقعی تصویر را اجرا میکند، که احتمالاً بر اساس یک معماری مبتنی بر انتشار مانند Stable Diffusion 3 ساخته شده و بر اساس بازنمایی ادغام شده متن-تصویر شرطی شده است. این جداسازی امکان استدلال و اجرای تخصصی را فراهم میکند.
3. مجموعهدادهی FashionEdit
3.1 ساخت مجموعهداده
برای اعتبارسنجی گردش کار BUG، نویسندگان مجموعهداده FashionEdit را معرفی میکنند. این مجموعهداده برای شبیهسازی گردشهای کاری واقعی طراحی لباس طراحی شده است. این مجموعه شامل سهتاییهایی است: (1) یک تصویر پایه از لباس، (2) یک دستور ویرایش متنی (مانند "تغییر به سبک یقه هفت تیز")، و (3) یک تصویر سبک مرجع که ویژگی هدف را به تصویر میکشد. این مجموعهداده ویرایشهای ریزدانهای مانند تغییر سبک یقه (یقه هفت تیز)، اصلاحات بستهبندی (دو ردیفه چهار دکمه)، و افزودن لوازم جانبی (افزودن شاخه گل کوچک) را پوشش میدهد.
3.2 معیارهای ارزیابی
ارزیابی پیشنهادی سهبعدی است:
- تشابه تولید: میزان نزدیکی خروجی ویرایش شده به ویژگی مورد نظر از تصویر مرجع را با استفاده از معیارهایی مانند LPIPS (تشابه یادگرفته شده قطعه تصویر ادراکی) و امتیاز CLIP اندازهگیری میکند.
- رضایت کاربر: از طریق ارزیابی انسانی یا نظرسنجیها برای سنجش سودمندی عملی و همسویی با قصد کاربر ارزیابی میشود.
- کیفیت: وفاداری بصری کلی و انسجام تصویر تولید شده را، عاری از آرتیفکت، ارزیابی میکند.
4. آزمایشها و نتایج
4.1 تنظیمات آزمایشی
چارچوب BUG در برابر روشهای پایه ویرایش صرفاً متنی (با استفاده از مدلهایی مانند Stable Diffusion 3 و DALL-E 2 همراه با درپینتینگ) روی مجموعهداده FashionEdit معیارسنجی شده است. آزمایشها توانایی سیستم را در انجام ویرایشهای دقیق و خاص ویژگی، با هدایت تصاویر مرجع، میآزمایند.
4.2 نتایج کمی
مقاله عملکرد برتر گردش کار BUG را نسبت به پایههای صرفاً متنی در هر سه معیار ارزیابی گزارش میدهد. یافتههای کلیدی شامل موارد زیر است:
- امتیازات LPIPS/CLIP بالاتر: تصاویر ویرایش شده شباهت ادراکی بیشتری به ویژگیهای هدف مشخص شده توسط تصویر مرجع نشان میدهند.
- نرخ رضایت کاربر افزایش یافته: در ارزیابیهای انسانی، خروجیهای روش تصویر-به-پِرامپت به طور مداوم به عنوان خروجیهایی که درخواست ویرایش را دقیقتر برآورده میکنند، ارزیابی شدهاند.
- حفظ کیفیت تصویر: گردش کار BUG کیفیت کلی و انسجام لباس پایه را در حین انجام ویرایش هدفمند حفظ میکند.
4.3 تحلیل کیفی و مطالعه موردی
شکلهای ۱ و ۲ از فایل PDF شواهد کیفی قانعکنندهای ارائه میدهند. شکل ۱ سناریوی واقعی را نشان میدهد: کاربر تصویری از یک فرد با کت سفید و یک تصویر مرجع از یک یقه خاص ارائه میدهد و درخواست تغییر میکند. توصیف صرفاً متنی "کت سفید" کافی نیست. شکل ۲ به صورت بصری فرآیند تکراری BUG (با استفاده از هر دو پرامپت متنی و تصویری) را در مقابل یک خط لوله ویرایش صرفاً متنی مقایسه میکند و نشان میدهد که چگونه اولی منجر به طرحهای صحیح میشود در حالی که دومی اغلب برای وظایف ریزدانه مانند افزودن شاخه گل کوچک یا تغییر به سبک دو ردیفه چهار دکمه، نتایج نادرست یا مبهم تولید میکند.
5. تحلیل فنی و چارچوب
5.1 فرمولبندی ریاضی
فرآیند تولید هسته را میتوان به عنوان یک فرآیند انتشار شرطی قالببندی کرد. فرض کنید $I_0$ تصویر پایه اولیه باشد. یک درخواست ویرایش یک جفت $(T_{edit}, I_{ref})$ است، که در آن $T_{edit}$ دستور متنی و $I_{ref}$ تصویر مرجع است. مدل بزرگ چندوجهی این را به یک بردار شرطی ترکیبی $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$ رمزگذاری میکند، که در آن $\mathcal{F}$ یک شبکه ادغام (مانند توجه متقاطع) است. سپس تصویر ویرایش شده $I_{edit}$ از فرآیند انتشار معکوس شرطی شده بر $c$ نمونهبرداری میشود: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ که در آن $\theta$ پارامترهای mLMM هستند. وجه تمایز کلیدی از انتشار متن-به-تصویر استاندارد، شرطیسازی غنی شده $c$ است که از ادغام چندوجهی به دست میآید.
5.2 مثال چارچوب تحلیل
مورد: ویرایش یقه کت
- ورودی: تصویر پایه ($I_0$): تصویر یک زن با کت یقه هفت معمولی. درخواست ویرایش: $(T_{edit}="تغییر به سبک یقه هفت تیز", I_{ref}=[تصویر یک یقه هفت تیز])$.
- پردازش مدل بزرگ چندوجهی: eLMM، $T_{edit}$ را تجزیه میکند تا ناحیه هدف ("یقه") و عمل ("تغییر سبک") را شناسایی کند. رمزگذار بینایی ویژگیهایی را از $I_{ref}$ استخراج میکند که "یقه هفت تیز" را به صورت بصری تعریف میکند.
- ادغام شرطیسازی: ویژگیهای "یقه" از $I_0$، مفهوم متنی "تیز"، و الگوی بصری از $I_{ref}$ تراز و در یک نقشه شرطی یکپارچه آگاه از فضایی برای mLMM ادغام میشوند.
- اجرا: mLMM (یک مدل انتشار) بر روی ناحیه یقه $I_0$، با هدایت شرطیسازی ادغام شده، درپینتینگ/ویرایش را انجام میدهد و یقه هفت معمولی را به یک یقه هفت تیز تبدیل میکند در حالی که بقیه کت و حالت مدل حفظ میشود.
- خروجی: $I_{edit}$: همان تصویر پایه، اما با یک یقه هفت تیز دقیقاً اصلاح شده.
6. کاربردها و جهتهای آینده
گردش کار BUG پیامدهایی فراتر از مُد دارد:
- طراحی داخلی و محصول: کاربران میتوانند یک تصویر مرجع از پایه مبلی یا بافت پارچه نشان دهند تا یک مدل سهبعدی یا رندر اتاق را تغییر دهند.
- خلق دارایی بازی: نمونهسازی سریع زره، سلاح یا محیطهای شخصیت با ترکیب مدلهای پایه و مراجع سبک.
- تصویرسازی معماری: اصلاح نماهای ساختمان یا پرداختهای داخلی بر اساس تصاویر نمونه.
- پژوهش آینده: گسترش به ویرایش ویدیو (تغییر لباس یک بازیگر در طول فریمها)، ویرایش شکل سهبعدی، و بهبود ترکیبپذیری ویرایشها (مدیریت چندین تصویر مرجع بالقوه متضاد). یک جهت اصلی، تقویت استدلال مدل بزرگ چندوجهی درباره روابط فضایی و فیزیک است تا اطمینان حاصل شود که ویرایشها نه تنها از نظر بصری صحیح، بلکه معقول هستند (به عنوان مثال، یک شاخه گل کوچک به درستی به یقه متصل شده است).
7. مراجع
- Stable Diffusion 3: Research Paper, Stability AI.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
- Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN یک رویکرد مرتبط بدون نظارت است).
- Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
- Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
- Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.
8. تحلیل اصلی و تفسیر کارشناسی
بینش اصلی: این مقاله فقط یک بهبود تدریجی دیگر در ویرایش تصویر نیست؛ بلکه یک چرخش استراتژیک به سمت رفع ابهام قصد چندوجهی است. نویسندگان به درستی شناسایی کردهاند که مرز بعدی برای هوش مصنوعی مولد در حوزههای خلاق، قدرت خام نیست، بلکه ارتباط دقیق است. گلوگاه واقعی توانایی مدل برای تولید یک "کت" نیست، بلکه توانایی آن در درک اینکه کدام کت خاص در ذهن کاربر است، میباشد. با رسمی کردن پارادایم "تصویر-به-عنوان-مرجع" به یک معیار "تصویر-به-پِرامپت" (BUG)، آنها به مسئله بنیادی ابهام که همکاری انسان-هوش مصنوعی را آزار میدهد، میپردازند. این فراتر از مسیر شناخته شده مدلهایی مانند CycleGAN (که انتقال سبک بدون جفت را یاد میگیرند) یا InstructPix2Pix (که فقط به متن متکی است) حرکت میکند، با الزام صریح به هوش مصنوعی برای ارجاع متقابل نمونههای بصری، گامی شناختی نزدیکتر به نحوه کار طراحان انسانی.
جریان منطقی: استدلال قانعکننده و به خوبی ساختار یافته است. با یک نقطه درد صنعتی واضح (شکاف بین پرامپتهای متنی مبتدی و خروجی طراحی حرفهای) آغاز میشود، یک راهحل شناختی قابل قبول (تقلید استفاده طراح از تصاویر مرجع) را پیشنهاد میدهد و سپس آن را با یک گردش کاری فنی مشخص (BUG) و یک مجموعهداده ارزیابی سفارشی (FashionEdit) پشتیبانی میکند. استفاده از یک معماری دوگانه مدل بزرگ چندوجهی (eLMM/mLMM) به طور منطقی برنامهریزی سطح بالا را از اجرای سطح پایین جدا میکند، یک الگوی طراحی که در سیستمهای هوش مصنوعی مبتنی بر عامل در حال جذب است، همانطور که در پژوهش مؤسساتی مانند Google DeepMind در مورد استفاده از ابزار و برنامهریزی دیده میشود.
نقاط قوت و ضعف: نقطه قوت اصلی قالببندی مسئله و ایجاد معیار است. مجموعهداده FashionEdit، اگر به صورت عمومی در دسترس قرار گیرد، میتواند به یک استاندارد برای ارزیابی ویرایش ریزدانه تبدیل شود، مشابه MS-COCO برای تشخیص شیء. ادغام رضایت کاربر به عنوان یک معیار نیز قابل تحسین است و تصدیق میکند که امتیازات فنی به تنهایی کافی نیستند. با این حال، مقاله، همانطور که در گزیده ارائه شده است، شکافهای قابل توجهی دارد. جزئیات فنی مکانیزم ادغام مدل بزرگ چندوجهی اندک است. ویژگیهای بصری از $I_{ref}$ دقیقاً چگونه با ناحیه فضایی در $I_0$ تراز میشوند؟ آیا از طریق توجه متقاطع، یک ماژول تراز فضایی اختصاصی، یا چیز دیگری است؟ علاوه بر این، ارزیابی، اگرچه امیدوارکننده است، نیاز به مطالعات حذفی دقیقتری دارد. چه مقدار از بهبود ناشی از تصویر مرجع در مقابل صرفاً داشتن یک مدل پایه بهتر تنظیم شده است؟ مقایسه با پایههای قوی مانند InstructPix2Pix یا ویرایش مبتنی بر نقطه به سبک DragGAN شواهد قویتری ارائه میدهد.
بینشهای قابل اجرا: برای فعالان صنعت، این پژوهش یک دستورالعمل واضح را نشان میدهد: در لایههای تعامل چندوجهی برای محصولات هوش مصنوعی مولد خود سرمایهگذاری کنید. یک جعبه متن ساده دیگر کافی نیست. رابط کاربری باید به کاربران اجازه دهد تصاویر مرجع را بکشند، رها کنند یا دور آن خط بکشند. برای پژوهشگران، معیار BUG چندین مسیر را باز میکند: ۱) آزمایش استحکام—مدل با تصاویر مرجع کمکیفیت یا از نظر معنایی دور چگونه عمل میکند؟ ۲) ترکیبپذیری—آیا میتواند "یقه را از تصویر A و آستینها را از تصویر B بسازد" را مدیریت کند؟ ۳) تعمیمپذیری—آیا اصول را میتوان در حوزههای غیر مُد مانند طراحی گرافیک یا CAD صنعتی به کار برد؟ آزمون نهایی این خواهد بود که آیا این رویکرد میتواند از مجموعهدادههای کنترل شده به خلاقیت آشفته و باز کاربران واقعی حرکت کند، چالشی که اغلب نمونههای اولیه آکادمیک را از پیشرفتهای تجاری جدا میکند، همانطور که تاریخ با ابزارهای خلاق مبتنی بر GAN قبلی نشان داده است.