1. مقدمه

هوش مصنوعی مولد (GenAI) در حال دگرگونی گردش‌های کاری پیچیده صنعتی است. در صنعت پوشاک، خط لوله سنتی—از نیاز مشتری تا طراح، الگوساز، خیاط و تحویل نهایی—توسط مدل‌های بزرگ چندوجهی (LMMs) تقویت می‌شود. در حالی که مدل‌های بزرگ چندوجهی کنونی در تحلیل ترجیحات مشتری برای توصیه کالا عالی عمل می‌کنند، شکاف قابل توجهی در امکان‌پذیری سفارشی‌سازی ریزدانه و کاربر-محور وجود دارد. کاربران به طور فزاینده‌ای مایلند خود به عنوان طراح عمل کنند، طرح‌ها را ایجاد کرده و تا زمان رضایت تکرار کنند. با این حال، پرامپت‌های صرفاً متنی (مانند "کت سفید") از ابهام رنج می‌برند و فاقد جزئیات حرفه‌ای (مانند سبک خاص یقه) هستند که یک طراح استنباط می‌کند. این مقاله گردش کار نسل‌سازی درک بهتر (BUG) را معرفی می‌کند که از مدل‌های بزرگ چندوجهی برای تفسور ورودی‌های تصویر-به-پِرامپت در کنار متن استفاده می‌کند و ویرایش‌های دقیق و تکراری طراحی مُد را ممکن می‌سازد که شکاف بین قصد کاربر مبتدی و خروجی در سطح حرفه‌ای را پر می‌کند.

2. روش‌شناسی

2.1 گردش کار BUG

گردش کار BUG یک مشاوره طراحی واقعی را شبیه‌سازی می‌کند. این فرآیند با یک فاز مقداردهی اولیه آغاز می‌شود که در آن یک تصویر پایه از لباس از روی توصیف متنی کاربر (مانند "یک کت پنبه‌ای با طرح پارچه") تولید می‌شود. سپس، کاربر می‌تواند از طریق یک حلقه تکراری درخواست ویرایش کند. هر تکرار شامل یک متن-به-عنوان-پِرامپت (مانند "یقه را تغییر بده") و مهم‌تر از آن، یک تصویر-به-پِرامپت—یعنی یک تصویر مرجع که عنصر سبک مورد نظر را نشان می‌دهد (مانند تصویری از یک یقه‌ی هفت تیز)—می‌شود. مدل بزرگ چندوجهی این ورودی چندوجهی را پردازش می‌کند تا طرح ویرایش شده را تولید کند، که کاربر می‌تواند آن را بپذیرد یا به عنوان پایه برای اصلاح بعدی استفاده کند.

2.2 مکانیزم تصویر-به-پِرامپت

این هسته نوآوری است. به جای اتکای صرف به توصیف‌های متنی از مفاهیم بصری، سیستم یک تصویر مرجع را دریافت می‌کند. رمزگذار بینایی مدل بزرگ چندوجهی، ویژگی‌های بصری را از این مرجع استخراج می‌کند که سپس با پرامپت متنی رمزگذاری شده ادغام می‌شوند. این ادغام یک سیگنال شرطی غنی‌تر و کم‌ابهام‌تر برای مدل تولید/ویرایش تصویر ایجاد می‌کند و مستقیماً به مسئله "عدم قطعیت متنی" که در مقدمه برجسته شده است، می‌پردازد.

2.3 معماری مدل بزرگ چندوجهی (LMM)

سیستم پیشنهادی از یک پیکربندی دوگانه مدل بزرگ چندوجهی استفاده می‌کند که در شکل ۲ با عناوین eLMM و mLMM به آن اشاره شده است. eLMM (مدل بزرگ چندوجهی ویرایشگر) مسئول درک درخواست ویرایش چندوجهی و برنامه‌ریزی برای اصلاح است. mLMM (مدل بزرگ چندوجهی اصلاح‌کننده) ویرایش واقعی تصویر را اجرا می‌کند، که احتمالاً بر اساس یک معماری مبتنی بر انتشار مانند Stable Diffusion 3 ساخته شده و بر اساس بازنمایی ادغام شده متن-تصویر شرطی شده است. این جداسازی امکان استدلال و اجرای تخصصی را فراهم می‌کند.

3. مجموعه‌داده‌ی FashionEdit

3.1 ساخت مجموعه‌داده

برای اعتبارسنجی گردش کار BUG، نویسندگان مجموعه‌داده FashionEdit را معرفی می‌کنند. این مجموعه‌داده برای شبیه‌سازی گردش‌های کاری واقعی طراحی لباس طراحی شده است. این مجموعه شامل سه‌تایی‌هایی است: (1) یک تصویر پایه از لباس، (2) یک دستور ویرایش متنی (مانند "تغییر به سبک یقه هفت تیز")، و (3) یک تصویر سبک مرجع که ویژگی هدف را به تصویر می‌کشد. این مجموعه‌داده ویرایش‌های ریزدانه‌ای مانند تغییر سبک یقه (یقه هفت تیز)، اصلاحات بسته‌بندی (دو ردیفه چهار دکمه)، و افزودن لوازم جانبی (افزودن شاخه گل کوچک) را پوشش می‌دهد.

3.2 معیارهای ارزیابی

ارزیابی پیشنهادی سه‌بعدی است:

  • تشابه تولید: میزان نزدیکی خروجی ویرایش شده به ویژگی مورد نظر از تصویر مرجع را با استفاده از معیارهایی مانند LPIPS (تشابه یادگرفته شده قطعه تصویر ادراکی) و امتیاز CLIP اندازه‌گیری می‌کند.
  • رضایت کاربر: از طریق ارزیابی انسانی یا نظرسنجی‌ها برای سنجش سودمندی عملی و همسویی با قصد کاربر ارزیابی می‌شود.
  • کیفیت: وفاداری بصری کلی و انسجام تصویر تولید شده را، عاری از آرتیفکت، ارزیابی می‌کند.

4. آزمایش‌ها و نتایج

4.1 تنظیمات آزمایشی

چارچوب BUG در برابر روش‌های پایه ویرایش صرفاً متنی (با استفاده از مدل‌هایی مانند Stable Diffusion 3 و DALL-E 2 همراه با درپینتینگ) روی مجموعه‌داده FashionEdit معیارسنجی شده است. آزمایش‌ها توانایی سیستم را در انجام ویرایش‌های دقیق و خاص ویژگی، با هدایت تصاویر مرجع، می‌آزمایند.

4.2 نتایج کمی

مقاله عملکرد برتر گردش کار BUG را نسبت به پایه‌های صرفاً متنی در هر سه معیار ارزیابی گزارش می‌دهد. یافته‌های کلیدی شامل موارد زیر است:

  • امتیازات LPIPS/CLIP بالاتر: تصاویر ویرایش شده شباهت ادراکی بیشتری به ویژگی‌های هدف مشخص شده توسط تصویر مرجع نشان می‌دهند.
  • نرخ رضایت کاربر افزایش یافته: در ارزیابی‌های انسانی، خروجی‌های روش تصویر-به-پِرامپت به طور مداوم به عنوان خروجی‌هایی که درخواست ویرایش را دقیق‌تر برآورده می‌کنند، ارزیابی شده‌اند.
  • حفظ کیفیت تصویر: گردش کار BUG کیفیت کلی و انسجام لباس پایه را در حین انجام ویرایش هدفمند حفظ می‌کند.

4.3 تحلیل کیفی و مطالعه موردی

شکل‌های ۱ و ۲ از فایل PDF شواهد کیفی قانع‌کننده‌ای ارائه می‌دهند. شکل ۱ سناریوی واقعی را نشان می‌دهد: کاربر تصویری از یک فرد با کت سفید و یک تصویر مرجع از یک یقه خاص ارائه می‌دهد و درخواست تغییر می‌کند. توصیف صرفاً متنی "کت سفید" کافی نیست. شکل ۲ به صورت بصری فرآیند تکراری BUG (با استفاده از هر دو پرامپت متنی و تصویری) را در مقابل یک خط لوله ویرایش صرفاً متنی مقایسه می‌کند و نشان می‌دهد که چگونه اولی منجر به طرح‌های صحیح می‌شود در حالی که دومی اغلب برای وظایف ریزدانه مانند افزودن شاخه گل کوچک یا تغییر به سبک دو ردیفه چهار دکمه، نتایج نادرست یا مبهم تولید می‌کند.

5. تحلیل فنی و چارچوب

5.1 فرمول‌بندی ریاضی

فرآیند تولید هسته را می‌توان به عنوان یک فرآیند انتشار شرطی قالب‌بندی کرد. فرض کنید $I_0$ تصویر پایه اولیه باشد. یک درخواست ویرایش یک جفت $(T_{edit}, I_{ref})$ است، که در آن $T_{edit}$ دستور متنی و $I_{ref}$ تصویر مرجع است. مدل بزرگ چندوجهی این را به یک بردار شرطی ترکیبی $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$ رمزگذاری می‌کند، که در آن $\mathcal{F}$ یک شبکه ادغام (مانند توجه متقاطع) است. سپس تصویر ویرایش شده $I_{edit}$ از فرآیند انتشار معکوس شرطی شده بر $c$ نمونه‌برداری می‌شود: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ که در آن $\theta$ پارامترهای mLMM هستند. وجه تمایز کلیدی از انتشار متن-به-تصویر استاندارد، شرطی‌سازی غنی شده $c$ است که از ادغام چندوجهی به دست می‌آید.

5.2 مثال چارچوب تحلیل

مورد: ویرایش یقه کت

  1. ورودی: تصویر پایه ($I_0$): تصویر یک زن با کت یقه هفت معمولی. درخواست ویرایش: $(T_{edit}="تغییر به سبک یقه هفت تیز", I_{ref}=[تصویر یک یقه هفت تیز])$.
  2. پردازش مدل بزرگ چندوجهی: eLMM، $T_{edit}$ را تجزیه می‌کند تا ناحیه هدف ("یقه") و عمل ("تغییر سبک") را شناسایی کند. رمزگذار بینایی ویژگی‌هایی را از $I_{ref}$ استخراج می‌کند که "یقه هفت تیز" را به صورت بصری تعریف می‌کند.
  3. ادغام شرطی‌سازی: ویژگی‌های "یقه" از $I_0$، مفهوم متنی "تیز"، و الگوی بصری از $I_{ref}$ تراز و در یک نقشه شرطی یکپارچه آگاه از فضایی برای mLMM ادغام می‌شوند.
  4. اجرا: mLMM (یک مدل انتشار) بر روی ناحیه یقه $I_0$، با هدایت شرطی‌سازی ادغام شده، درپینتینگ/ویرایش را انجام می‌دهد و یقه هفت معمولی را به یک یقه هفت تیز تبدیل می‌کند در حالی که بقیه کت و حالت مدل حفظ می‌شود.
  5. خروجی: $I_{edit}$: همان تصویر پایه، اما با یک یقه هفت تیز دقیقاً اصلاح شده.
این چارچوب کنترل دقیق در سطح ویژگی را که توسط پارادایم تصویر-به-پِرامپت امکان‌پذیر شده است، نشان می‌دهد.

6. کاربردها و جهت‌های آینده

گردش کار BUG پیامدهایی فراتر از مُد دارد:

  • طراحی داخلی و محصول: کاربران می‌توانند یک تصویر مرجع از پایه مبلی یا بافت پارچه نشان دهند تا یک مدل سه‌بعدی یا رندر اتاق را تغییر دهند.
  • خلق دارایی بازی: نمونه‌سازی سریع زره، سلاح یا محیط‌های شخصیت با ترکیب مدل‌های پایه و مراجع سبک.
  • تصویرسازی معماری: اصلاح نماهای ساختمان یا پرداخت‌های داخلی بر اساس تصاویر نمونه.
  • پژوهش آینده: گسترش به ویرایش ویدیو (تغییر لباس یک بازیگر در طول فریم‌ها)، ویرایش شکل سه‌بعدی، و بهبود ترکیب‌پذیری ویرایش‌ها (مدیریت چندین تصویر مرجع بالقوه متضاد). یک جهت اصلی، تقویت استدلال مدل بزرگ چندوجهی درباره روابط فضایی و فیزیک است تا اطمینان حاصل شود که ویرایش‌ها نه تنها از نظر بصری صحیح، بلکه معقول هستند (به عنوان مثال، یک شاخه گل کوچک به درستی به یقه متصل شده است).

7. مراجع

  1. Stable Diffusion 3: Research Paper, Stability AI.
  2. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  3. OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
  4. Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN یک رویکرد مرتبط بدون نظارت است).
  5. Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
  6. Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  7. Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.

8. تحلیل اصلی و تفسیر کارشناسی

بینش اصلی: این مقاله فقط یک بهبود تدریجی دیگر در ویرایش تصویر نیست؛ بلکه یک چرخش استراتژیک به سمت رفع ابهام قصد چندوجهی است. نویسندگان به درستی شناسایی کرده‌اند که مرز بعدی برای هوش مصنوعی مولد در حوزه‌های خلاق، قدرت خام نیست، بلکه ارتباط دقیق است. گلوگاه واقعی توانایی مدل برای تولید یک "کت" نیست، بلکه توانایی آن در درک اینکه کدام کت خاص در ذهن کاربر است، می‌باشد. با رسمی کردن پارادایم "تصویر-به-عنوان-مرجع" به یک معیار "تصویر-به-پِرامپت" (BUG)، آنها به مسئله بنیادی ابهام که همکاری انسان-هوش مصنوعی را آزار می‌دهد، می‌پردازند. این فراتر از مسیر شناخته شده مدل‌هایی مانند CycleGAN (که انتقال سبک بدون جفت را یاد می‌گیرند) یا InstructPix2Pix (که فقط به متن متکی است) حرکت می‌کند، با الزام صریح به هوش مصنوعی برای ارجاع متقابل نمونه‌های بصری، گامی شناختی نزدیک‌تر به نحوه کار طراحان انسانی.

جریان منطقی: استدلال قانع‌کننده و به خوبی ساختار یافته است. با یک نقطه درد صنعتی واضح (شکاف بین پرامپت‌های متنی مبتدی و خروجی طراحی حرفه‌ای) آغاز می‌شود، یک راه‌حل شناختی قابل قبول (تقلید استفاده طراح از تصاویر مرجع) را پیشنهاد می‌دهد و سپس آن را با یک گردش کاری فنی مشخص (BUG) و یک مجموعه‌داده ارزیابی سفارشی (FashionEdit) پشتیبانی می‌کند. استفاده از یک معماری دوگانه مدل بزرگ چندوجهی (eLMM/mLMM) به طور منطقی برنامه‌ریزی سطح بالا را از اجرای سطح پایین جدا می‌کند، یک الگوی طراحی که در سیستم‌های هوش مصنوعی مبتنی بر عامل در حال جذب است، همانطور که در پژوهش مؤسساتی مانند Google DeepMind در مورد استفاده از ابزار و برنامه‌ریزی دیده می‌شود.

نقاط قوت و ضعف: نقطه قوت اصلی قالب‌بندی مسئله و ایجاد معیار است. مجموعه‌داده FashionEdit، اگر به صورت عمومی در دسترس قرار گیرد، می‌تواند به یک استاندارد برای ارزیابی ویرایش ریزدانه تبدیل شود، مشابه MS-COCO برای تشخیص شیء. ادغام رضایت کاربر به عنوان یک معیار نیز قابل تحسین است و تصدیق می‌کند که امتیازات فنی به تنهایی کافی نیستند. با این حال، مقاله، همانطور که در گزیده ارائه شده است، شکاف‌های قابل توجهی دارد. جزئیات فنی مکانیزم ادغام مدل بزرگ چندوجهی اندک است. ویژگی‌های بصری از $I_{ref}$ دقیقاً چگونه با ناحیه فضایی در $I_0$ تراز می‌شوند؟ آیا از طریق توجه متقاطع، یک ماژول تراز فضایی اختصاصی، یا چیز دیگری است؟ علاوه بر این، ارزیابی، اگرچه امیدوارکننده است، نیاز به مطالعات حذفی دقیق‌تری دارد. چه مقدار از بهبود ناشی از تصویر مرجع در مقابل صرفاً داشتن یک مدل پایه بهتر تنظیم شده است؟ مقایسه با پایه‌های قوی مانند InstructPix2Pix یا ویرایش مبتنی بر نقطه به سبک DragGAN شواهد قوی‌تری ارائه می‌دهد.

بینش‌های قابل اجرا: برای فعالان صنعت، این پژوهش یک دستورالعمل واضح را نشان می‌دهد: در لایه‌های تعامل چندوجهی برای محصولات هوش مصنوعی مولد خود سرمایه‌گذاری کنید. یک جعبه متن ساده دیگر کافی نیست. رابط کاربری باید به کاربران اجازه دهد تصاویر مرجع را بکشند، رها کنند یا دور آن خط بکشند. برای پژوهشگران، معیار BUG چندین مسیر را باز می‌کند: ۱) آزمایش استحکام—مدل با تصاویر مرجع کم‌کیفیت یا از نظر معنایی دور چگونه عمل می‌کند؟ ۲) ترکیب‌پذیری—آیا می‌تواند "یقه را از تصویر A و آستین‌ها را از تصویر B بسازد" را مدیریت کند؟ ۳) تعمیم‌پذیری—آیا اصول را می‌توان در حوزه‌های غیر مُد مانند طراحی گرافیک یا CAD صنعتی به کار برد؟ آزمون نهایی این خواهد بود که آیا این رویکرد می‌تواند از مجموعه‌داده‌های کنترل شده به خلاقیت آشفته و باز کاربران واقعی حرکت کند، چالشی که اغلب نمونه‌های اولیه آکادمیک را از پیشرفت‌های تجاری جدا می‌کند، همانطور که تاریخ با ابزارهای خلاق مبتنی بر GAN قبلی نشان داده است.