تصميم أزياء مخصص بدقة عالية باستخدام آلية الصورة إلى موجه: معيار ومجموعة بيانات BUG

1. المقدمة

يحدث الذكاء الاصطناعي التوليدي (GenAI) ثورة في سير العمل الصناعي المعقد. في صناعة الملابس، يتم تعزيز خط الإنتاج التقليدي - من احتياجات العميل إلى المصمم، ومن ثم صانع النمط، والخياط، وأخيراً التسليم النهائي - بواسطة النماذج متعددة الوسائط الكبيرة (LMMs). بينما تتقن نماذج LMM الحالية تحليل تفضيلات العملاء لتوصية المنتجات، فإن هناك فجوة كبيرة في تمكين التخصيص الدقيق الذي يقوده المستخدم. يرغب المستخدمون بشكل متزايد في أن يكونوا مصممين لأنفسهم، لإنشاء التصاميم والتعديل عليها حتى يرضوا عنها. ومع ذلك، تعاني الموجهات النصية البحتة (مثل "جاكت أبيض") من الغموض، وتفتقر إلى التفاصيل المهنية (مثل نمط الياقة المحدد) التي قد يستنتجها المصمم. تقدم هذه الورقة البحثية سير عمل التوليد الأفضل للفهم (BUG)، الذي يستفيد من نماذج LMM لتفسير مدخلات الصورة إلى موجه جنباً إلى جنب مع النص، مما يتيح تحرير تصميم الأزياء بدقة وبطريقة تكرارية لسد الفجوة بين نية المستخدم الهواة والإخراج ذي المستوى الاحترافي.

2. المنهجية

2.1 سير عمل BUG

يحاكي سير عمل BUG استشارة تصميم واقعية. يبدأ بمرحلة التهيئة حيث يتم إنشاء صورة أساسية للقطعة من وصف المستخدم النصي (مثل "جاكت قطني بأنماط قماش"). بعد ذلك، يمكن للمستخدم طلب تعديلات من خلال حلقة تكرارية. تتضمن كل تكرار نصاً كموجه (مثل "عدل الياقة")، والأهم من ذلك، صورة كموجه - وهي صورة مرجعية توضح عنصر النمط المطلوب (مثل صورة لطية صدر مدببة). يعالج نموذج LMM هذا المدخل متعدد الوسائط لإنتاج التصميم المعدل، والذي يمكن للمستخدم قبوله أو استخدامه كأساس للتحسين التالي.

2.2 آلية الصورة إلى موجه

هذا هو الابتكار الأساسي. بدلاً من الاعتماد فقط على الأوصاف النصية للمفاهيم البصرية، يستقبل النظام صورة مرجعية. يقوم مشفر الرؤية في نموذج LMM باستخراج الميزات البصرية من هذه المرجعية، والتي يتم دمجها بعد ذلك مع الموجه النصي المشفر. يخلق هذا الدمج إشارة توجيهية أكثر ثراءً وأقل غموضاً لنموذج توليد/تحرير الصور، مما يعالج مباشرة مشكلة "عدم اليقين النصي" التي تم تسليط الضوء عليها في المقدمة.

2.3 بنية النموذج متعدد الوسائط الكبير (LMM)

يستخدم النظام المقترح إعداداً مزدوجاً لنماذج LMM، كما تمت الإشارة إليه في الشكل 2 باسم eLMM و mLMM. eLMM (نموذج LMM المحرر) مسؤول عن فهم طلب التحرير متعدد الوسائط وتخطيط التعديل. بينما mLMM (نموذج LMM المعدل) ينفذ تحرير الصور الفعلي، والذي من المحتمل أن يكون مبنياً على بنية قائمة على الانتشار مثل Stable Diffusion 3، ويتم توجيهه بناءً على التمثيل المدمج للنص والصورة. يسمح هذا الفصل بالتفكير والتنفيذ المتخصصين.

3. مجموعة بيانات FashionEdit

3.1 بناء مجموعة البيانات

للتحقق من صحة سير عمل BUG، يقدم المؤلفون مجموعة بيانات FashionEdit. تم تصميم مجموعة البيانات هذه لمحاكاة سير عمل تصميم الملابس في العالم الحقيقي. تحتوي على ثلاثيات: (1) صورة أساسية للقطعة، (2) تعليمات تحرير نصية (مثل "غيّر إلى نمط طية الصدر المدببة")، و (3) صورة نمط مرجعية تصف السمة المستهدفة. تغطي مجموعة البيانات التعديلات الدقيقة مثل تغييرات نمط الياقة (طية صدر مدببة)، وتعديلات الإغلاق (أربعة أزرار مزدوجة الصدر)، وإضافة الإكسسوارات (إضافة زهرة صدر).

3.2 مقاييس التقييم

التقييم المقترح ثلاثي الأبعاد:

تشابه التوليد: يقيس مدى قرب المخرجات المعدلة من السمة المقصودة من الصورة المرجعية، باستخدام مقاييس مثل LPIPS (تشابه رقعة الصورة الإدراكي المتعلم) ودرجة CLIP.
رضا المستخدم: يتم تقييمه عبر التقييم البشري أو الاستطلاعات لقياس الفائدة العملية ومدى توافقها مع نية المستخدم.
الجودة: تقيّم الدقة البصرية العامة وتماسك الصورة المُنشأة، وخالية من التشوهات.

4. التجارب والنتائج

4.1 الإعداد التجريبي

يتم تقييم أداء إطار عمل BUG مقابل طرق التحرير النصية البحتة الأساسية (باستخدام نماذج مثل Stable Diffusion 3 و DALL-E 2 مع التعبئة) على مجموعة بيانات FashionEdit. تختبر التجارب قدرة النظام على إجراء تعديلات دقيقة وخاصة بالسمات بتوجيه من الصور المرجعية.

4.2 النتائج الكمية

تذكر الورقة البحثية أداءً متفوقاً لسير عمل BUG على الطرق الأساسية النصية البحتة عبر مقاييس التقييم الثلاثة جميعها. تشمل النتائج الرئيسية:

درجات LPIPS/CLIP أعلى: تظهر الصور المعدلة تشابهاً إدراكياً أكبر مع السمات المستهدفة المحددة بواسطة الصورة المرجعية.
زيادة معدلات رضا المستخدم: في التقييمات البشرية، يتم تقييم مخرجات طريقة الصورة إلى موجه باستمرار على أنها تفي بطلب التحرير بشكل أكثر دقة.
الحفاظ على جودة الصورة: يحافظ سير عمل BUG على الجودة العامة وتماسك القطعة الأساسية أثناء إجراء التعديل المستهدف.

4.3 التحليل النوعي ودراسة الحالة

يوفر الشكل 1 و 2 من ملف PDF أدلة نوعية مقنعة. يوضح الشكل 1 السيناريو الواقعي: يقدم المستخدم صورة لشخص يرتدي جاكتاً أبيض وصورة مرجعية لياقة محددة، طالباً التعديل. الوصف النصي البحت "جاكت أبيض" غير كافٍ. يقارن الشكل 2 بصرياً عملية BUG التكرارية (باستخدام كل من النصوص والصور كموجهات) مقابل خط أنابيب تحرير نصي بحت، موضحاً كيف يؤدي الأول إلى تصاميم صحيحة بينما ينتج الأخير غالباً نتائج خاطئة أو غامضة لمهام دقيقة مثل إضافة زهرة صدر أو التغيير إلى نمط بأربعة أزرار مزدوج الصدر.

5. التحليل التقني والإطار

5.1 الصياغة الرياضية

يمكن تأطير عملية التوليد الأساسية كعملية انتشار شرطي. لنفترض أن $I_0$ هي الصورة الأساسية الأولية. طلب التحرير هو زوج $(T_{edit}, I_{ref})$، حيث $T_{edit}$ هو التعليم النصي و $I_{ref}$ هي الصورة المرجعية. يقوم نموذج LMM بتشفير هذا إلى متجه توجيهي مجمع $c = \mathcal{F}(\phi_{text}(T_{edit}), \phi_{vision}(I_{ref}))$، حيث $\mathcal{F}$ هي شبكة اندماج (مثل الانتباه المتقاطع). ثم يتم أخذ عينة الصورة المعدلة $I_{edit}$ من عملية الانتشار العكسي المشروطة بـ $c$: $$p_\theta(I_{edit} | I_0, c) = \prod_{t=1}^{T} p_\theta(I_{t-1} | I_t, c)$$ حيث $\theta$ هي معلمات mLMM. المميز الرئيسي عن الانتشار النصي إلى الصورة القياسي هو التوجيه الثري $c$ المشتق من الاندماج متعدد الوسائط.

5.2 مثال على إطار التحليل

الحالة: تحرير طية صدر الجاكت

المدخلات: الصورة الأساسية ($I_0$): صورة لامرأة ترتدي جاكتاً بطية صدر عادية. طلب التحرير: $(T_{edit}="غيّر إلى نمط طية الصدر المدببة", I_{ref}=[صورة لطية صدر مدببة])$.
معالجة LMM: يحلل eLMM $T_{edit}$ لتحديد المنطقة المستهدفة ("طية الصدر") والإجراء ("تغيير النمط"). يستخرج مشفر الرؤية الميزات من $I_{ref}$ التي تحدد "طية الصدر المدببة" بصرياً.
اندماج التوجيه: يتم محاذاة ميزات "طية الصدر" من $I_0$، والمفهوم النصي "مدببة"، والقالب البصري من $I_{ref$ ودمجها في خريطة توجيه موحدة واعية مكانياً لـ mLMM.
التنفيذ: يقوم mLMM (نموذج انتشار) بإجراء تعبئة/تحرير على منطقة طية الصدر في $I_0$، بتوجيه من التوجيه المدمج، محولاً طية الصدر العادية إلى طية مدببة مع الحفاظ على بقية الجاكت ووضعية النموذج.
المخرجات: $I_{edit}$: نفس الصورة الأساسية، ولكن مع طية صدر مدببة معدلة بدقة.

يوضح هذا الإطار التحكم الدقيق على مستوى السمة الذي تتيحه نموذج الصورة إلى موجه.

6. التطبيقات المستقبلية والاتجاهات

لسير عمل BUG آثار تتجاوز عالم الأزياء:

التصميم الداخلي ومنتجات الاستهلاك: يمكن للمستخدمين عرض صورة مرجعية لساق أثاث أو نسيج قماش لتعديل نموذج ثلاثي الأبعاد أو عرض غرفة.
إنشاء أصول الألعاب: النماذج الأولية السريعة للدروع أو الأسلحة أو البيئات الخاصة بالشخصيات من خلال الجمع بين النماذج الأساسية ومراجع الأنماط.
التصور المعماري: تعديل واجهات المباني أو التشطيبات الداخلية بناءً على صور أمثلة.
البحث المستقبلي: التوسع إلى تحرير الفيديو (تغيير زي الممثل عبر الإطارات)، و تحرير الأشكال ثلاثية الأبعاد، وتحسين قابلية تركيب التعديلات (التعامل مع صور مرجعية متعددة ومتعارضة محتملاً). اتجاه رئيسي هو تعزيز قدرة نموذج LMM على التفكير في العلاقات المكانية والفيزياء لضمان أن التعديلات ليست صحيحة بصرياً فحسب، بل ومعقولة أيضاً (مثل تثبيت زهرة الصدر بشكل صحيح على طية الصدر).

7. المراجع

Stable Diffusion 3: ورقة بحثية، Stability AI.
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
OpenAI. (2022). DALL-E 2. https://openai.com/dall-e-2
Isola, P., et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (CycleGAN هو نهج غير خاضع للإشراف ذو صلة).
Liu, V., & Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. CHI Conference on Human Factors in Computing Systems.
Brooks, T., et al. (2023). InstructPix2Pix: Learning to Follow Image Editing Instructions. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Li, H., et al. (2025). Fine-Grained Customized Fashion Design with Image-into-Prompt Benchmark and Dataset from LMM. arXiv:2509.09324.

8. التحليل الأصلي والتعليق الخبير

الفكرة الأساسية: هذه الورقة البحثية ليست مجرد تحسين تدريجي آخر في تحرير الصور؛ إنها تحول استراتيجي نحو إزالة الغموض عن النية متعددة الوسائط. يحدد المؤلفون بشكل صحيح أن الجبهة التالية للذكاء الاصطناعي التوليدي في المجالات الإبداعية ليست القوة الخام، بل التواصل الدقيق. الاختناق الحقيقي ليس قدرة النموذج على توليد "جاكت"، بل قدرته على فهم أي جاكت محدد يدور في ذهن المستخدم. من خلال إضفاء الطابع الرسمي على نموذج "الصورة كمرجع" إلى معيار "الصورة إلى موجه" (BUG)، فإنهم يعالجون مشكلة الغموض الأساسية التي تؤرق الإبداع المشترك بين الإنسان والذكاء الاصطناعي. يتجاوز هذا المسار المطروق جيداً لنماذج مثل CycleGAN (التي تتعلم نقل النمط غير المزدوج) أو InstructPix2Pix (التي تعتمد فقط على النص) من خلال اشتراط صريح من الذكاء الاصطناعي للرجوع إلى الأمثلة البصرية، وهي خطوة معرفية أقرب إلى كيفية عمل المصممين البشريين.

التدفق المنطقي: الحجة مقنعة ومنظمة جيداً. تبدأ بنقطة ألم صناعية واضحة (الفجوة بين الموجهات النصية للهواة وإخراج التصميم الاحترافي)، وتقترح حلاً معقولاً معرفياً (محاكاة استخدام المصمم للصور المرجعية)، ثم تدعمه بسير عمل تقني ملموس (BUG) ومجموعة بيانات تقييم مخصصة (FashionEdit). إن استخدام بنية LMM مزدوجة (eLMM/mLMM) يفصل منطقياً التخطيط عالي المستوى عن التنفيذ منخفض المستوى، وهو نمط تصميم يكتسب زخماً في أنظمة الذكاء الاصطناعي القائمة على الوكلاء، كما يُرى في أبحاث مؤسسات مثل Google DeepMind حول استخدام الأدوات والتخطيط.

نقاط القوة والضعف: القوة الرئيسية هي تأطير المشكلة وإنشاء المعيار. يمكن لمجموعة بيانات FashionEdit، إذا تم إتاحتها للجمهور، أن تصبح معياراً لتقييم التحرير الدقيق، مثل MS-COCO للكشف عن الأشياء. كما أن دمج رضا المستخدم كمقياس هو أمر يستحق الثناء، معترفاً بأن الدرجات التقنية وحدها غير كافية. ومع ذلك، فإن الورقة البحثية، كما وردت في المقتطف، بها فجوات ملحوظة. التفاصيل التقنية لآلية اندماج LMM قليلة. كيف تتم محاذاة الميزات البصرية من $I_{ref}$ مع المنطقة المكانية في $I_0$ بالضبط؟ هل من خلال الانتباه المتقاطع، أو وحدة محاذاة مكانية مخصصة، أو شيء آخر؟ علاوة على ذلك، يحتاج التقييم، رغم كونه واعداً، إلى دراسات استبعاد أكثر صرامة. كم جزء من التحسن يأتي من الصورة المرجعية مقابل مجرد وجود نموذج أساسي مضبوط بشكل أفضل؟ ستوفر المقارنات مع طرق أساسية قوية مثل InstructPix2Pix أو تحرير قائم على النقاط على غرار DragGAN أدلة أقوى.

رؤى قابلة للتنفيذ: بالنسبة للممارسين في الصناعة، يشير هذا البحث إلى توجيه واضح: استثمروا في طبقات التفاعل متعددة الوسائط لمنتجات الذكاء الاصطناعي التوليدي الخاصة بكم. لم يعد مربع النص البسيط كافياً. يجب أن تسمح واجهة المستخدم للمستخدمين بسحب وإفلات أو تحديد الصور المرجعية. بالنسبة للباحثين، يفتح معيار BUG عدة مسارات: 1) اختبار المتانة - كيف يؤدي النموذج مع صور مرجعية منخفضة الجودة أو بعيدة دلالياً؟ 2) قابلية التركيب - هل يمكنه التعامل مع "اجعل الياقة من الصورة A والأكمام من الصورة B"؟ 3) التعميم - هل يمكن تطبيق المبادئ على مجالات غير الأزياء مثل التصميم الجرافيكي أو CAD الصناعي؟ سيكون الاختبار النهائي هو ما إذا كان يمكن لهذا النهج الانتقال من مجموعات البيانات الخاضعة للرقابة إلى الإبداع الفوضوي والمفتوح للمستخدمين الحقيقيين، وهو التحدي الذي غالباً ما يفصل النماذج الأولية الأكاديمية عن الاختراقات التجارية، كما أظهر تاريخ أدوات الإبداع القائمة على GAN سابقاً.