مجموعة بيانات Fashion-Diffusion: مليون صورة عالية الجودة لتصميم الأزياء بالذكاء الاصطناعي

جدول المحتويات

1.04 مليون

صورة أزياء عالية الجودة

768x1152

دقة الصورة

8,037

سمة موضحة

1.59 مليون

وصف نصي

1. المقدمة

يمثل اندماج الذكاء الاصطناعي وتصميم الأزياء حدودًا تحويلية في مجال الرؤية الحاسوبية والصناعات الإبداعية. بينما أظهرت نماذج توليد الصور من النص مثل DALL-E وStable Diffusion وImagen قدرات ملحوظة، إلا أن تطبيقها في مجالات متخصصة مثل تصميم الأزياء كان مقيدًا بعنق زجاجة حاسم: نقص مجموعات البيانات واسعة النطاق وعالية الجودة والمتخصصة في المجال.

تعاني مجموعات بيانات الأزياء الحالية، مثل DeepFashion وCM-Fashion وPrada، من قيود في الحجم (غالبًا أقل من 100 ألف صورة)، والدقة (مثل 256x256)، والشمولية (نقص الأشكال البشرية كاملة الجسم أو الأوصاف النصية التفصيلية)، أو دقة الشرح. تقدم هذه الورقة البحثية مجموعة بيانات Fashion-Diffusion، وهي جهد استمر لسنوات لسد هذه الفجوة. تتألف من أكثر من مليون صورة أزياء عالية الدقة (768x1152)، كل منها مقترن بأوصاف نصية مفصلة تغطي سمات الملابس والبشر، مستمدة من اتجاهات الأزياء العالمية المتنوعة.

2. مجموعة بيانات Fashion-Diffusion

2.1 بناء وتجميع مجموعة البيانات

بدأ بناء مجموعة البيانات في عام 2018، وشمل التجميع والتنظيم الدقيق من مستودع ضخم لصور الملابس عالية الجودة. الميزة الرئيسية هي التركيز على التنوع العالمي، حيث تم تجميع الصور من سياقات جغرافية وثقافية متنوعة لتضمين اتجاهات الأزياء العالمية، وليس فقط الأنماط المركزة على الغرب.

جمع خط الأنابيب بين العمليات الآلية واليدوية. أعقب التجميع الأولي عملية تصفية صارمة للجودة والملاءمة. تم استخدام استراتيجية شرح هجينة، مستفيدة من كل من الكشف/التصنيف الآلي للموضوع والتحقق اليدوي من قبل خبراء تصميم الأزياء لضمان الدقة والتفاصيل.

2.2 شرح البيانات والسمات

بالتعاون مع خبراء الأزياء، حدد الفريق أنطولوجيا شاملة للسمات المتعلقة بالملابس. تتضمن مجموعة البيانات النهائية 8,037 سمة موضحة، مما يتيح تحكمًا دقيقًا في عملية توليد الصور من النص. تغطي السمات:

تفاصيل الملابس: الفئة (فستان، قميص، بنطال)، النمط (بوهيمي، بسيط)، القماش (حرير، دنيم)، اللون، النقش، خط العنق، طول الكم.
السياق البشري: الوضعية، نوع الجسم، الجنس، الفئة العمرية، التفاعل مع الملابس.
المشهد والسياق: المناسبة (غير رسمي، رسمي)، الإعداد.

كل صورة مقترنة بواحد أو أكثر من الأوصاف النصية عالية الجودة، مما أدى إلى 1.59 مليون زوج نص-صورة، مما يثري بشكل كبير المحاذاة الدلالية الحاسمة لتدريب نماذج توليد الصور من النص.

2.3 إحصائيات وميزات مجموعة البيانات

الحجم: 1,044,491 صورة.
الدقة: دقة عالية 768x1152، مناسبة للتصور التفصيلي للتصميم.
أزواج النص-الصورة: 1,593,808 وصفًا.
التنوع: مصادر متنوعة جغرافيًا وثقافيًا.
عمق الشرح: 8,037 سمة دقيقة.
مركزية الإنسان: التركيز على أشكال بشرية كاملة الجسم ترتدي الملابس، وليس فقط قطع الملابس المعزولة.

3. المعيار التجريبي والنتائج

3.1 مقاييس التقييم

يقيم المعيار المقترح نماذج توليد الصور من النص على محاور متعددة باستخدام مقاييس قياسية:

مسافة Fréchet Inception (FID): تقيس التشابه بين توزيعات الصور المُنشأة والحقيقية. كلما كانت أقل كان أفضل.
درجة Inception (IS): تقيم جودة وتنوع الصور المُنشأة. كلما كانت أعلى كان أفضل.
درجة CLIP (CLIPScore): تقيم المحاذاة الدلالية بين الصور المُنشأة ومطالبات النص المدخلة. كلما كانت أعلى كان أفضل.

3.2 التحليل المقارن

تمت مقارنة النماذج المدربة على Fashion-Diffusion بتلك المدربة على مجموعات بيانات أزياء بارزة أخرى (مثل DeepFashion-MM). يسلط المقارنة الضوء على تأثير جودة وحجم مجموعة البيانات على أداء النموذج.

3.3 النتائج والأداء

تظهر النتائج التجريبية تفوق النماذج المدربة على مجموعة بيانات Fashion-Diffusion:

FID: 8.33 (Fashion-Diffusion) مقابل 15.32 (الخط الأساسي). تحسن بنحو 46%، مما يشير إلى أن الصور المُنشأة أكثر واقعية وتتوافق بشكل أكبر مع البيانات الحقيقية.
IS: 6.95 مقابل 4.7. تحسن بنحو 48%، يعكس جودة وتنوعًا أفضل للصور المُدركة.
CLIPScore: 0.83 مقابل 0.70. تحسن بنحو 19%، يظهر محاذاة دلالية نص-صورة متفوقة.

وصف الرسم البياني (المتخيل): سيظهر رسم بياني شريطي بعنوان "مقارنة أداء نموذج توليد الصور من النص" ثلاثة أزواج من الأشرطة لـ FID وIS وCLIPScore. ستكون أشرطة "Fashion-Diffusion" أعلى بشكل ملحوظ (لـ IS وCLIPScore) أو أقل (لـ FID) من أشرطة "مجموعة البيانات الأساسية"، مما يؤكد بصريًا التفوق الكمي المذكور في النص.

4. الإطار التقني والمنهجية

4.1 خط أنابيب توليد الصور من النص

يستفيد البحث من نماذج الانتشار، وهي الأحدث حاليًا لتوليد الصور من النص. يتضمن خط الأنابيب عادةً:

ترميز النص: يتم ترميز مطالبات النص المدخلة إلى تمثيل كامن باستخدام نموذج مثل CLIP أو T5.
عملية الانتشار: تقوم بنية U-Net بإزالة الضوضاء بشكل تكراري من ضوضاء غاوسية عشوائية، بتوجيه من تضمينات النص، لتوليد صورة متماسكة. يتم تعريف العملية بواسطة سلسلة ماركوف أمامية (إضافة ضوضاء) وعكسية (إزالة ضوضاء).
التحكم الدقيق: تسمح تسميات السمات التفصيلية في Fashion-Diffusion بتكييف عملية الانتشار بناءً على ميزات محددة، مما يتيح تحكمًا دقيقًا في عناصر الأزياء المُنشأة.

4.2 الأساس الرياضي

جوهر نماذج الانتشار يتضمن تعلم عكس عملية إضافة ضوضاء أمامية. بالنظر إلى نقطة بيانات $x_0$ (صورة حقيقية)، تنتج العملية الأمامية سلسلة من المتغيرات الكامنة الأكثر ضوضاءً $x_1, x_2, ..., x_T$ على مدى $T$ خطوة:

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$

حيث $\beta_t$ هو جدول تباين. تتعلم العملية العكسية، المُعلمة بواسطة شبكة عصبية $\theta$، إزالة الضوضاء:

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

يتضمن التدريب تحسين حد أدنى تبايني. للتوليد الشرطي (مثلًا مع النص $y$)، يتعلم النموذج $p_\theta(x_{t-1} | x_t, y)$. توفر الأزواج عالية الجودة والمحاذاة جيدًا في Fashion-Diffusion إشارة تدريب قوية لتعلم هذا التوزيع الشرطي $p_\theta$ في مجال الأزياء.

5. الرؤى الأساسية ومنظور المحلل

الرؤية الأساسية:

Fashion-Diffusion ليست مجرد مجموعة بيانات أخرى؛ إنها خطوة استراتيجية في البنية التحتية تهاجم مباشرة عنق الزجاجة الأساسي - ندرة البيانات وسوء جودتها - الذي يعيق تصميم الأزياء بالذكاء الاصطناعي على مستوى صناعي. بينما كان المجتمع الأكاديمي مهووسًا بهندسة النموذج (مثل تحسين U-Nets في نماذج الانتشار)، فإن هذا العمل يحدد بشكل صحيح أنه لمجال دقيق ومدفوع بالجماليات مثل الأزياء، فإن أساس البيانات هو المميز الحقيقي. إنه يحول الخندق التنافسي من الخوارزميات إلى أصول البيانات المنسقة والمملوكة.

التدفق المنطقي:

منطق الورقة مقنع: 1) تحديد المشكلة (نقص بيانات توليد الصور من النص الجيدة للأزياء). 2) بناء الحل (مجموعة بيانات ضخمة عالية الدقة موضحة جيدًا). 3) إثبات قيمتها (معيار يظهر نتائج متقدمة). هذه استراتيجية كلاسيكية "إذا بنيتها، سيأتون" لمجتمع البحث. ومع ذلك، يفترض التدفق أن الحجم وجودة الشرح تترجمان تلقائيًا إلى نماذج أفضل. إنه يتجاهل إلى حد ما التحيزات المحتملة التي تم إدخالها خلال عملية التنسيق العالمية - ما الذي يعرّف "عالية الجودة" أو "متنوعة" هو بطبيعته ذاتي ويمكن أن يطبع تحيزات ثقافية في مصممي الذكاء الاصطناعي المستقبليين، وهي قضية حرجة تم تسليط الضوء عليها في دراسات الإنصاف الخوارزمي مثل تلك الصادرة عن معهد AI Now.

نقاط القوة والضعف:

نقاط القوة: حجم ودقة غير مسبوقين للأزياء. تضمين السياق البشري كامل الجسم هو خطوة عبقرية - فهو يتجاوز توليد ملابس بلا جسد إلى إنشاء أزياء قابلة للارتداء في سياقها، وهو الاحتياج التجاري الحقيقي. التعاون مع خبراء المجال لتحديد السمات يضيف مصداقية حاسمة، على عكس مجموعات البيانات التي تم جمعها من الويب فقط.

نقاط الضعف: الورقة خفيفة في تفاصيل عملية الشرح "الهجينة". كم كانت آلية مقابل ما تم وسمه يدويًا؟ ما هي التكلفة؟ هذا الغموض يجعل من الصعب تقييم إمكانية إعادة الإنتاج. علاوة على ذلك، بينما تظهر المعايير تحسنًا، فإنها لا تظهر فائدة إبداعية - هل يمكنها توليد تصاميم جديدة حقًا، رائدة للموضة، أم أنها مجرد استيفاء للأنماط الحالية؟ بالمقارنة مع أعمال الذكاء الاصطناعي الإبداعية الأساسية مثل CycleGAN (Zhu et al., 2017)، التي قدمت ترجمة صورة إلى صورة غير مقترنة، تتفوق Fashion-Diffusion في البيانات الخاضعة للإشراف ولكن قد تفتقر إلى نفس الإمكانية لاكتشاف أسلوبي جذري يأتي من التعلم غير المقترن والأقل تقييدًا.

رؤى قابلة للتنفيذ:

1. للباحثين: مجموعة البيانات هذه هي المعيار الجديد. يجب تدريب أي نموذج جديد لتوليد الصور من النص للأزياء وتقييمه عليها ليؤخذ على محمل الجد. يجب أن يتحول التركيز الآن إلى الاستفادة من السمات الدقيقة للتصميم القابل للتحكم والشرح بدلاً من مجرد تحسين درجات FID الإجمالية.
2. للصناعة (علامات الأزياء): القيمة الحقيقية تكمن في البناء على هذا الأساس مفتوح المصدر ببياناتك المملوكة - الرسومات، لوحات المزاج، المجموعات السابقة - لضبط النماذج الدقيقة التي تلتقط الحمض النووي الفريد لعلامتك التجارية. لقد حان عصر التصميم بمساعدة الذكاء الاصطناعي؛ الفائزون سيكونون أولئك الذين يعاملون بيانات تدريب الذكاء الاصطناعي كأصل استراتيجي أساسي.
3. للمستثمرين: ادعم الشركات والأدوات التي تسهل إنشاء وإدارة ووسم مجموعات البيانات عالية الجودة المتخصصة في المجال. طبقة النموذج أصبحت سلعة؛ طبقة البيانات هي المكان الذي يتم فيه بناء قيمة قابلة للدفاع، كما يتضح من قفزات الأداء الموضحة هنا.

6. إطار التطبيق ودراسة الحالة

إطار عمل التصميم بمساعدة الذكاء الاصطناعي:

المدخلات: يقدم المصمم موجزًا باللغة الطبيعية (مثل "فستان صيفي متدفق بطول ميدي من الشيفون البنفسجي بأكمام منتفخة، لحفلة في الحديقة") أو يختار سمات محددة من الأنطولوجيا.
التوليد: يقوم نموذج انتشار (مثل Stable Diffusion مضبوط بدقة) مدرب على Fashion-Diffusion بتوليد مفاهيم بصرية متعددة عالية الدقة.
التنقيح: يختار المصمم ويكرر، مستخدمًا تقنيات التلوين داخل الصورة أو تحويل الصورة إلى صورة لتعديل مناطق محددة (مثل تغيير خط العنق، تعديل الطول).
المخرجات: تصميم مرئي نهائي للنماذج الأولية أو إنشاء الأصول الرقمية.

دراسة حالة غير تقنية: التنبؤ بالموضة والنماذج الأولية السريعة
تريد شركة بيع أزياء سريعة الاستفادة من اتجاه ناشئ لجماليات "cottagecore" تم تحديده عبر تحليل وسائل التواصل الاجتماعي. باستخدام نظام توليد الصور من النص المدعوم بـ Fashion-Diffusion، يدخل فريق التصميم مطالبات مثل "فستان بذلة كتان cottagecore، صد مشدود، جماليات البراري" ويولد مئات المتغيرات التصميمية الفريدة في ساعات. يتم مراجعتها بسرعة، ويتم اختيار أفضل 10 للنماذج الرقمية، ويتم تقصير المدة الزمنية من تحديد الاتجاه إلى النموذج الأولي من أسابيع إلى أيام، مما يحسن بشكل كبير الاستجابة للسوق.

7. التطبيقات المستقبلية والاتجاهات

الأزياء شديدة التخصيص: دمج مقاييس الجسم المحددة للمستخدم وتفضيلات الأنماط لتوليد تصاميم ملابس مخصصة ومطابقة.
التجربة الافتراضية وأزياء الميتافيرس: العمل كمجموعة بيانات أساسية لتوليد ملابس رقمية واقعية للأفاتار في العوالم الافتراضية ومنصات التواصل الاجتماعي.
التصميم المستدام: تحسين المواد المدعوم بالذكاء الاصطناعي وتوليد أنماط خالية من الهدر بناءً على سمات الملابس التفصيلية.
أدوات التصميم المشترك التفاعلية: مساعدو تصميم بالذكاء الاصطناعي محادثة في الوقت الفعلي حيث يمكن للمصممين تنقيح المفاهيم بشكل تكراري من خلال الحوار.
بحث الأزياء عبر الوسائط: تمكين البحث عن عناصر الملابس باستخدام الرسومات، أو اللغة الوصفية، أو حتى الصور المرفوعة للأنماط المرغوبة، مدعومًا بفضاء التضمين المشترك للنص-الصورة المستفاد من مجموعة البيانات.
التخفيف الأخلاقي والتحيز: يجب أن يركز العمل المستقبلي على مراجعة وإزالة التحيز من مجموعة البيانات لضمان تمثيل عادل عبر أنواع الجسم والأعراق والثقافات، ومنع استمرار الصور النمطية لصناعة الأزياء.

8. المراجع

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
AI Now Institute. (2019). Disability, Bias, and AI. Retrieved from https://ainowinstitute.org
Ge, Y., Zhang, R., Wang, X., Tang, X., & Luo, P. (2021). DeepFashion-MM: A Text-to-Image Synthesis Dataset for Fashion. ACM Multimedia.
Yu, J., Zhang, L., Chen, Z., et al. (2024). Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design. arXiv:2311.12067v3.