مجموعه داده فشن-دیفیوژن: یک میلیون تصویر با کیفیت بالا برای طراحی مد مبتنی بر هوش مصنوعی

فهرست مطالب

1.04M

تصاویر مد با کیفیت بالا

768x1152

وضوح تصویر

8,037

ویژگی‌های برچسب‌گذاری شده

1.59M

توضیحات متنی

1. مقدمه

ادغام هوش مصنوعی و طراحی مد، مرز تحول‌آفرینی در بینایی کامپیوتر و صنایع خلاق به شمار می‌رود. در حالی که مدل‌های متن به تصویر (T2I) مانند DALL-E، Stable Diffusion و Imagen قابلیت‌های قابل توجهی از خود نشان داده‌اند، کاربرد آن‌ها در حوزه‌های تخصصی مانند طراحی مد با یک گلوگاه حیاتی محدود شده است: فقدان مجموعه‌داده‌های بزرگ‌مقیاس، باکیفیت و خاص حوزه.

مجموعه‌داده‌های موجود مد، مانند DeepFashion، CM-Fashion و Prada، از محدودیت‌هایی در مقیاس (اغلب کمتر از 100 هزار تصویر)، وضوح (مثلاً 256x256)، جامعیت (فاقد تصاویر کامل بدن انسان یا توضیحات متنی دقیق) یا دقت حاشیه‌نویسی رنج می‌برند. این مقاله مجموعه داده فشن-دیفیوژن را معرفی می‌کند که حاصل تلاشی چندساله برای پر کردن این شکاف است. این مجموعه شامل بیش از یک میلیون تصویر مد با وضوح بالا (768x1152) است که هر یک با توضیحات متنی دقیقی که هم ویژگی‌های لباس و هم ویژگی‌های انسان را پوشش می‌دهند، جفت شده و از روندهای مد جهانی متنوعی گردآوری شده‌اند.

2. مجموعه داده فشن-دیفیوژن

2.1 ساخت و گردآوری مجموعه داده

ساخت این مجموعه داده که از سال 2018 آغاز شد، شامل گردآوری و پالایش دقیق از مخزنی وسیع از تصاویر باکیفیت لباس بود. یک تمایز کلیدی، تمرکز بر تنوع جهانی است، به طوری که تصاویر از زمینه‌های جغرافیایی و فرهنگی متنوعی گردآوری شده‌اند تا روندهای مد جهانی، و نه صرفاً سبک‌های غرب‌محور، را در بر گیرند.

خط لوله مورد استفاده، فرآیندهای خودکار و دستی را ترکیب می‌کرد. پس از گردآوری اولیه، فیلتر کردن دقیق برای کیفیت و ارتباط انجام شد. یک استراتژی حاشیه‌نویسی ترکیبی به کار گرفته شد که از تشخیص/طبقه‌بندی خودکار سوژه و تأیید دستی توسط متخصصان طراحی لباس بهره می‌برد تا دقت و جزئیات تضمین شود.

2.2 حاشیه‌نویسی داده و ویژگی‌ها

در همکاری با متخصصان مد، تیم یک هستی‌شناسی جامع از ویژگی‌های مرتبط با لباس را تعریف کرد. مجموعه داده نهایی شامل 8,037 ویژگی برچسب‌گذاری شده است که امکان کنترل دقیق بر فرآیند تولید T2I را فراهم می‌کند. این ویژگی‌ها موارد زیر را پوشش می‌دهند:

جزئیات لباس: دسته (لباس، پیراهن، شلوار)، سبک (بوهمین، مینیمالیستی)، پارچه (ابریشم، دنیم)، رنگ، طرح، یقه، آستین.
زمینه انسانی: ژست، تیپ بدنی، جنسیت، گروه سنی، تعامل با لباس.
صحنه و زمینه: مناسبت (غیررسمی، رسمی)، محیط.

هر تصویر با یک یا چند توضیح متنی باکیفیت جفت شده است که در مجموع منجر به 1.59 میلیون جفت متن-تصویر می‌شود و هم‌ترازی معنایی حیاتی برای آموزش مدل‌های T2I را به طور قابل توجهی غنی می‌سازد.

2.3 آمار و ویژگی‌های مجموعه داده

مقیاس: 1,044,491 تصویر.
وضوح: وضوح بالا 768x1152، مناسب برای تجسم طراحی دقیق.
جفت‌های متن-تصویر: 1,593,808 توضیح.
تنوع: منابع جغرافیایی و فرهنگی متنوع.
عمق حاشیه‌نویسی: 8,037 ویژگی ریزدانه.
انسان‌محور: تمرکز بر تصاویر کامل بدن انسان در حال پوشیدن لباس، نه صرفاً اقلام لباس جداگانه.

3. معیار آزمایشی و نتایج

3.1 معیارهای ارزیابی

معیار پیشنهادی، مدل‌های T2I را در چند محور با استفاده از معیارهای استاندارد ارزیابی می‌کند:

فاصله آغازین فرشه (FID): شباهت بین توزیع تصاویر تولید شده و واقعی را اندازه‌گیری می‌کند. هرچه کمتر بهتر.
امتیاز آغازین (IS): کیفیت و تنوع تصاویر تولید شده را ارزیابی می‌کند. هرچه بیشتر بهتر.
امتیاز CLIP: هم‌ترازی معنایی بین تصاویر تولید شده و متن ورودی را ارزیابی می‌کند. هرچه بیشتر بهتر.

3.2 تحلیل مقایسه‌ای

مدل‌های آموزش دیده بر روی فشن-دیفیوژن با مدل‌های آموزش دیده بر روی سایر مجموعه‌داده‌های برجسته مد (مانند DeepFashion-MM) مقایسه شدند. این مقایسه تأثیر کیفیت و مقیاس مجموعه داده بر عملکرد مدل را برجسته می‌کند.

3.3 نتایج و عملکرد

نتایج آزمایشی برتری مدل‌های آموزش دیده بر روی مجموعه داده فشن-دیفیوژن را نشان می‌دهد:

FID: 8.33 (فشن-دیفیوژن) در مقابل 15.32 (خط پایه). بهبودی حدود 46%، که نشان می‌دهد تصاویر تولید شده به طور قابل توجهی واقع‌نماتر و با داده واقعی هم‌ترازتر هستند.
IS: 6.95 در مقابل 4.7. بهبودی حدود 48%، که نشان‌دهنده کیفیت و تنوع بهتر تصاویر درک شده است.
امتیاز CLIP: 0.83 در مقابل 0.70. بهبودی حدود 19%، که نشان‌دهنده هم‌ترازی معنایی برتر متن-تصویر است.

توضیح نمودار (تصوری): یک نمودار میله‌ای با عنوان "مقایسه عملکرد مدل T2I" سه جفت میله برای FID، IS و امتیاز CLIP نشان می‌دهد. میله‌های "فشن-دیفیوژن" به طور قابل توجهی بالاتر (برای IS، امتیاز CLIP) یا پایین‌تر (برای FID) از میله‌های "مجموعه داده خط پایه" خواهند بود و به صورت بصری برتری کمی گزارش شده در متن را تأیید می‌کنند.

4. چارچوب فنی و روش‌شناسی

4.1 خط لوله سنتز متن به تصویر

این پژوهش از مدل‌های دیفیوژن، که آخرین فناوری روز برای تولید T2I هستند، بهره می‌برد. خط لوله معمولاً شامل موارد زیر است:

کدگذاری متن: متن ورودی با استفاده از مدلی مانند CLIP یا T5 به یک نمایش نهفته کدگذاری می‌شود.
فرآیند دیفیوژن: یک معماری U-Net به صورت تکراری نویز گاوسی تصادفی را، با هدایت جاسازی‌های متنی، حذف نویز می‌کند تا یک تصویر منسجم تولید کند. این فرآیند توسط یک زنجیره مارکوف رو به جلو (نویزدار کردن) و معکوس (حذف نویز) تعریف می‌شود.
کنترل ریزدانه: برچسب‌های ویژگی دقیق در فشن-دیفیوژن، امکان شرطی کردن فرآیند دیفیوژن بر روی ویژگی‌های خاص را فراهم می‌کند و کنترل دقیق بر اقلام مد تولید شده را ممکن می‌سازد.

4.2 مبانی ریاضی

هسته مدل‌های دیفیوژن شامل یادگیری معکوس کردن یک فرآیند نویزدار کردن رو به جلو است. با توجه به یک نقطه داده $x_0$ (یک تصویر واقعی)، فرآیند رو به جلو دنباله‌ای از نهفته‌های به طور فزاینده نویزدار $x_1, x_2, ..., x_T$ را در طول $T$ مرحله تولید می‌کند:

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$

که در آن $\beta_t$ یک برنامه واریانس است. فرآیند معکوس، که توسط یک شبکه عصبی $\theta$ پارامتری شده است، حذف نویز را یاد می‌گیرد:

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

آموزش شامل بهینه‌سازی یک کران پایین واریانسی است. برای تولید شرطی (مثلاً با متن $y$)، مدل $p_\theta(x_{t-1} | x_t, y)$ را یاد می‌گیرد. جفت‌های باکیفیت و به خوبی هم‌تراز در فشن-دیفیوژن، سیگنال آموزشی قوی‌ای برای یادگیری این توزیع شرطی $p_\theta$ در حوزه مد فراهم می‌کنند.

5. بینش‌های کلیدی و دیدگاه تحلیلی

بینش کلیدی:

فشن-دیفیوژن صرفاً یک مجموعه داده دیگر نیست؛ یک اقدام زیرساختی استراتژیک است که مستقیماً به گلوگاه اصلی—کمبود داده و کیفیت پایین—که طراحی مد صنعتی‌گرای مبتنی بر هوش مصنوعی را عقب نگه داشته است، حمله می‌کند. در حالی که جامعه دانشگاهی وسواس معماری مدل (مانند پالایش U-Net در مدل‌های دیفیوژن) داشته است، این کار به درستی شناسایی می‌کند که برای یک حوزه ظریف و زیبایی‌شناختی‌محور مانند مد، بنیان داده تمایزدهنده واقعی است. این امر خندق رقابتی را از الگوریتم‌ها به دارایی‌های داده اختصاصی و پالایش‌شده منتقل می‌کند.

جریان منطقی:

منطق مقاله قانع‌کننده است: 1) شناسایی مشکل (فقدان داده خوب T2I مد). 2) ساختن راه‌حل (یک مجموعه داده عظیم، با وضوح بالا، به خوبی حاشیه‌نویسی شده). 3) اثبات ارزش آن (معیاری که نتایج پیشرفته را نشان می‌دهد). این یک استراتژی کلاسیک "اگر بسازید، خواهند آمد" برای جامعه پژوهشی است. با این حال، این جریان فرض می‌کند که مقیاس و کیفیت حاشیه‌نویسی به طور خودکار به مدل‌های بهتر ترجمه می‌شود. این تا حدی از سوگیری‌های بالقوه معرفی شده در طول فرآیند پالایش جهانی آن‌ها چشم‌پوشی می‌کند—تعریف "با کیفیت بالا" یا "متنوع" ذاتاً ذهنی است و می‌تواند سوگیری‌های فرهنگی را در طراحان هوش مصنوعی آینده جاسازی کند، موضوعی حیاتی که در مطالعات انصاف الگوریتمی مانند آن‌هایی که از مؤسسه AI Now برجسته شده‌اند.

نقاط قوت و ضعف:

نقاط قوت: مقیاس و وضوح بی‌سابقه برای مد. گنجاندن زمینه کامل بدن انسان یک حرکت استادانه است—فراتر از تولید لباس‌های مجرد به سمت ایجاد مد قابل پوشیدن در زمینه حرکت می‌کند، که نیاز تجاری واقعی است. همکاری با متخصصان حوزه برای تعریف ویژگی‌ها، اعتبار حیاتی می‌افزاید، برخلاف مجموعه‌داده‌های صرفاً جمع‌آوری شده از وب.

نقاط ضعف: مقاله در مورد جزئیات فرآیند حاشیه‌نویسی "ترکیبی" کم‌گویی می‌کند. چه مقدار خودکار و چه مقدار توسط انسان برچسب‌گذاری شده است؟ هزینه آن چقدر بود؟ این کدر بودن، ارزیابی تکرارپذیری را دشوار می‌سازد. علاوه بر این، در حالی که معیارها بهبود را نشان می‌دهند، کاربرد خلاقانه را نشان نمی‌دهند—آیا می‌تواند طرح‌هایی واقعاً نوآورانه و ترندساز تولید کند، یا صرفاً سبک‌های موجود را درون‌یابی می‌کند؟ در مقایسه با آثار خلاقانه بنیادی هوش مصنوعی مانند CycleGAN (Zhu و همکاران، 2017)، که ترجمه تصویر به تصویر جفت‌نشده را معرفی کرد، فشن-دیفیوژن در داده نظارت‌شده عالی عمل می‌کند اما ممکن است فاقد همان پتانسیل برای کشف سبکی رادیکال باشد که از یادگیری جفت‌نشده و کمتر محدود ناشی می‌شود.

بینش‌های قابل اجرا:

1. برای پژوهشگران: این مجموعه داده معیار جدید است. هر مدل جدید T2I مد باید بر روی آن آموزش دیده و ارزیابی شود تا جدی گرفته شود. تمرکز اکنون باید به سمت بهره‌برداری از ویژگی‌های ریزدانه برای طراحی قابل کنترل و توضیح‌پذیر، به جای صرفاً بهبود نمرات کلی FID، تغییر کند.
2. برای صنعت (برندهای مد): ارزش واقعی در ساختن بر روی این بنیان متن‌باز با داده‌های اختصاصی خودتان—طرح‌ها، بردهای خلق و خو، مجموعه‌های گذشته—برای تنظیم دقیق مدل‌هایی که DNA منحصر به فرد برند شما را ثبت می‌کنند، نهفته است. عصر طراحی کمک‌شده توسط هوش مصنوعی فرا رسیده است؛ برندگان کسانی خواهند بود که داده آموزشی هوش مصنوعی را به عنوان یک دارایی استراتژیک اصلی تلقی کنند.
3. برای سرمایه‌گذاران: از شرکت‌ها و ابزارهایی که تسهیل ایجاد، مدیریت و برچسب‌گذاری مجموعه‌داده‌های باکیفیت خاص حوزه را فراهم می‌کنند، حمایت کنید. لایه مدل در حال کالایی شدن است؛ لایه داده جایی است که ارزش دفاعی در حال ساخت است، همانطور که جهش‌های عملکردی نشان داده شده در اینجا گواه آن است.

6. چارچوب کاربردی و مطالعه موردی

چارچوب برای طراحی مد کمک‌شده توسط هوش مصنوعی:

ورودی: طراح یک خلاصه زبان طبیعی ارائه می‌دهد (مثلاً "یک لباس تابستانی میدی‌لن، جریان‌دار از کرپ یاس بنفش با آستین پفی، برای مهمانی باغ") یا ویژگی‌های خاصی را از هستی‌شناسی انتخاب می‌کند.
تولید: یک مدل دیفیوژن (مانند یک Stable Diffusion تنظیم‌شده) که بر روی فشن-دیفیوژن آموزش دیده است، چندین مفهوم بصری با وضوح بالا تولید می‌کند.
پالایش: طراح انتخاب کرده و تکرار می‌کند، احتمالاً از تکنیک‌های درون‌نگاری یا img2img برای اصلاح مناطق خاص (مانند تغییر یقه، تنظیم طول) استفاده می‌کند.
خروجی: طرح نهایی برای نمونه‌سازی اولیه یا ایجاد دارایی دیجیتال.

مطالعه موردی غیرکد: پیش‌بینی ترند و نمونه‌سازی سریع
یک خرده‌فروش فست‌فشن می‌خواهد از یک ترند نوظهور برای زیبایی‌شناسی "کاچرکور" که از طریق تحلیل شبکه‌های اجتماعی شناسایی شده است، بهره‌برداری کند. با استفاده از سیستم T2I مبتنی بر فشن-دیفیوژن، تیم طراحی آن‌ها متن‌هایی مانند "لباس پیش‌بند کتان کاچرکور، بالاتنه چین‌دار، زیبایی‌شناسی چمنزار" را وارد کرده و صدها نوع طرح منحصر به فرد را در عرض چند ساعت تولید می‌کنند. این‌ها به سرعت بررسی می‌شوند، 10 طرح برتر برای نمونه‌سازی دیجیتال انتخاب می‌شوند و زمان‌های تأخیر از شناسایی ترند تا نمونه اولیه از هفته‌ها به روزها کاهش می‌یابد و پاسخگویی به بازار را به طور چشمگیری بهبود می‌بخشد.

7. کاربردهای آینده و جهت‌گیری‌ها

مد فوق شخصی‌سازی شده: ادغام معیارهای بدنی خاص کاربر و ترجیحات سبک برای تولید طرح‌های لباس سفارشی و شخصی‌سازی شده.
پوشیدن مجازی و مد متاورس: خدمت به عنوان یک مجموعه داده بنیادی برای تولید لباس دیجیتال واقع‌نما برای آواتارها در جهان‌های مجازی و پلتفرم‌های اجتماعی.
طراحی پایدار: بهینه‌سازی مواد مبتنی بر هوش مصنوعی و تولید الگوی بدون ضایعات که توسط ویژگی‌های دقیق لباس آگاه شده است.
ابزارهای طراحی مشارکتی تعاملی: دستیاران طراحی هوش مصنوعی گفتگومحور و بلادرنگ که طراحان می‌توانند از طریق گفتگو مفاهیم را به صورت تکراری پالایش کنند.
جستجوی مد چندوجهی: فعال کردن جستجوی اقلام لباس با استفاده از طرح‌ها، زبان توصیفی یا حتی تصاویر آپلود شده از سبک‌های مورد نظر، که توسط فضای جاسازی مشترک متن-تصویر آموخته شده از مجموعه داده پشتیبانی می‌شود.
اخلاقیات و کاهش سوگیری: کار آینده باید بر ممیزی و حذف سوگیری از مجموعه داده متمرکز شود تا نمایندگی عادلانه در انواع تیپ‌های بدنی، قومیت‌ها و فرهنگ‌ها تضمین شود و از تداوم کلیشه‌های صنعت مد جلوگیری کند.

8. مراجع

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
Liu, Z., Luo, P., Qiu, S., Wang, X., & Tang, X. (2016). DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
AI Now Institute. (2019). Disability, Bias, and AI. Retrieved from https://ainowinstitute.org
Ge, Y., Zhang, R., Wang, X., Tang, X., & Luo, P. (2021). DeepFashion-MM: A Text-to-Image Synthesis Dataset for Fashion. ACM Multimedia.
Yu, J., Zhang, L., Chen, Z., et al. (2024). Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design. arXiv:2311.12067v3.