VTONQA: مجموعه‌داده‌ای برای ارزیابی چندبعدی کیفیت در لباس‌پوشی مجازی

1. مقدمه و مرور کلی

فناوری لباس‌پوشی مجازی مبتنی بر تصویر (VTON) به یکی از ارکان اصلی مد دیجیتال و تجارت الکترونیک تبدیل شده است و به کاربران امکان می‌دهد تا لباس‌ها را به صورت مجازی بر روی خود تصور کنند. با این حال، کیفیت ادراکی تصاویر سنتز شده در مدل‌های مختلف به طور قابل توجهی متفاوت است و اغلب با آرتیفکت‌هایی مانند اعوجاج لباس، ناسازگاری اعضای بدن و تارشدگی مواجه است. فقدان یک معیار استاندارد و هم‌راستا با ادراک انسانی، یک گلوگاه اصلی برای ارزیابی مدل‌های موجود و هدایت توسعه آینده بوده است.

مجموعه‌داده VTONQA که توسط محققان دانشگاه جیائو تونگ شانگهای معرفی شده است، مستقیماً به این شکاف می‌پردازد. این اولین مجموعه‌داده ارزیابی کیفیت در مقیاس بزرگ و چندبعدی است که به طور خاص برای تصاویر تولید شده توسط VTON طراحی شده است.

نگاهی اجمالی به مجموعه‌داده

کل تصاویر: ۸,۱۳۲
مدل‌های منبع: ۱۱ (مبتنی بر وارپ، مبتنی بر دیفیوژن، منبع‌بسته)
میانگین نمرات نظر (MOS): ۲۴,۳۹۶
ابعاد ارزیابی: ۳ (تناسب لباس، سازگاری با بدن، کیفیت کلی)
حاشیه‌نویسان: ۴۰ نفر، تحت نظارت متخصصان

2. مجموعه‌داده VTONQA

مجموعه‌داده VTONQA با دقت ساخته شده است تا یک معیار جامع و قابل اعتماد برای جامعه VTON فراهم کند.

2.1 ساختار و مقیاس مجموعه‌داده

این مجموعه‌داده بر پایه‌ای متنوع بنا شده است: ۱۸۳ تصویر مرجع شخص در ۹ دسته و لباس‌هایی از ۸ دسته پوشاک. این موارد از طریق ۱۱ مدل VTON نماینده پردازش شده‌اند که شامل روش‌های کلاسیک مبتنی بر وارپ (مانند CP-VTON، ACGPN)، رویکردهای پیشرفته مبتنی بر دیفیوژن (مانند تنظیم‌های دقیق Stable Diffusion) و مدل‌های انحصاری منبع‌بسته می‌شود و در نهایت ۸,۱۳۲ تصویر لباس‌پوشی مجازی را تولید می‌کند. این تنوع، استحکام و تعمیم‌پذیری معیار را تضمین می‌کند.

2.2 حاشیه‌نویسی چندبعدی

فراتر از یک نمره واحد "کیفیت کلی"، VTONQA یک چارچوب ارزیابی ظریف و چندبعدی را معرفی می‌کند. هر تصویر با سه نمره میانگین نظر (MOS) جداگانه حاشیه‌نویسی شده است:

تناسب لباس: چگونگی انطباق طبیعی و دقیق لباس با شکل و حالت بدن را ارزیابی می‌کند.
سازگاری با بدن: حفظ هویت اصلی شخص، بافت پوست و ساختار بدن را ارزیابی می‌کند و از آرتیفکت‌هایی مانند اعضای بدن تحریف‌شده یا چهره‌های تار جلوگیری می‌کند.
کیفیت کلی: یک نمره کلی که جذابیت بصری عمومی و واقع‌نمایی تصویر سنتز شده را منعکس می‌کند.

این سیستم امتیازدهی سه‌گانه حیاتی است زیرا ممکن است یک مدل در انتقال لباس عالی عمل کند اما در حفظ جزئیات چهره شکست بخورد، ظرافتی که توسط یک نمره واحد از دست می‌رود.

3. معیارسازی و نتایج آزمایشی

با استفاده از VTONQA، نویسندگان معیارسازی گسترده‌ای را در دو محور انجام می‌دهند: عملکرد خود مدل‌های VTON و کارایی معیارهای موجود ارزیابی کیفیت تصویر (IQA) در این حوزه جدید.

3.1 معیار مدل‌های VTON

تمام ۱۱ مدل در یک تنظیم فقط استنتاج روی تصاویر VTONQA ارزیابی شده‌اند. نتایج سلسله مراتب عملکردی واضحی را نشان می‌دهد. به طور کلی، مدل‌های مدرن مبتنی بر دیفیوژن تمایل دارند در مقایسه با پارادایم‌های قدیمی مبتنی بر وارپ، نمرات بالاتری از نظر وفاداری بصری و کاهش آرتیفکت کسب کنند. با این حال، این معیار همچنین حالت‌های شکست خاص منحصر به هر معماری را آشکار می‌کند و اهداف واضحی برای بهبود ارائه می‌دهد. به عنوان مثال، برخی مدل‌ها ممکن است در "تناسب لباس" نمره خوبی کسب کنند اما در "سازگاری با بدن" ضعیف عمل کنند که نشان‌دهنده یک مصالحه است.

3.2 ارزیابی معیارهای IQA

یک یافته کلیدی، همبستگی ضعیف بین معیارهای سنتی IQA با مرجع کامل (مانند PSNR، SSIM) و MOS انسانی برای تصاویر VTON است. این معیارهای سطح پیکسل برای ارزیابی تحریف‌های سطح معنایی مانند حفظ سبک لباس یا ثبات هویت مناسب نیستند. حتی معیارهای ادراکی یادگرفته شده مانند LPIPS و FID، اگرچه بهتر هستند، اما فضای قابل توجهی برای بهبود نشان می‌دهند. مقاله نشان می‌دهد که مدل‌های IQA که روی داده‌های VTONQA تنظیم دقیق شده‌اند، همبستگی به مراتب بالاتری با قضاوت انسانی دارند که ماهیت خاص حوزه مسئله و ارزش مجموعه‌داده برای آموزش ارزیاب‌های تخصصی را تأکید می‌کند.

بینش نمودار (فرضی بر اساس توصیف مقاله): یک نمودار میله‌ای که همبستگی رتبه‌ای اسپیرمن (SROCC) معیارهای مختلف IQA را در مقابل MOS انسانی روی VTONQA مقایسه می‌کند، احتمالاً معیارهای سنتی (PSNR، SSIM) را با میله‌های بسیار پایین (~۰.۲-۰.۳)، معیارهای ادراکی عمومی (LPIPS، FID) را با میله‌های متوسط (~۰.۴-۰.۶) و معیارهای تنظیم‌شده روی VTONQA را با بالاترین میله‌ها (~۰.۷-۰.۸+) نشان می‌دهد که به صورت بصری ضرورت مجموعه‌داده را ثابت می‌کند.

4. جزئیات فنی و تحلیل

4.1 بینش اصلی و جریان منطقی

بینش اصلی: حوزه VTON برای اهداف اشتباه بهینه‌سازی می‌کرده است. تعقیب FID پایین‌تر یا SSIM بالاتر اگر آن اعداد به یک لباس‌پوشی مجازی قانع‌کننده و بدون آرتیفکت برای کاربر نهایی ترجمه نشوند، تلاشی بیهوده است. مشارکت اساسی VTONQA تغییر پارادایم از شباهت محاسباتی به واقع‌نمایی ادراکی به عنوان ستاره شمالی است.

جریان منطقی: استدلال مقاله بسیار برنده است: ۱) VTON از نظر تجاری حیاتی است اما کیفیت ناسازگار است. ۲) ارزیابی موجود شکسته است (همبستگی ضعیف با قضاوت انسانی). ۳) بنابراین، ما یک مجموعه‌داده عظیم حاشیه‌نویسی شده توسط انسان (VTONQA) ساختیم که کیفیت را در سه محور خاص تعریف می‌کند. ۴) ما از آن برای اثبات نقطه شماره ۲ با معیارسازی مدل‌ها و معیارهای فعلی استفاده می‌کنیم و نقاط ضعف آن‌ها را آشکار می‌کنیم. ۵) ما مجموعه‌داده را به عنوان ابزاری برای رفع مشکل ارائه می‌دهیم و توسعه مدل‌ها و ارزیاب‌های هم‌راستا با ادراک را ممکن می‌سازیم. این یک روایت تحقیقاتی کلاسیک "شناسایی شکاف، ساختن پل، اثبات ارزش" است که به طور مؤثر اجرا شده است.

4.2 نقاط قوت و ضعف

نقاط قوت:

پیشگامانه و به خوبی اجرا شده: یک شکاف آشکار و اساسی در اکوسیستم VTON را پر می‌کند. مقیاس (بیش از ۸ هزار تصویر، بیش از ۲۴ هزار حاشیه‌نویسی) و طراحی چندبعدی قابل تحسین است.
معیارسازی قابل اجرا: ارزیابی مقایسه‌ای ۱۱ مدل، یک منظره فوری "state-of-the-art" ارائه می‌دهد که برای محققان و متخصصان مفید است.
شکست معیار را آشکار می‌کند: نشان دادن اینکه معیارهای IQA آماده برای VTON شکست می‌خورند، یک هشدار حیاتی برای جامعه است، مشابه اینکه مقاله اصلی CycleGAN محدودیت‌های روش‌های قبلی ترجمه تصویر جفت‌نشده را آشکار کرد.

نقاط ضعف و سؤالات باز:

"جعبه سیاه" مدل‌های منبع‌بسته: گنجاندن مدل‌های انحصاری عملی است اما تکرارپذیری و تحلیل عمیق را محدود می‌کند. ما نمی‌دانیم چرا مدل X شکست می‌خورد، فقط می‌دانیم که شکست می‌خورد.
تصویر لحظه‌ای ایستا: مجموعه‌داده یک تصویر لحظه‌ای از مدل‌ها در زمان ایجاد آن است. تکامل سریع مدل‌های دیفیوژن به این معنی است که ممکن است مدل‌های SOTA جدیدی وجود داشته باشند که هنوز نمایندگی نشده‌اند.
ذهنیت در حاشیه‌نویسی: اگرچه تحت نظارت است، MOS ذاتاً حاوی واریانس ذهنی است. مقاله می‌تواند از گزارش معیارهای توافق بین حاشیه‌نویسان (مانند ICC) برای کمی‌سازی ثبات حاشیه‌نویسی بهره‌مند شود.

4.3 بینش‌های کاربردی

برای ذینفعان مختلف:

محققان VTON: استفاده از FID/SSIM را به عنوان معیار موفقیت اولیه خود متوقف کنید. از MOS مربوط به VTONQA به عنوان هدف اعتبارسنجی خود استفاده کنید، یا بهتر است، از مجموعه‌داده برای آموزش یک مدل IQA بدون مرجع (NR-IQA) اختصاصی به عنوان نماینده‌ای برای ارزیابی انسانی در طول توسعه استفاده کنید.
توسعه‌دهندگان مدل (صنعت): مدل خود را در برابر جدول رده‌بندی VTONQA معیارسازی کنید. اگر در "سازگاری با بدن" عقب هستید، روی ماژول‌های حفظ هویت سرمایه‌گذاری کنید. اگر "تناسب لباس" پایین است، روی وارپ هندسی یا راهنمایی دیفیوژن تمرکز کنید.
پلتفرم‌های تجارت الکترونیک: نمرات چندبعدی می‌توانند مستقیماً بر طراحی رابط کاربری تأثیر بگذارند. به عنوان مثال، اولویت را به نمایش نتایج لباس‌پوشی مجازی از مدل‌هایی با نمرات بالای "کیفیت کلی" و "سازگاری با بدن" بدهید تا اعتماد کاربر و نرخ تبدیل افزایش یابد.

این مجموعه‌داده فقط یک تمرین آکادمیک نیست؛ یک دیاپازون عملی برای کل صنعت است.

صورت‌گرایی فنی و معیارها

ارزیابی بر معیارهای همبستگی استاندارد بین نمرات پیش‌بینی شده (از معیارهای IQA یا خروجی‌های مدل) و MOS واقعی متکی است. معیارهای کلیدی عبارتند از:

ضریب همبستگی رتبه‌ای اسپیرمن (SROCC): رابطه یکنوا را اندازه‌گیری می‌کند. به صورت $\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$ محاسبه می‌شود، که در آن $d_i$ تفاوت رتبه‌ها برای نمونه $i$-ام است. در برابر روابط غیرخطی مقاوم است.
ضریب همبستگی خطی پیرسون (PLCC): همبستگی خطی را پس از نگاشت رگرسیون غیرخطی (مانند لجستیک) اندازه‌گیری می‌کند. به صورت $r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}$ محاسبه می‌شود.

یک SROCC/PLCC بالا (نزدیک به ۱) نشان می‌دهد که پیش‌بینی یک معیار IQA به خوبی با ترتیب و بزرگی ادراک انسانی هم‌راستا است.

5. چارچوب تحلیل و مطالعه موردی

چارچوب برای ارزیابی یک مدل VTON جدید با استفاده از اصول VTONQA:

آماده‌سازی داده: مجموعه‌ای متنوع از تصاویر شخص و لباس را انتخاب کنید که در مجموعه آزمایشی اصلی VTONQA نباشند تا انصاف تضمین شود.
سنتز تصویر: مدل خود را برای تولید تصاویر لباس‌پوشی مجازی اجرا کنید.
ارزیابی چندبعدی (نماینده): به جای ارزیابی انسانی پرهزینه، از دو نماینده استفاده کنید:
- الف) مدل NR-IQA تنظیم‌شده: از یک مدل IQA (مانند مبتنی بر ConvNeXt یا ViT) استفاده کنید که روی مجموعه‌داده VTONQA تنظیم دقیق شده است تا MOS را برای هر یک از سه بعد پیش‌بینی کند.
- ب) مجموعه معیارهای هدفمند: مجموعه‌ای از معیارها را محاسبه کنید: FID/LPIPS برای توزیع/بافت عمومی، یک نمره شباهت تشخیص چهره (مانند کسینوس ArcFace) برای سازگاری با بدن، و یک معیار دقت تقسیم‌بندی لباس (مانند mIoU بین ماسک لباس وارپ شده و ناحیه رندر شده) برای تناسب لباس.
مقایسه معیار: نمرات نماینده مدل خود را با معیارهای منتشر شده VTONQA برای ۱۱ مدل موجود مقایسه کنید. نقاط قوت و ضعف نسبی خود را شناسایی کنید.
تکرار: از بعد(های) ضعیف برای راهنمایی تنظیمات معماری مدل یا تابع زیان آموزش استفاده کنید.

مثال مطالعه موردی: یک تیم یک مدل VTON جدید مبتنی بر دیفیوژن توسعه می‌دهد. با استفاده از چارچوب، متوجه می‌شوند که نمرات نماینده VTONQA آن‌ها عبارتند از: تناسب لباس: ۴.۱/۵، سازگاری با بدن: ۳.۰/۵، کیفیت کلی: ۳.۵/۵. مقایسه نشان می‌دهد که در تناسب لباس از تمام مدل‌های مبتنی بر وارپ بهتر عمل می‌کند اما در سازگاری با بدن از مدل‌های برتر دیفیوژن عقب است. بینش: مدل آن‌ها جزئیات چهره را از دست می‌دهد. اقدام: آن‌ها یک عبارت زیان حفظ هویت (مانند یک زیان ادراکی روی برش‌های چهره با استفاده از یک شبکه از پیش آموزش دیده) را در چرخه آموزشی بعدی گنجانده‌اند.

6. کاربردها و جهت‌های آینده

مجموعه‌داده VTONQA چندین مسیر جذاب برای کار آینده باز می‌کند:

آموزش هدایت شده توسط زیان ادراکی: مستقیم‌ترین کاربرد استفاده از داده‌های MOS برای آموزش مستقیم مدل‌های VTON است. یک تابع زیان را می‌توان طراحی کرد تا فاصله بین خروجی یک مدل و یک نمره MOS بالا را به حداقل برساند، احتمالاً با استفاده از یک متمایزکننده GAN یا یک شبکه رگرسیون آموزش دیده روی VTONQA به عنوان یک "منتقد ادراکی".
مدل‌های NR-IQA تخصصی برای VTON: توسعه مدل‌های NR-IQA سبک‌وزن و کارآمد که بتوانند نمرات سبک VTONQA را در زمان واقعی پیش‌بینی کنند. این‌ها می‌توانند در پلتفرم‌های تجارت الکترونیک مستقر شوند تا به طور خودکار نتایج لباس‌پوشی مجازی با کیفیت پایین را قبل از رسیدن به کاربر فیلتر کنند.
هوش مصنوعی قابل توضیح برای شکست‌های VTON: فراتر از یک نمره رفتن تا توضیح دهد چرا یک تصویر نمره پایینی دریافت کرده است (مانند "اعوجاج لباس روی آستین چپ"، "عدم تطابق هویت چهره"). این شامل ترکیب ارزیابی کیفیت با نقشه‌های انتساب فضایی است.
ارزیابی پویا و تعاملی: حرکت از ارزیابی تصویر ایستا به دنباله‌های لباس‌پوشی مجازی مبتنی بر ویدیو، که در آن ثبات زمانی به بعد چهارم حیاتی کیفیت تبدیل می‌شود.
ادغام با مدل‌های چندوجهی بزرگ (LMMs): بهره‌گیری از مدل‌هایی مانند GPT-4V یا Gemini برای ارائه نقدهای زبان طبیعی از تصاویر لباس‌پوشی مجازی، هم‌راستا با چارچوب چندبعدی (مانند "پیراهن به خوبی اندازه است اما طرح روی شانه تحریف شده است."). VTONQA می‌تواند به عنوان داده تنظیم دقیق برای چنین LMMهایی عمل کند.

7. مراجع

Wei, X., Wu, S., Xu, Z., Li, Y., Duan, H., Min, X., & Zhai, G. (Year). VTONQA: A Multi-Dimensional Quality Assessment Dataset for Virtual Try-on. Conference/Journal Name.
Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125-1134). [External - Foundational GAN work]
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [External - CycleGAN, relevant for unpaired translation analogy]
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., & Hochreiter, S. (2017). GANs trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30.
Zhang, R., Isola, P., Efros, A. A., Shechtman, E., & Wang, O. (2018). The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 586-595).
Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004). Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4), 600-612.
OpenAI. (2023). GPT-4V(ision) System Card. OpenAI. [External - LMM reference]
Google. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv preprint. [External - LMM reference]

تحلیل اصلی: ضرورت ادراکی در لباس‌پوشی مجازی

مجموعه‌داده VTONQA نشان‌دهنده یک بلوغ محوری، و به طور قابل بحثی دیررس، در حوزه تحقیقات لباس‌پوشی مجازی است. برای سال‌ها، جامعه تحت یک ناهم‌راستایی قابل توجه عمل کرده است: بهینه‌سازی برای نماینده‌های ریاضی کیفیت تصویر به جای تجربه ادراکی کاربر نهایی. این مقاله به درستی شناسایی می‌کند که معیارهایی مانند FID و SSIM، اگرچه برای ردیابی پیشرفت کلی مدل‌های مولد مفید هستند، برای کار خاص و غنی از نظر معنایی لباس پوشیدن کاملاً ناکافی هستند. یک چهره تار ممکن است فقط کمی به FID آسیب بزند اما کاملاً اعتماد کاربر را از بین ببرد - یک گسست که VTONQA مستقیماً آن را اصلاح می‌کند.

تجزیه کیفیت سه‌گانه مقاله (تناسب، سازگاری، کلی) هوشمندانه‌ترین مشارکت مفهومی آن است. این تشخیص می‌دهد که کیفیت VTON یکپارچه نیست. این امر درس‌هایی از سایر حوزه‌های محتوای تولید شده توسط هوش مصنوعی را منعکس می‌کند. به عنوان مثال، در هنر تولید شده توسط هوش مصنوعی، ارزیابی‌های جداگانه‌ای برای ترکیب‌بندی، پایبندی به سبک و انسجام مورد نیاز است. با ارائه نمرات دانه‌ریز، VTONQA فقط نمی‌گوید یک مدل "بد" است؛ آن تشخیص می‌دهد چرا - آیا ژاکت پیکسلی شده است، یا باعث می‌شود بازوی کاربر غیرطبیعی به نظر برسد؟ این سطح از قدرت تشخیصی برای مهندسی تکراری ضروری است.

نتایج معیارسازی، که شکست معیارهای IQA آماده را نشان می‌دهد، باید یک هشدار شدید باشد. این امر درس تاریخی مقاله CycleGAN را بازتاب می‌دهد، که نشان داد روش‌های قبلی ترجمه جفت‌نشده اغلب خود را بر روی معیارهای شکسته و مستقل از کار ارزیابی می‌کردند. این حوزه تنها زمانی پیشرفت کرد که ارزیابی مناسب و خاص کار ایجاد شد. VTONQA هدف دارد که آن استاندارد ارزیابی بنیادین باشد. پتانسیل استفاده از این داده‌ها برای آموزش "منتقدان کیفیت VTON" اختصاصی - شبیه به متمایزکننده‌ها در GANها اما هدایت شده توسط ادراک انسانی - عظیم است. می‌توان تصور کرد که این منتقدان در حلقه آموزشی مدل‌های VTON آینده به عنوان یک زیان ادراکی ادغام شوند، جهتی که به شدت توسط آزمایش‌های تنظیم دقیق روی معیارهای IQA اشاره شده است.

با نگاه به آینده، گسترش منطقی به سمت ارزیابی پویا و تعاملی است. مرز بعدی یک تصویر ایستا نیست، بلکه یک لباس‌پوشی مجازی ویدیویی یا یک دارایی سه‌بعدی است. چگونه کیفیت چین‌وچروک پارچه در حرکت یا حفظ هویت در زوایای مختلف را ارزیابی کنیم؟ چارچوب چندبعدی VTONQA قالبی برای این معیارهای آینده فراهم می‌کند. علاوه بر این، ظهور مدل‌های چندوجهی بزرگ (LMMs) مانند GPT-4V و Gemini، همانطور که در اصطلاحات نمایه مقاله ذکر شده است، یک هم‌افزایی جذاب ارائه می‌دهد. این مدل‌ها را می‌توان روی جفت‌های تصویر-نمره VTONQA تنظیم دقیق کرد تا به ارزیاب‌های کیفیت خودکار و قابل توضیح تبدیل شوند، که نه تنها یک نمره بلکه یک توجیه متنی ("طرح آستین کشیده شده است") ارائه می‌دهند. این امر ارزیابی کیفیت را از یک عدد جعبه سیاه به یک ابزار بازخورد قابل تفسار تبدیل می‌کند و تحقیقات و توسعه را حتی بیشتر تسریع می‌بخشد. در نتیجه، VTONQA بیش از یک مجموعه‌داده است؛ یک اصلاح برای مسیر حوزه است، که به طور محکم تحقیق و توسعه را بر تنها معیاری که در نهایت اهمیت دارد متمرکز می‌کند: ادراک انسانی.