HieraFashDiff: طراحی مد سلسلهمراتبی با مدل‌های انتشار چندمرحله‌ای

1. مقدمه و مرور کلی

طراحی مد یک فرآیند پیچیده و تکراری است که شامل مفهوم‌سازی سطح بالا و پالایش سطح پایین می‌شود. مدل‌های هوش مصنوعی موجود برای تولید یا ویرایش مد اغلب به صورت مجزا عمل می‌کنند و قادر به بازتاب گردش کار عملی طراح نیستند. HieraFashDiff این شکاف را با ارائه یک مدل انتشار سلسلهمراتبی و چندمرحله‌ای برطرف می‌کند که فرآیند خلاقانه را به صراحت به دو مرحله هم‌تراز تجزیه می‌کند: ایده‌پردازی و تکرار. این چارچوب نه تنها طرح‌های نوآورانه را از مفاهیم انتزاعی تولید می‌کند، بلکه امکان ویرایش دقیق و موضعی را در قالب یک مدل واحد و یکپارچه فراهم می‌آورد و گامی مهم به سوی ابزارهای عملی طراحی با کمک هوش مصنوعی محسوب می‌شود.

2. روش‌شناسی و چارچوب

نوآوری اصلی HieraFashDiff در هم‌ترازی ساختاری آن با فرآیند طراحی انسانی نهفته است.

2.1 معماری هسته: حذف نویز دو مرحله‌ای

فرآیند معکوس حذف نویز یک مدل انتشار استاندارد به صورت استراتژیک تقسیم‌بندی شده است. مراحل اولیه (مثلاً گام‌های زمانی $t=T$ تا $t=M$) مرحله ایده‌پردازی را تشکیل می‌دهند. در اینجا، مدل بر اساس دستورات متنی سطح بالا (مانند "لباس تابستانی بوهمین") شرطی می‌شود تا نویز گاوسی خالص را به یک پیش‌نویس طرح مفهومی و خام تبدیل کند. مراحل بعدی (مثلاً $t=M$ تا $t=0$) مرحله تکرار را تشکیل می‌دهند، جایی که پیش‌نویس با استفاده از ویژگی‌های سطح پایین و ریزدانه (مانند "تغییر طول آستین به کوتاه، افزودن طرح گل به دامن") پالایش می‌شود تا تصویر نهایی با وفاداری بالا تولید شود.

2.2 مکانیزم شرطی‌سازی سلسلهمراتبی

این مدل از یک مکانیزم شرطی‌سازی دوگانه استفاده می‌کند. یک رمزگذار متنی سطح بالا، مفاهیم موضوعی را برای مرحله ایده‌پردازی پردازش می‌کند. یک رمزگذار جداگانه و متمرکز بر ویژگی‌ها، دستورات ویرایش دقیق را برای مرحله تکرار پردازش می‌کند. این سیگنال‌های شرطی از طریق لایه‌های توجه متقاطع در مراحل مربوطه خود به هسته U-Net تزریق می‌شوند و اطمینان حاصل می‌کنند که ابتدا ساختار کلی تعریف شده و سپس جزئیات موضعی دنبال می‌شوند.

2.3 مجموعه داده HieraFashDiff

یک دستاورد کلیدی، مجموعه داده جدیدی از تصاویر مد تمام‌تنه است که با توضیحات متنی سلسلهمراتبی حاشیه‌نویسی شده‌اند. هر تصویر با موارد زیر جفت شده است: 1) یک توضیح مفهومی سطح بالا، و 2) مجموعه‌ای از حاشیه‌نویسی‌های ویژگی سطح پایین برای نواحی مختلف لباس (مانند یقه، آستین، لبه). این داده ساختاریافته برای آموزش مدل جهت تفکیک و پاسخ به سطوح مختلف ورودی خلاقانه بسیار حیاتی است.

3. بررسی فنی عمیق

3.1 فرمول‌بندی ریاضی

این مدل بر اساس یک فرآیند انتشار شرطی است. فرآیند پیشرو نویز اضافه می‌کند: $q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$. فرآیند معکوس یاد گرفته شده و شرطی می‌شود:

برای $t > M$ (مرحله ایده‌پردازی):
$p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{c}_{high})$، که در آن $\mathbf{c}_{high}$ مفهوم سطح بالا است.

برای $t \leq M$ (مرحله تکرار):
$p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{c}_{low})$، که در آن $\mathbf{c}_{low}$ مجموعه ویژگی‌های سطح پایین است.

مدل یاد می‌گیرد که نویز $\epsilon_\theta(\mathbf{x}_t, t, \mathbf{c})$ را پیش‌بینی کند، جایی که $\mathbf{c}$ بر اساس گام زمانی تغییر می‌کند.

3.2 اهداف آموزش

این مدل با یک هدف ساده‌شده آموزش دیده است، که گونه‌ای از تابع زیان پیش‌بینی نویز مورد استفاده در DDPM است:

$L = \mathbb{E}_{\mathbf{x}_0, \mathbf{c}_{high}, \mathbf{c}_{low}, t, \epsilon \sim \mathcal{N}(0,\mathbf{I})} [\| \epsilon - \epsilon_\theta(\mathbf{x}_t, t, \mathbf{c}(t)) \|^2 ]$

که در آن $\mathbf{c}(t) = \mathbf{c}_{high}$ اگر $t > M$، در غیر این صورت $\mathbf{c}_{low}$. نکته کلیدی، تغییر شرطی وابسته به زمان است.

4. نتایج آزمایشی و ارزیابی

4.1 معیارهای کمی و معیارهای مقایسه

HieraFashDiff در مقایسه با مدل‌های پیشرفته تولید مد (مانند FashionGAN) و ویرایش (مانند SDEdit) ارزیابی شد. این مدل عملکرد برتر خود را در موارد زیر نشان داد:

FID (فاصله آغازین فرشه): نمرات FID پایین‌تر، که نشان می‌دهد تصاویر تولید شده از نظر آماری شباهت بیشتری به عکس‌های واقعی مد دارند.
نمره CLIP: نمرات بالاتر، که تأییدکننده هم‌ترازی بهتر بین تصویر تولید شده و دستور متنی ورودی است.
مطالعه کاربری (آزمون A/B): متخصصان طراحی به طور قابل توجهی خروجی‌های HieraFashDiff را از نظر خلاقیت و کاربردی بودن ترجیح دادند.

4.2 تحلیل کیفی و مقایسه‌های بصری

نتایج بصری نقاط قوت HieraFashDiff را نشان می‌دهند: 1) ایده‌پردازی منسجم: از مفهوم "لباس شب شیک"، پیش‌نویس‌های متنوع اما از نظر موضوعی سازگار تولید می‌کند. 2) ویرایش دقیق: دستوراتی مانند "جایگزینی رنگ ساده با طرح پیزلی روی بلوز" با وفاداری بالا اجرا می‌شوند و بقیه لباس بدون تغییر باقی می‌ماند - چالشی برای روش‌های ویرایش سراسری.

توضیح نمودار (تصوری): یک نمودار میله‌ای نمره FID مربوط به HieraFashDiff (مثلاً 15.2) را نشان می‌دهد که به طور قابل توجهی پایین‌تر از FashionGAN (28.7) و SDEdit (32.1 برای وظایف ویرایش) است. یک نمودار خطی نمره CLIP در مقابل پیچیدگی دستور را به تصویر می‌کشد، جایی که HieraFashDiff نمرات بالایی را برای دستورات سلسلهمراتبی پیچیده حفظ می‌کند در حالی که مدل‌های پایه کاهش می‌یابند.

4.3 مطالعات حذفی

مطالعات حذفی ضرورت طراحی دو مرحله‌ای را تأیید می‌کنند. یک مدل تک‌مرحله‌ای که بر اساس دستورات سطح بالا/پایین الحاق‌شده شرطی شده است، هم در وفاداری و هم در دقت ویرایش عملکرد ضعیف‌تری دارد. حذف مجموعه داده سلسلهمراتبی منجر به تفکیک ضعیف مفاهیم و ویژگی‌ها می‌شود.

5. چارچوب تحلیل و مطالعه موردی

بینش هسته‌ای: پیشرفت واقعی HieraFashDiff فقط کیفیت بهتر تصویر نیست؛ بلکه هم‌ترازی رویه‌ای آن با شناخت انسانی است. این چارچوب حلقه "طرح اولیه سپس جزئیات" را صوری می‌کند و هوش مصنوعی را به یک شریک مشارکتی تبدیل می‌کند، نه یک مولد جعبه‌سیاه. این امر یک نقص اساسی در بیشتر هوش مصنوعی‌های خلاقانه - یعنی فقدان یک بازنمایی شهودی، میانی و قابل ویرایش - را برطرف می‌کند.

جریان منطقی: منطق مدل بی‌عیب است: فضای مسئله را تجزیه کن. دیدگاه سطح بالا محدودیت‌ها را تعیین می‌کند ("جهت‌دهی هنری")، ویرایش‌های سطح پایین درون آن‌ها عمل می‌کنند. این یادآور نحوه عملکرد پلتفرم‌هایی مانند GitHub Copilot است - ابتدا اسکلت یک تابع را پیشنهاد می‌دهد (ایده‌پردازی) و سپس منطق آن را پر می‌کند (تکرار).

نقاط قوت و ضعف: نقطه قوت آن، طراحی متمرکز بر گردش کار است، درسی که این حوزه باید از پژوهش‌های تعامل انسان و رایانه بیاموزد. ضعف اصلی، مانند همه مدل‌های انتشار، هزینه محاسباتی و تأخیر است که تکرار بلادرنگ را چالش‌برانگیز می‌کند. علاوه بر این، موفقیت آن به شدت وابسته به کیفیت و ریزدانه بودن مجموعه داده سلسلهمراتبی است - گردآوری این داده برای سبک‌های خاص کار ساده‌ای نیست.

بینش‌های عملی: برای متخصصان: این چارچوب یک نقشه راه است. ایده اصلی - تقسیم‌بندی زمانی شرطی‌سازی - فراتر از حوزه مد نیز کاربرد دارد (مانند طراحی معماری، نمونه‌های اولیه UI/UX). برای پژوهشگران: مرز بعدی، مدل‌های چندمرحله‌ای تعاملی است. آیا مدل می‌تواند پس از مرحله ایده‌پردازی بازخورد دریافت کند؟ آیا مرحله "تکرار" می‌تواند یک حلقه تعاملی با حضور انسان در میانه باشد؟ ادغام مفاهیم یادگیری تقویتی با بازخورد انسانی (RLHF)، همان‌طور که در مدل‌های زبانی بزرگ دیده می‌شود، می‌تواند کلید این امر باشد.

مطالعه موردی - ویرایش "از بوهمین به اداری": یک کاربر با مفهوم سطح بالا شروع می‌کند: "لباس ماکسی بوهمین و روان". مرحله ایده‌پردازی HieraFashDiff چندین گزینه پیش‌نویس تولید می‌کند. کاربر یکی را انتخاب می‌کند و با دستورات سطح پایین وارد مرحله تکرار می‌شود: "1. کوتاه کردن لباس تا طول زانو. 2. تغییر جنس پارچه از شیفون به پنبه ساختاریافته. 3. تغییر طرح از گل‌دار به ساده نیلی. 4. افزودن خطوط کت و شلوار روی شانه‌ها." مدل این دستورات را به صورت متوالی/جمعی اجرا می‌کند و پیش‌نویس بوهمین را به یک لباس با سبک اداری تبدیل می‌کند و قدرت ویرایش دقیق و ترکیبی را نشان می‌دهد.

6. کاربردهای آینده و جهت‌های پژوهشی

دستیارهای مد شخصی‌سازی‌شده: ادغام در نرم‌افزارهای CAD برای طراحان، که امکان نمونه‌سازی سریع از تخته‌های خلق‌و‌خو را فراهم می‌آورد.
مد پایدار: امتحان مجازی و تغییر سبک، که با آزمایش دیجیتالی طرح‌ها از تولید بیش از حد می‌کاهد.
متاورس و دارایی‌های دیجیتال: تولید پوشاک منحصربه فرد و دارای بافت برای آواتارها و کلکسیون‌های دیجیتال (NFTها).
جهت‌های پژوهشی: 1) تولید لباس سه‌بعدی: گسترش سلسلهمراتب به مش سه‌بعدی و شبیه‌سازی چین‌و‌شکن. 2) شرطی‌سازی چندوجهی: گنجاندن ورودی‌های طرح اولیه یا تصاویر نمونه پارچه در کنار متن. 3) بهره‌وری: بررسی تکنیک‌های تقطیر یا مدل‌های انتشار نهفته برای تسریع تولید برای کاربردهای بلادرنگ.

7. منابع

Xie, Z., Li, H., Ding, H., Li, M., Di, X., & Cao, Y. (2025). HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models. Proceedings of the AAAI Conference on Artificial Intelligence.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems, 33.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision.
OpenAI. (2021). CLIP: Connecting Text and Images. OpenAI Blog. Retrieved from https://openai.com/research/clip
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., & Hochreiter, S. (2017). GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. Advances in Neural Information Processing Systems, 30.