ডিপভিআরস্কেচ+: এআর/ভিআর স্কেচিংয়ের মাধ্যমে ব্যক্তিগতকৃত ৩ডি ফ্যাশন সৃষ্টি

সূচিপত্র

1. ভূমিকা ও সারসংক্ষেপ

এই গবেষণা ডিজিটাল ফ্যাশন সৃষ্টির গণতন্ত্রীকরণে একটি গুরুত্বপূর্ণ শূন্যতা পূরণ করে। যদিও এআর/ভিআর প্রযুক্তি মূলধারার ভোক্তা ইলেকট্রনিক্সে পরিণত হচ্ছে, তবুও এই নিমজ্জিত স্থানগুলির মধ্যে ৩ডি বিষয়বস্তু তৈরির সরঞ্জামগুলি অ-বিশেষজ্ঞদের জন্য জটিল ও দুর্গম থেকে যাচ্ছে। এই গবেষণাপত্রটি ডিপভিআরস্কেচ+ প্রস্তাব করে, একটি অভিনব কাঠামো যা সাধারণ ব্যবহারকারীদের এআর/ভিআর পরিবেশে স্বজ্ঞাত, হাতে আঁকা ৩ডি স্কেচিংয়ের মাধ্যমে ব্যক্তিগতকৃত ৩ডি পোশাক ডিজাইন করতে দেয়। মূল উদ্ভাবনটি হল একটি সাবধানে নকশাকৃত জেনারেটিভ এআই পাইপলাইন ব্যবহার করে অনির্ভুল, ব্যবহারকারী-আঁকা ৩ডি স্কেচকে উচ্চ-নির্ভুলতা সম্পন্ন, পরিধানযোগ্য ৩ডি পোশাক মডেলে রূপান্তর করা।

সিস্টেমের প্রয়োগগুলি মেটাভার্সে ব্যক্তিগত অভিব্যক্তি, এআর/ভিআর ভিজ্যুয়ালাইজেশন এবং ভার্চুয়াল ট্রাই-অন পর্যন্ত বিস্তৃত, যা এটিকে পরবর্তী প্রজন্মের ডিজিটাল প্ল্যাটফর্মে ব্যবহারকারী-উৎপাদিত বিষয়বস্তুর জন্য একটি মূল সক্ষমকারী হিসেবে অবস্থান দেয়।

সমাধানকৃত মূল সমস্যা

৩ডি ফ্যাশন ডিজাইনকে গণতান্ত্রিক করা, সাধারণ ব্যবহারকারীদের জন্য উচ্চ প্রযুক্তিগত বাধা দূরীকরণ।

মূল প্রযুক্তি

শর্তাধীন ডিফিউশন মডেল + ৩ডি স্কেচ এনকোডার + অভিযোজিত পাঠ্যক্রম শিক্ষণ।

অভিনব অবদান

কেও৩ডিক্লথস ডেটাসেটের পরিচয়: জোড়া ৩ডি পোশাক মডেল এবং ব্যবহারকারী স্কেচ।

2. পদ্ধতিবিদ্যা ও প্রযুক্তিগত কাঠামো

প্রস্তাবিত কাঠামোটি তিনটি স্তম্ভের উপর নির্মিত: একটি অভিনব ডেটাসেট, একটি জেনারেটিভ মডেল আর্কিটেকচার এবং একটি উপযোগী প্রশিক্ষণ কৌশল।

2.1. কেও৩ডিক্লথস ডেটাসেট

৩ডি স্কেচ-থেকে-পোশাক কাজের জন্য প্রশিক্ষণ ডেটার স্বল্পতা কাটিয়ে উঠতে, লেখকরা কেও৩ডিক্লথস পরিচয় করিয়েছেন। এই ডেটাসেটে উচ্চ-মানের ৩ডি পোশাক মডেলের (যেমন: পোশাক, শার্ট, প্যান্ট) জোড়া এবং একটি নিয়ন্ত্রিত ভিআর পরিবেশে ব্যবহারকারীদের তৈরি করা সংশ্লিষ্ট ৩ডি স্কেচ রয়েছে। স্কেচগুলি অ-বিশেষজ্ঞ ইনপুটের প্রাকৃতিক অনির্ভুলতা এবং শৈলীগত বৈচিত্র্য ধারণ করে, যা একটি মজবুত মডেল প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

2.2. ডিপভিআরস্কেচ+ আর্কিটেকচার

মূল জেনারেটিভ মডেলটি একটি শর্তাধীন ডিফিউশন মডেল। প্রক্রিয়াটিতে একটি স্কেচ এনকোডার $E_s$ জড়িত যা ইনপুট ৩ডি স্কেচকে একটি লেটেন্ট ভেক্টর $z_s$-এ প্রজেক্ট করে। এই লেটেন্ট কোডটি একটি ডিফিউশন মডেল $G_\theta$-কে টার্গেট ৩ডি পোশাক জ্যামিতি $\hat{X}$ তৈরি করার জন্য শর্তযুক্ত করে।

প্রশিক্ষণের উদ্দেশ্য হল ক্ষতির সমন্বয় কমানো: উৎপন্ন মেশ $\hat{X}$ এবং গ্রাউন্ড ট্রুথ $X$-এর মধ্যে একটি পুনর্গঠন ক্ষতি $L_{rec}$ (যেমন: চ্যামফার দূরত্ব), এবং বাস্তবতা নিশ্চিত করার জন্য একটি অ্যাডভারসারিয়াল ক্ষতি $L_{adv}$:

$L_{total} = \lambda_{rec} L_{rec}(\hat{X}, X) + \lambda_{adv} L_{adv}(D(\hat{X}))$

যেখানে $D$ হল একটি ডিসক্রিমিনেটর নেটওয়ার্ক।

2.3. অভিযোজিত পাঠ্যক্রম শিক্ষণ

স্কেচের মান ও জটিলতার ব্যাপক বৈচিত্র্য সামলাতে, একটি অভিযোজিত পাঠ্যক্রম শিক্ষণ কৌশল প্রয়োগ করা হয়েছে। মডেলটি সহজ, পরিষ্কার স্কেচ-পোশাক জোড়ার উপর প্রশিক্ষণ শুরু করে এবং ধীরে ধীরে আরও চ্যালেঞ্জিং, কোলাহলপূর্ণ বা বিমূর্ত স্কেচগুলি প্রবর্তন করে। এটি মানুষের শিক্ষণ প্রক্রিয়ার অনুকরণ করে এবং অসম্পূর্ণ ইনপুটের প্রতি মডেলের মজবুততা উল্লেখযোগ্যভাবে উন্নত করে।

3. পরীক্ষামূলক ফলাফল ও মূল্যায়ন

3.1. পরিমাণগত মেট্রিক্স

গবেষণাপত্রটি ডিপভিআরস্কেচ+কে স্ট্যান্ডার্ড ৩ডি আকৃতি উৎপাদন মেট্রিক্স ব্যবহার করে বেশ কয়েকটি বেসলাইনের বিরুদ্ধে মূল্যায়ন করে:

চ্যামফার দূরত্ব (সিডি): উৎপন্ন এবং গ্রাউন্ড ট্রুথ পয়েন্ট ক্লাউডের মধ্যে গড় নিকটতম বিন্দুর দূরত্ব পরিমাপ করে। ডিপভিআরস্কেচ+ নিকটতম বেসলাইন থেকে ১৫-২০% কম সিডি অর্জন করেছে, যা উচ্চতর জ্যামিতিক নির্ভুলতা নির্দেশ করে।
৩ডি-তে ফ্রেচেট ইনসেপশন দূরত্ব (এফআইডি): ৩ডি আকৃতির জন্য অভিযোজিত, এটি বন্টনের সাদৃশ্য পরিমাপ করে। প্রস্তাবিত মডেলটি উল্লেখযোগ্যভাবে ভাল (নিম্ন) এফআইডি স্কোর দেখিয়েছে, যা নিশ্চিত করে যে উৎপন্ন পোশাকগুলি আরও বাস্তবসম্মত ও বৈচিত্র্যময়।
ব্যবহারকারী পছন্দ স্কোর: এ/বি পরীক্ষায়, বেসলাইন পদ্ধতি থেকে প্রাপ্ত পোশাকগুলির তুলনায় ৭৮% এর বেশি উৎপন্ন পোশাক পছন্দ করা হয়েছিল।

3.2. ব্যবহারকারী সমীক্ষা ও গুণগত বিশ্লেষণ

যেসব অংশগ্রহণকারীর আগে ৩ডি মডেলিংয়ের অভিজ্ঞতা নেই তাদের নিয়ে একটি ব্যাপক ব্যবহারকারী সমীক্ষা পরিচালিত হয়েছিল। ব্যবহারকারীদের ভিআর-এ স্কেচ তৈরি করতে এবং উৎপন্ন ফলাফল মূল্যায়ন করতে বলা হয়েছিল। মূল ফলাফল:

ব্যবহারযোগ্যতা: ৯২% ব্যবহারকারী ৩ডি স্কেচিং ইন্টারফেসটি স্বজ্ঞাত ও উপভোগ্য বলে মনে করেছেন।
আউটপুট মান: ৮৫% তাদের স্কেচ থেকে উৎপন্ন পোশাকের বিস্তারিত বিবরণ ও পরিধানযোগ্যতা নিয়ে সন্তুষ্ট ছিলেন।
চিত্র ১ বিশ্লেষণ: পিডিএফ-এর চিত্রটি পাইপলাইনটি কার্যকরভাবে চিত্রিত করে: এআর/ভিআর-এ ৩ডি স্কেচিং থেকে শুরু করে, এআই মডেল (ডিপভিআরস্কেচ+) এর মাধ্যমে, চূড়ান্ত ৩ডি মডেল এবং এর প্রয়োগগুলিতে (এআর/ভিআর ডিসপ্লে, ডিজিটাল অভিব্যক্তি, ভার্চুয়াল ফিটিং)। এটি নকশা প্রক্রিয়ার এন্ড-টু-এন্ড গণতন্ত্রীকরণ দৃশ্যতভাবে যোগাযোগ করে।

4. মূল অন্তর্দৃষ্টি ও বিশ্লেষক দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি শুধুমাত্র একটি ভালো ৩ডি মডেল সম্পর্কে নয়; এটি সৃজনশীলতার প্ল্যাটফর্মীকরণ-এর উপর একটি কৌশলগত বাজি। ৩ডি বিষয়বস্তু সৃষ্টির দক্ষতার ন্যূনতম স্তরকে "আপনি কি বাতাসে ডুডল করতে পারেন?"-এ নামিয়ে এনে, ডিপভিআরস্কেচ+ প্রতিটি ভিআর/এআর হেডসেট মালিককে একজন সম্ভাব্য ফ্যাশন ডিজাইনার হিসেবে পরিণত করার লক্ষ্য রাখে। এটি সরাসরি মেটাভার্স এবং ডিজিটাল ফ্যাশনের মূল বাধা আক্রমণ করে: আকর্ষণীয়, ব্যবহারকারী-উৎপাদিত বিষয়বস্তুর স্বল্পতা। এখানে প্রকৃত পণ্যটি পোশাক নয়, বরং ব্যবহারকারীকে প্রদত্ত সৃজনশীল এজেন্সি।

যুক্তিগত প্রবাহ: যুক্তিটি আকর্ষণীয় কিন্তু এআই গবেষণায় একটি সুপরিচিত পথ অনুসরণ করে: একটি ডেটা-স্বল্প ডোমেন চিহ্নিত করা (৩ডি স্কেচ-থেকে-পোশাক), এটি সমাধানের জন্য একটি অভিনব ডেটাসেট (কেও৩ডিক্লথস) তৈরি করা, একটি অত্যাধুনিক জেনারেটিভ আর্কিটেকচার (ডিফিউশন মডেল) প্রয়োগ করা এবং মজবুতির জন্য একটি চতুর প্রশিক্ষণ কৌশল (পাঠ্যক্রম শিক্ষণ) যোগ করা। সমস্যা (দুর্গম সরঞ্জাম) থেকে সমাধান (স্বজ্ঞাত স্কেচিং + এআই) পর্যন্ত প্রবাহটি স্পষ্ট এবং বাজার-প্রস্তুত। এটি ডিএএল-ই ২-এর মতো টেক্সট-টু-ইমেজ মডেলের সাফল্যের প্রতিফলন ঘটায় যা ২ডি শিল্পকে গণতান্ত্রিক করেছে, কিন্তু ৩ডি নিমজ্জিত স্থানে প্রয়োগ করা হয়েছে—একটি যৌক্তিক পরবর্তী সীমান্ত।

শক্তি ও ত্রুটি: প্রধান শক্তি হল এর ব্যবহারযোগ্যতা ও ডেটার উপর ব্যবহারিক ফোকাস। কেও৩ডিক্লথস তৈরি করা একটি উল্লেখযোগ্য, ব্যয়বহুল অবদান যা সম্পূর্ণ গবেষণা সম্প্রদায়কে উপকৃত করবে, ঠিক যেমন ইমেজনেট কম্পিউটার ভিশনকে বিপ্লবী করেছে। "অগোছালো" মানুষের ইনপুট সামলাতে পাঠ্যক্রম শিক্ষণের ব্যবহার চতুর প্রকৌশল। যাইহোক, ত্রুটিটি যা আলোচনা করা হয়নি তার মধ্যে রয়েছে: ডিজিটাল ফ্যাশনের "শেষ মাইল" সমস্যা। একটি ৩ডি মেশ তৈরি করা শুধুমাত্র প্রথম ধাপ। গবেষণাপত্রটি অ্যানিমেশনের জন্য বাস্তবসম্মত কাপড় সিমুলেশন, টেক্সচার/ম্যাটেরিয়াল জেনারেশন এবং বিদ্যমান গেম/ভিআর ইঞ্জিনে একীকরণের মতো সমালোচনামূলক দিকগুলি উপেক্ষা করে—যেসব সমস্যা এনভিডিয়ার মতো কোম্পানিগুলি ওমনিভার্সের মতো সমাধান নিয়ে মোকাবেলা করছে। তদুপরি, যদিও ব্যবহারকারী সমীক্ষা ইতিবাচক, দীর্ঘমেয়াদী সম্পৃক্ততা এবং "পোশাক ডুডলিং"-এর নবত্ব প্রভাব অপ্রমাণিত থেকে যায়। ব্যবহারকারীরা কি একটি পোশাক তৈরি করে থামবে, নাকি এটি টেকসই সৃষ্টি ফেলবে? ইসোলা ও সহকর্মীদের পিক্সটুপিক্স (কন্ডিশনাল অ্যাডভারসারিয়াল নেটওয়ার্কস সহ ইমেজ-টু-ইমেজ ট্রান্সলেশন, সিভিপিআর ২০১৭) এর মৌলিক কাজের সাথে তুলনা জোড়া ডেটা পদ্ধতির জন্য উপযুক্ত, কিন্তু ৩ডি স্থানিক ডোমেন কয়েক গুণ বেশি জটিলতা যোগ করে।

কার্যকরী অন্তর্দৃষ্টি: বিনিয়োগকারীদের জন্য, এটি একটি পাকা এলাকার সংকেত দেয়: নিমজ্জিত প্ল্যাটফর্মের জন্য এআই-চালিত ৩ডি বিষয়বস্তু সৃষ্টি সরঞ্জাম। অবিলম্বে রোডম্যাপে ভিআর হার্ডওয়্যার নির্মাতাদের (মেটা কোয়েস্ট, অ্যাপল ভিশন প্রো) সাথে নেটিভ ইন্টিগ্রেশনের জন্য অংশীদারিত্ব জড়িত থাকা উচিত। ডেভেলপারদের জন্য, কেও৩ডিক্লথস ওপেন-সোর্সিং (যদি পরিকল্পিত হয়) ইকোসিস্টেমের বৃদ্ধি ত্বরান্বিত করবে। পরবর্তী প্রযুক্তিগত বাধা হল স্থির পোশাক উৎপাদন থেকে গতিশীল, সিমুলেটযোগ্য ফ্যাব্রিক-এ স্থানান্তর। এমআইটি-র কম্পিউটার সায়েন্স অ্যান্ড আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরির (সিএসএআইএল) শিক্ষণ-ভিত্তিক সিমুলেশন সংক্রান্ত কাজে দেখা গেছে এমন গ্রাফ নিউরাল নেটওয়ার্ক ব্যবহার করে, সম্ভবত পদার্থবিজ্ঞান-ভিত্তিক সিমুলেশন গবেষণার সাথে সহযোগিতা করা অপরিহার্য। সর্বোপরি, ব্যবসায়িক মডেলটিকে এককালীন সৃষ্টির বাইরে এআই-উৎপাদিত ফ্যাশন সম্পদের জন্য একটি মার্কেটপ্লেস বা সাবস্ক্রিপশনের দিকে তাকানো উচিত, যা সৃষ্টি ও ব্যবহারের একটি বদ্ধ-লুপ অর্থনীতি তৈরি করবে।

5. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

শর্তাধীন ডিফিউশন মডেলটি একটি লেটেন্ট স্পেসে কাজ করে। টাইমস্টেপ $t$-এ একটি কোলাহলপূর্ণ ৩ডি আকৃতি উপস্থাপনা $X_t$ এবং শর্তযুক্ত স্কেচ লেটেন্ট $z_s$ দেওয়া হলে, মডেলটি সরানো হবে এমন কোলাহল $\epsilon_\theta(X_t, t, z_s)$ ভবিষ্যদ্বাণী করতে শেখে। বিপরীত ডিনয়েজিং প্রক্রিয়াটি সংজ্ঞায়িত করা হয়েছে:

$p_\theta(X_{0:T} | z_s) = p(X_T) \prod_{t=1}^{T} p_\theta(X_{t-1} | X_t, z_s)$

যেখানে $p_\theta(X_{t-1} | X_t, z_s) = \mathcal{N}(X_{t-1}; \mu_\theta(X_t, t, z_s), \Sigma_\theta(X_t, t, z_s))$

মডেলটি ডিনয়েজিং ডিফিউশন প্রোবাবিলিস্টিক মডেল (ডিডিপিএম)-এ সাধারণত ব্যবহৃত ভ্যারিয়েশনাল লোয়ার বাউন্ডের একটি সরলীকৃত রূপ অপ্টিমাইজ করতে প্রশিক্ষিত:

$L_{simple} = \mathbb{E}_{t, X_0, \epsilon} [\| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} X_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t, z_s) \|^2]$

যেখানে $\epsilon$ গাউসিয়ান কোলাহল, এবং $\bar{\alpha}_t$ কোলাহল সময়সূচির একটি ফাংশন।

6. বিশ্লেষণ কাঠামো ও উদাহরণ কেস

সৃজনশীল এআই সরঞ্জাম মূল্যায়নের কাঠামো:

ইনপুট নির্ভুলতা: সিস্টেমটি কতটা ভালোভাবে ব্যবহারকারীর অভিপ্রায়কে অসম্পূর্ণ ইনপুট থেকে ব্যাখ্যা করে? (ডিপভিআরস্কেচ+ এটি সমাধানের জন্য স্কেচ এনকোডার এবং পাঠ্যক্রম শিক্ষণ ব্যবহার করে)।
আউটপুট মান: উৎপন্ন বিষয়বস্তু কি কার্যকরীভাবে ব্যবহারযোগ্য এবং নান্দনিকভাবে সম্ভাব্য? (সিডি, এফআইডি এবং ব্যবহারকারী সন্তুষ্টি দ্বারা পরিমাপিত)।
সৃজনশীল লিভারেজ: সরঞ্জামটি কি মানুষের সৃজনশীলতাকে বৃদ্ধি করে নাকি প্রতিস্থাপন করে? (এই সিস্টেমটি দৃঢ়ভাবে বৃদ্ধি শিবিরে রয়েছে, ব্যবহারকারীকে "লুপে" রাখে)।
প্ল্যাটফর্ম ইন্টিগ্রেশন: আউটপুটটি ডাউনস্ট্রিম পাইপলাইনে কতটা নির্বিঘ্নে একীভূত হয়? (ভবিষ্যতের কাজের জন্য একটি ক্ষেত্র, যেমন উল্লেখ করা হয়েছে)।

উদাহরণ কেস - একটি ভার্চুয়াল জ্যাকেট ডিজাইন করা:

ব্যবহারকারীর ক্রিয়া: একজন ব্যবহারকারী ভিআর হেডসেট পরেন এবং একটি ৩ডি ম্যানেকিনের চারপাশে একটি বোমার জ্যাকেটের সিলুয়েট আঁকতে কন্ট্রোলার ব্যবহার করেন। স্কেচটি রুক্ষ, ঢেউখেলানো রেখা সহ।
সিস্টেম প্রক্রিয়াকরণ: স্কেচ এনকোডার $E_s$ স্থানিক অভিপ্রায় নিষ্কাশন করে। এই লেটেন্ট ভেক্টর দ্বারা শর্তযুক্ত ডিফিউশন মডেলটি এলোমেলো কোলাহল থেকে ডিনয়েজিং প্রক্রিয়া শুরু করে, কেও৩ডিক্লথস থেকে শেখা স্কেচ বন্টনের সাথে মিলে যাওয়া আকৃতির দিকে পরিচালিত হয়।
আউটপুট: কয়েক সেকেন্ডের মধ্যে, একটি সম্পূর্ণ, ওয়াটারটাইট ৩ডি মেশ বোমার জ্যাকেটের উপস্থিত হয়, যেখানে সম্ভাব্য ভাঁজ, কলার কাঠামো এবং জিপার জ্যামিতি অনুমান করা হয়েছে, আঁকা নয়।
পরবর্তী পদক্ষেপ (ভবিষ্যৎ দৃষ্টি): ব্যবহারকারী তারপর একটি ম্যাটেরিয়াল প্যালেট থেকে "ডেনিম" নির্বাচন করেন, এবং একটি পৃথক এআই মডিউল মডেলটিকে টেক্সচার করে। তারপর তারা একটি ভার্চুয়াল আয়নায় তাদের অ্যাভাটারে এটি সিমুলেটেড দেখতে পান।

7. ভবিষ্যৎ প্রয়োগ ও উন্নয়ন রোডম্যাপ

স্বল্পমেয়াদী (১-২ বছর):

জনপ্রিয় সোশ্যাল ভিআর প্ল্যাটফর্মে (ভিআরচ্যাট, হরাইজন ওয়ার্ল্ডস) একটি প্লাগইন/ফিচার হিসেবে একীকরণ।
"স্থানে স্কেচিং"-এর জন্য লিডার/গভীরতা সেন্সর ব্যবহার করে একটি মোবাইল এআর সংস্করণের উন্নয়ন।
আরও পোশাক বিভাগ, টেক্সচার এবং মাল্টি-ভিউ স্কেচ অন্তর্ভুক্ত করতে কেও৩ডিক্লথস-এর সম্প্রসারণ।

মধ্যমেয়াদী (৩-৫ বছর):

একাধিক স্কেচের ধারাবাহিকতা থেকে সম্পূর্ণ শরীরের পোশাক উৎপাদন।
রিয়েল-টাইম সহ-নকশা: একটি ভাগ করা ভিআর স্থানে একাধিক ব্যবহারকারী সহযোগিতামূলকভাবে স্কেচিং।
শারীরিক পোশাক উৎপাদনের জন্য এআই-সহায়িত নকশা, ডিজিটাল সৃষ্টি এবং বাস্তব-বিশ্বের ফ্যাশনের মধ্যে সেতুবন্ধন।

দীর্ঘমেয়াদী দৃষ্টি:

বিভিন্ন অস্পষ্ট ইনপুট (স্কেচ, টেক্সট, অঙ্গভঙ্গি) থেকে ৩ডি আকৃতি উৎপাদনের জন্য একটি মৌলিক মডেল।
সমস্ত মেটাভার্স অভিজ্ঞতার মধ্যে আন্তঃপরিচালনাযোগ্য, ব্যবহারকারী-মালিকানাধীন ডিজিটাল পরিচয় ওয়ারড্রোবের কেন্দ্রীয়।
কাস্টম, অন-ডিমান্ড শারীরিক ফ্যাশন উৎপাদনের গণতন্ত্রীকরণ।

8. তথ্যসূত্র

Y. Zang et al., "From Air to Wear: Personalized 3D Digital Fashion with AR/VR Immersive 3D Sketching," Journal of LaTeX Class Files, 2021.
P. Isola, J.-Y. Zhu, T. Zhou, A. A. Efros, "Image-to-Image Translation with Conditional Adversarial Networks," CVPR, 2017. (জোড়া ইমেজ ট্রান্সলেশনের মৌলিক কাজ)।
J. Ho, A. Jain, P. Abbeel, "Denoising Diffusion Probabilistic Models," NeurIPS, 2020. (ডিফিউশন মডেল পদ্ধতির ভিত্তি)।
NVIDIA Omniverse, "Platform for Connecting 3D Tools and Assets," https://www.nvidia.com/en-us/omniverse/.
MIT CSAIL, "Research on Learning-based Physics Simulation," https://www.csail.mit.edu/.
J.-Y. Zhu, T. Park, P. Isola, A. A. Efros, "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (সাইকেলজিএএন, জোড়াবিহীন ট্রান্সলেশন দৃশ্যের জন্য, এই কাজের জোড়া ডেটা পদ্ধতির বিপরীতে)।