مایکروسافت DragNUWA نوار ویدیوی هوش مصنوعی را با تولید مبتنی بر مسیر حرکت می کند

در ۱۰ ژانویه به رهبران سانفرانسیسکو بپیوندید تا یک شب منحصر به فرد شبکه، بینش و گفتگو داشته باشید. درخواست دعوت اینجا.

شرکت‌های هوش مصنوعی در حال رقابت برای تسلط بر هنر تولید ویدیو هستند. طی چند ماه گذشته، چندین بازیکن در این فضا از جمله هوش مصنوعی پایداری و آزمایشگاه پیکا، مدل هایی را منتشر کرده اند که قادر به تولید فیلم در انواع مختلف با اعلان های متنی و تصویری هستند. ساخت آن کار مایکروسافت هوش مصنوعی مدلی را حذف کرده است که هدف آن کنترل دقیق تری بر تولید ویدیو است.

این پروژه که DragNUWA نام دارد، رویکردهای شناخته شده اعلان متن و تصویر را با تولید مبتنی بر مسیر تکمیل می کند. این به کاربران اجازه می دهد تا اشیا یا کل فریم های ویدئویی را با مسیرهای خاص دستکاری کنند. این یک راه آسان برای دستیابی به تولید ویدیوی بسیار قابل کنترل از جنبه های معنایی، مکانی و زمانی – در حالی که از خروجی با کیفیت بالا در همان زمان تضمین می کند، می دهد.

مایکروسافت دارد اوزان مدل را منبع باز کرد و نسخه ی نمایشی برای این پروژه، به جامعه اجازه می دهد آن را امتحان کند. با این حال، توجه به این نکته مهم است که این هنوز یک تلاش تحقیقاتی است و هنوز کامل نیست.

چه چیزی مایکروسافت DragNUWA را منحصر به فرد می کند؟

از لحاظ تاریخی، تولید ویدئو مبتنی بر هوش مصنوعی حول محور ورودی‌های متن، تصویر یا مسیر حرکت می‌کرده است. کار بسیار خوب بوده است، اما هر رویکرد برای ارائه کنترل دقیق بر خروجی مورد نظر تلاش کرده است.

رویداد VB

تور تاثیر هوش مصنوعی

رسیدن به یک طرح مدیریتی هوش مصنوعی – برای رویداد ۱۰ ژانویه دعوت نامه درخواست کنید.

بیشتر بدانید

به عنوان مثال، ترکیب متن و تصاویر به تنهایی نمی تواند جزئیات حرکت پیچیده موجود در یک ویدیو را منتقل کند. در همین حال، تصاویر و مسیرها ممکن است به اندازه کافی اشیاء آینده را نشان ندهند و مسیرها و زبان ممکن است هنگام بیان مفاهیم انتزاعی منجر به ابهام شود. یک مثال می تواند عدم تمایز بین یک ماهی واقعی و یک نقاشی از یک ماهی باشد.

برای حل این مشکل، در آگوست ۲۰۲۳، تیم هوش مصنوعی مایکروسافت پیشنهاد شده DragNUWA، یک مدل تولید ویدیو مبتنی بر انتشار دامنه باز است که هر سه عامل – تصاویر، متن و مسیر را – برای تسهیل تولید ویدیوی بسیار قابل کنترل از جنبه‌های معنایی، مکانی و زمانی گرد هم می‌آورد. این به کاربر اجازه می‌دهد متن، تصویر و مسیر مورد نظر را در ورودی برای کنترل جنبه‌هایی مانند حرکات دوربین، از جمله جلوه‌های بزرگ‌نمایی یا کوچک‌نمایی، یا حرکت شی در ویدیوی خروجی، به‌طور دقیق تعریف کند.

به عنوان مثال، می توان تصویر یک قایق را در یک بدنه آب آپلود کرد و یک پیام متنی “قایق در حال حرکت در دریاچه” و همچنین مسیرهایی که مسیر قایق را مشخص می کند، اضافه کرد. این باعث می شود که یک ویدیو از حرکت قایق در جهت مشخص شده ایجاد شود و نتیجه دلخواه را به همراه داشته باشد. مسیر جزئیات حرکت را ارائه می دهد، زبان جزئیات اشیاء آینده را ارائه می دهد و تصاویر تمایز بین اشیاء را اضافه می کنند.

منتشر شده در Hugging Face

در نسخه اولیه ۱٫۵ DragNUWA که به تازگی در Hugging Face منتشر شده است، مایکروسافت از ثبات هوش مصنوعی بهره برده است. انتشار ویدئوی پایدار مدلی برای متحرک کردن یک تصویر یا شیء آن با توجه به یک مسیر خاص. پس از بلوغ، این فناوری می تواند تولید ویدئو و ویرایش یک تکه کیک را ایجاد کند. تصور کنید که بتوانید پس‌زمینه‌ها، تصاویر متحرک و مسیرهای حرکت مستقیم را فقط با کشیدن یک خط در اینجا یا آنجا تغییر دهید.

علاقه مندان به هوش مصنوعی از این توسعه هیجان زده هستند و بسیاری آن را a جهش بزرگ در AI خلاق. با این حال، باید دید که مدل تحقیق در دنیای واقعی چگونه عمل می کند. مایکروسافت در آزمایشات خود مدعی شد که این مدل قادر به دستیابی به حرکات دقیق دوربین و حرکات اجسام با مسیرهای درگ متفاوت است.

“اول، DragNUWA از مسیرهای منحنی پیچیده پشتیبانی می کند، که امکان تولید اشیاء در حال حرکت در طول مسیر پیچیده خاص را فراهم می کند. ثانیا، DragNUWA طول مسیرهای متغیر را با مسیرهای طولانی تر که منجر به دامنه حرکت بزرگتر می شود، امکان پذیر می کند. در نهایت، DragNUWA توانایی کنترل همزمان مسیرها را دارد. تا جایی که ما می دانیم، هیچ مدل تولید ویدیوی موجود به طور موثر چنین قابلیت کنترل مسیری را به دست نیاورده است، که پتانسیل قابل توجه DragNUWA برای پیشبرد تولید ویدیوی قابل کنترل در برنامه های آینده را برجسته می کند.” کاغذ.

این کار به کوه رو به رشد تحقیقات در فضای ویدیویی هوش مصنوعی می افزاید. اخیراً، آزمایشگاه پیکا تیتر خبرها شده است باز کردن دسترسی به رابط متن به ویدئو آن که درست مانند ChatGPT کار می کند و ویدیوهای کوتاه با کیفیت بالا با طیف وسیعی از سفارشی سازی های ارائه شده تولید می کند.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/microsoft-dragnuwa-pushes-the-bar-in-ai-video-with-trajectory-based-generation/

چه چیزی مایکروسافت DragNUWA را منحصر به فرد می کند؟

رویداد VB

منتشر شده در Hugging Face

دیدگاهتان را بنویسید لغو پاسخ