در ۱۰ ژانویه به رهبران سانفرانسیسکو بپیوندید تا یک شب منحصر به فرد شبکه، بینش و گفتگو داشته باشید. درخواست دعوت اینجا.
شرکتهای هوش مصنوعی در حال رقابت برای تسلط بر هنر تولید ویدیو هستند. طی چند ماه گذشته، چندین بازیکن در این فضا از جمله هوش مصنوعی پایداری و آزمایشگاه پیکا، مدل هایی را منتشر کرده اند که قادر به تولید فیلم در انواع مختلف با اعلان های متنی و تصویری هستند. ساخت آن کار مایکروسافت هوش مصنوعی مدلی را حذف کرده است که هدف آن کنترل دقیق تری بر تولید ویدیو است.
این پروژه که DragNUWA نام دارد، رویکردهای شناخته شده اعلان متن و تصویر را با تولید مبتنی بر مسیر تکمیل می کند. این به کاربران اجازه می دهد تا اشیا یا کل فریم های ویدئویی را با مسیرهای خاص دستکاری کنند. این یک راه آسان برای دستیابی به تولید ویدیوی بسیار قابل کنترل از جنبه های معنایی، مکانی و زمانی – در حالی که از خروجی با کیفیت بالا در همان زمان تضمین می کند، می دهد.
مایکروسافت دارد اوزان مدل را منبع باز کرد و نسخه ی نمایشی برای این پروژه، به جامعه اجازه می دهد آن را امتحان کند. با این حال، توجه به این نکته مهم است که این هنوز یک تلاش تحقیقاتی است و هنوز کامل نیست.
چه چیزی مایکروسافت DragNUWA را منحصر به فرد می کند؟
از لحاظ تاریخی، تولید ویدئو مبتنی بر هوش مصنوعی حول محور ورودیهای متن، تصویر یا مسیر حرکت میکرده است. کار بسیار خوب بوده است، اما هر رویکرد برای ارائه کنترل دقیق بر خروجی مورد نظر تلاش کرده است.
به عنوان مثال، ترکیب متن و تصاویر به تنهایی نمی تواند جزئیات حرکت پیچیده موجود در یک ویدیو را منتقل کند. در همین حال، تصاویر و مسیرها ممکن است به اندازه کافی اشیاء آینده را نشان ندهند و مسیرها و زبان ممکن است هنگام بیان مفاهیم انتزاعی منجر به ابهام شود. یک مثال می تواند عدم تمایز بین یک ماهی واقعی و یک نقاشی از یک ماهی باشد.
برای حل این مشکل، در آگوست ۲۰۲۳، تیم هوش مصنوعی مایکروسافت پیشنهاد شده DragNUWA، یک مدل تولید ویدیو مبتنی بر انتشار دامنه باز است که هر سه عامل – تصاویر، متن و مسیر را – برای تسهیل تولید ویدیوی بسیار قابل کنترل از جنبههای معنایی، مکانی و زمانی گرد هم میآورد. این به کاربر اجازه میدهد متن، تصویر و مسیر مورد نظر را در ورودی برای کنترل جنبههایی مانند حرکات دوربین، از جمله جلوههای بزرگنمایی یا کوچکنمایی، یا حرکت شی در ویدیوی خروجی، بهطور دقیق تعریف کند.
به عنوان مثال، می توان تصویر یک قایق را در یک بدنه آب آپلود کرد و یک پیام متنی “قایق در حال حرکت در دریاچه” و همچنین مسیرهایی که مسیر قایق را مشخص می کند، اضافه کرد. این باعث می شود که یک ویدیو از حرکت قایق در جهت مشخص شده ایجاد شود و نتیجه دلخواه را به همراه داشته باشد. مسیر جزئیات حرکت را ارائه می دهد، زبان جزئیات اشیاء آینده را ارائه می دهد و تصاویر تمایز بین اشیاء را اضافه می کنند.
![](https://venturebeat.com/wp-content/uploads/2024/01/Figure1.gif?w=800&resize=1732%2C642&strip=all)
منتشر شده در Hugging Face
در نسخه اولیه ۱٫۵ DragNUWA که به تازگی در Hugging Face منتشر شده است، مایکروسافت از ثبات هوش مصنوعی بهره برده است. انتشار ویدئوی پایدار مدلی برای متحرک کردن یک تصویر یا شیء آن با توجه به یک مسیر خاص. پس از بلوغ، این فناوری می تواند تولید ویدئو و ویرایش یک تکه کیک را ایجاد کند. تصور کنید که بتوانید پسزمینهها، تصاویر متحرک و مسیرهای حرکت مستقیم را فقط با کشیدن یک خط در اینجا یا آنجا تغییر دهید.
علاقه مندان به هوش مصنوعی از این توسعه هیجان زده هستند و بسیاری آن را a جهش بزرگ در AI خلاق. با این حال، باید دید که مدل تحقیق در دنیای واقعی چگونه عمل می کند. مایکروسافت در آزمایشات خود مدعی شد که این مدل قادر به دستیابی به حرکات دقیق دوربین و حرکات اجسام با مسیرهای درگ متفاوت است.
“اول، DragNUWA از مسیرهای منحنی پیچیده پشتیبانی می کند، که امکان تولید اشیاء در حال حرکت در طول مسیر پیچیده خاص را فراهم می کند. ثانیا، DragNUWA طول مسیرهای متغیر را با مسیرهای طولانی تر که منجر به دامنه حرکت بزرگتر می شود، امکان پذیر می کند. در نهایت، DragNUWA توانایی کنترل همزمان مسیرها را دارد. تا جایی که ما می دانیم، هیچ مدل تولید ویدیوی موجود به طور موثر چنین قابلیت کنترل مسیری را به دست نیاورده است، که پتانسیل قابل توجه DragNUWA برای پیشبرد تولید ویدیوی قابل کنترل در برنامه های آینده را برجسته می کند.” کاغذ.
این کار به کوه رو به رشد تحقیقات در فضای ویدیویی هوش مصنوعی می افزاید. اخیراً، آزمایشگاه پیکا تیتر خبرها شده است باز کردن دسترسی به رابط متن به ویدئو آن که درست مانند ChatGPT کار می کند و ویدیوهای کوتاه با کیفیت بالا با طیف وسیعی از سفارشی سازی های ارائه شده تولید می کند.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/microsoft-dragnuwa-pushes-the-bar-in-ai-video-with-trajectory-based-generation/