گوگل خود را در موقعیتی قرار می دهد که می تواند سلطه OpenAI بر هوش مصنوعی را به چالش بکشد.
گوگل جدیدترین مدل هوش مصنوعی خود Lumiere را معرفی کرده است، ابزاری برای تولید ویدئو چندوجهی که قادر به تولید ویدئوهای واقعی ۵ ثانیهای است.
Lumiere با استفاده از معماری Space-Time U-Net (STUNet) برای افزایش واقع گرایی حرکت در ویدیوهای تولید شده با هوش مصنوعی، از تولید متن به ویدیو و تصویر به ویدیو پشتیبانی می کند.
برخلاف مدلهای موجود مانند Runway Gen-2 و Pika 1.0، Lumiere هنوز عمومی نشده است.
بر اساس یک مقاله پیشچاپ همراه با انتشار، نوآوری Lumiere در تولید کل ویدیو در یک فرآیند واحد به جای ترکیب فریمهای ثابت نهفته است.
این رویکرد امکان ایجاد همزمان هر دو جنبه مکانی (اشیاء در ویدیو) و زمانی (حرکت در ویدیو) را فراهم می کند و در نتیجه درک طبیعی تری از حرکت ایجاد می کند.
Lumiere در مقایسه با ۲۵ فریم Stable Diffusion، ۸۰ فریم تولید میکند، که از نمونهبرداری پایین و بالا مکانی و زمانی استفاده میکند و از یک مدل انتشار متن به تصویر از پیش آموزش دیده استفاده میکند.
اگرچه Lumiere برای آزمایش در دسترس نیست، وبسایت آن ویدیوهای مختلفی را که با استفاده از مدل هوش مصنوعی ایجاد شدهاند، به همراه پیامهای متنی و تصاویر ورودی مربوطه به نمایش میگذارد.
این ابزار میتواند فیلمهایی را در سبکهای مختلف تولید کند، سینماگرافهایی را برای متحرک کردن قسمتهای ویدیویی خاص ایجاد کند، و با تکمیل ویدیوها یا تصاویر پوشانده شده بر اساس درخواستها، نقاشی داخلی را انجام دهد.
Lumiere گوگل با مدل های موجود هوش مصنوعی مانند Runway Gen-2 (راه اندازی شده در مارس ۲۰۲۳) و Pika Lab Pika 1.0 رقابت می کند که هر دو در دسترس عموم هستند.
در حالی که Pika می تواند ویدیوهای ۳ ثانیه ای ایجاد کند (قابل تمدید تا ۴ ثانیه دیگر)، Runway می تواند ویدیوهایی تا ۴ ثانیه تولید کند. هر دو مدل قابلیت های چند وجهی را ارائه می دهند و از ویرایش ویدیو پشتیبانی می کنند.
(با ورودی های نمایندگی ها)
منبع: https://www.firstpost.com/tech/googles-openai-killer-lumiere-multimodal-ai-unveiled-can-create-5-second-videos-from-text-images-13670292.html