Google DeepMind با «Mirasol3B» برای تجزیه و تحلیل ویدیوی پیشرفته، زمینه جدیدی را ایجاد می کند

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.

Google DeepMind بی سر و صدا پیشرفت قابل توجهی در هوش مصنوعی خود نشان دادند (هوش مصنوعیتحقیق در روز سه‌شنبه، ارائه یک مدل اتورگرسیو جدید با هدف بهبود درک ورودی‌های ویدیوی طولانی.

مدل جدید، به نامMirasol3B“رویکردی پیشگامانه برای یادگیری چندوجهی، پردازش داده های صوتی، تصویری و متنی به شیوه ای یکپارچه تر و کارآمدتر نشان می دهد.

به گفته آیزاک نوبل، مهندس نرم‌افزار در Google Research، و آنلیا آنجلوا، دانشمند پژوهشی در Google DeepMind، که همکاری طولانی‌ای را نوشتند. پست وبلاگ در مورد تحقیقات آنها، چالش ساخت مدل های چندوجهی در ناهمگونی روش ها نهفته است.

آنها توضیح می دهند: “برخی از روش ها ممکن است در زمان به خوبی هماهنگ شوند (مانند صدا، ویدئو) اما با متن هماهنگ نباشند.” “علاوه بر این، حجم زیاد داده در سیگنال های ویدئویی و صوتی بسیار بیشتر از متن است، بنابراین هنگام ترکیب آنها در مدل های چندوجهی، ویدئو و صدا اغلب نمی توانند به طور کامل مصرف شوند و نیاز به فشرده سازی نامتناسب دارند. این مشکل برای مدت طولانی تری تشدید می شود. ورودی های ویدئویی

رویداد VB

تور تاثیر هوش مصنوعی

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

رویکردی جدید برای یادگیری چندوجهی

در پاسخ به این پیچیدگی، مدل Mirasol3B گوگل مدل‌سازی چندوجهی را به مدل‌های خودبازگشت متمرکز جداگانه جدا می‌کند و ورودی‌ها را بر اساس ویژگی‌های مدالیته پردازش می‌کند.

«مدل ما شامل یک مؤلفه اتورگرسیو برای روش‌های همگام‌سازی زمانی (صوتی و ویدیویی) و یک مؤلفه اتورگرسیو جداگانه برای مدالیته‌هایی است که لزوماً تراز زمانی نیستند، اما همچنان متوالی هستند، به عنوان مثال، ورودی‌های متن، مانند عنوان یا توضیحات، نوبل و آنجلوا توضیح می دهند.

این اعلامیه در زمانی است که صنعت فناوری در تلاش است تا از قدرت هوش مصنوعی برای تجزیه و تحلیل و درک مقادیر زیادی از داده ها در قالب های مختلف استفاده کند. Mirasol3B گوگل نشان دهنده یک گام مهم رو به جلو در این تلاش است و امکانات جدیدی را برای برنامه هایی مانند پاسخگویی به سوالات ویدیویی و تضمین کیفیت ویدیوی طولانی باز می کند.

برنامه های کاربردی بالقوه برای YouTube

یکی از کاربردهای احتمالی مدلی که گوگل ممکن است بررسی کند، استفاده از آن در یوتیوب است که بزرگترین پلتفرم ویدیوی آنلاین جهان و یکی از پلتفرم های این شرکت است. منابع اصلی درآمد.

این مدل از نظر تئوری می‌تواند برای افزایش تجربه و تعامل کاربر با ارائه ویژگی‌ها و قابلیت‌های چندوجهی‌تر، مانند ایجاد شرح و خلاصه برای ویدیوها، پاسخ دادن به سؤالات و ارائه بازخورد، ایجاد توصیه‌ها و تبلیغات شخصی‌سازی‌شده، و امکان ایجاد و ویرایش کاربران برای ایجاد و ویرایش مورد استفاده قرار گیرد. ویدیوهای خود را با استفاده از ورودی ها و خروجی های چندوجهی.

برای مثال، این مدل می‌تواند برای ویدیوها بر اساس محتوای صوتی و تصویری زیرنویس‌ها و خلاصه‌هایی تولید کند و به کاربران اجازه دهد ویدیوها را بر اساس کلمات کلیدی، موضوعات یا احساسات جستجو و فیلتر کنند. این می‌تواند دسترسی و قابلیت کشف ویدیوها را بهبود بخشد و به کاربران کمک کند محتوای مورد نظر خود را راحت‌تر و سریع‌تر پیدا کنند.

این مدل همچنین می‌تواند از نظر تئوری برای پاسخ به سؤالات و ارائه بازخورد برای کاربران بر اساس محتوای ویدیویی استفاده شود، مانند توضیح معنای یک اصطلاح، ارائه اطلاعات یا منابع اضافی، یا پیشنهاد ویدیوها یا لیست‌های پخش مرتبط.

واکنشی متفاوت از سوی جامعه هوش مصنوعی

این اعلامیه علاقه و هیجان زیادی را در جامعه هوش مصنوعی ایجاد کرده است و همچنین شک و انتقادهایی را نیز به همراه داشته است. برخی از کارشناسان این مدل را به دلیل تطبیق پذیری و مقیاس پذیری آن تحسین کرده اند و نسبت به کاربردهای بالقوه آن در حوزه های مختلف ابراز امیدواری کرده اند.

به عنوان مثال، لئو ترونچون، مهندس تحقیقات ML در Hugging Face، توییت کرد: “بسیار جالب است که مدل‌هایی مانند Mirasol را با مدالیته‌های بیشتری مشاهده کنید. هنوز مدل‌های قوی زیادی در فضای باز با استفاده از صدا و تصویر وجود ندارد. وجود آن در حالت بسیار مفید خواهد بود. [Hugging Face]”

گوتام شاردا، دانشجوی علوم کامپیوتر در دانشگاه آیووا، توییت کرد: “به نظر می رسد هیچ کد، وزن مدل، داده های آموزشی یا حتی یک API وجود ندارد. چرا که نه؟ من دوست دارم آنها واقعا چیزی فراتر از یک مقاله تحقیقاتی منتشر کنند؟

یک نقطه عطف مهم برای آینده هوش مصنوعی

این اعلامیه نقطه عطف مهمی در زمینه هوش مصنوعی و یادگیری ماشینی است و جاه‌طلبی و رهبری گوگل را در توسعه فناوری‌های پیشرفته که می‌توانند زندگی انسان‌ها را بهبود بخشیده و متحول کنند، نشان می‌دهد.

با این حال، چالش و فرصتی برای محققان، توسعه‌دهندگان، تنظیم‌کننده‌ها و کاربران هوش مصنوعی نیز ایجاد می‌کند که باید اطمینان حاصل کنند که مدل و کاربردهای آن با ارزش‌ها و استانداردهای اخلاقی، اجتماعی و زیست‌محیطی جامعه همسو هستند. .

از آنجایی که جهان چندوجهی‌تر و به هم پیوسته‌تر می‌شود، پرورش فرهنگ همکاری، نوآوری و مسئولیت‌پذیری در میان ذینفعان و عموم مردم و ایجاد یک اکوسیستم هوش مصنوعی فراگیرتر و متنوع‌تر که بتواند برای همه مفید باشد ضروری است.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/google-deepmind-breaks-new-ground-with-mirasol3b-for-advanced-video-analysis/

رویداد VB

رویکردی جدید برای یادگیری چندوجهی

برنامه های کاربردی بالقوه برای YouTube

واکنشی متفاوت از سوی جامعه هوش مصنوعی

یک نقطه عطف مهم برای آینده هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ