آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
Google DeepMind بی سر و صدا پیشرفت قابل توجهی در هوش مصنوعی خود نشان دادند (هوش مصنوعیتحقیق در روز سهشنبه، ارائه یک مدل اتورگرسیو جدید با هدف بهبود درک ورودیهای ویدیوی طولانی.
مدل جدید، به نامMirasol3B“رویکردی پیشگامانه برای یادگیری چندوجهی، پردازش داده های صوتی، تصویری و متنی به شیوه ای یکپارچه تر و کارآمدتر نشان می دهد.
به گفته آیزاک نوبل، مهندس نرمافزار در Google Research، و آنلیا آنجلوا، دانشمند پژوهشی در Google DeepMind، که همکاری طولانیای را نوشتند. پست وبلاگ در مورد تحقیقات آنها، چالش ساخت مدل های چندوجهی در ناهمگونی روش ها نهفته است.
آنها توضیح می دهند: “برخی از روش ها ممکن است در زمان به خوبی هماهنگ شوند (مانند صدا، ویدئو) اما با متن هماهنگ نباشند.” “علاوه بر این، حجم زیاد داده در سیگنال های ویدئویی و صوتی بسیار بیشتر از متن است، بنابراین هنگام ترکیب آنها در مدل های چندوجهی، ویدئو و صدا اغلب نمی توانند به طور کامل مصرف شوند و نیاز به فشرده سازی نامتناسب دارند. این مشکل برای مدت طولانی تری تشدید می شود. ورودی های ویدئویی
رویکردی جدید برای یادگیری چندوجهی
در پاسخ به این پیچیدگی، مدل Mirasol3B گوگل مدلسازی چندوجهی را به مدلهای خودبازگشت متمرکز جداگانه جدا میکند و ورودیها را بر اساس ویژگیهای مدالیته پردازش میکند.
«مدل ما شامل یک مؤلفه اتورگرسیو برای روشهای همگامسازی زمانی (صوتی و ویدیویی) و یک مؤلفه اتورگرسیو جداگانه برای مدالیتههایی است که لزوماً تراز زمانی نیستند، اما همچنان متوالی هستند، به عنوان مثال، ورودیهای متن، مانند عنوان یا توضیحات، نوبل و آنجلوا توضیح می دهند.
این اعلامیه در زمانی است که صنعت فناوری در تلاش است تا از قدرت هوش مصنوعی برای تجزیه و تحلیل و درک مقادیر زیادی از داده ها در قالب های مختلف استفاده کند. Mirasol3B گوگل نشان دهنده یک گام مهم رو به جلو در این تلاش است و امکانات جدیدی را برای برنامه هایی مانند پاسخگویی به سوالات ویدیویی و تضمین کیفیت ویدیوی طولانی باز می کند.
برنامه های کاربردی بالقوه برای YouTube
یکی از کاربردهای احتمالی مدلی که گوگل ممکن است بررسی کند، استفاده از آن در یوتیوب است که بزرگترین پلتفرم ویدیوی آنلاین جهان و یکی از پلتفرم های این شرکت است. منابع اصلی درآمد.
این مدل از نظر تئوری میتواند برای افزایش تجربه و تعامل کاربر با ارائه ویژگیها و قابلیتهای چندوجهیتر، مانند ایجاد شرح و خلاصه برای ویدیوها، پاسخ دادن به سؤالات و ارائه بازخورد، ایجاد توصیهها و تبلیغات شخصیسازیشده، و امکان ایجاد و ویرایش کاربران برای ایجاد و ویرایش مورد استفاده قرار گیرد. ویدیوهای خود را با استفاده از ورودی ها و خروجی های چندوجهی.
برای مثال، این مدل میتواند برای ویدیوها بر اساس محتوای صوتی و تصویری زیرنویسها و خلاصههایی تولید کند و به کاربران اجازه دهد ویدیوها را بر اساس کلمات کلیدی، موضوعات یا احساسات جستجو و فیلتر کنند. این میتواند دسترسی و قابلیت کشف ویدیوها را بهبود بخشد و به کاربران کمک کند محتوای مورد نظر خود را راحتتر و سریعتر پیدا کنند.
این مدل همچنین میتواند از نظر تئوری برای پاسخ به سؤالات و ارائه بازخورد برای کاربران بر اساس محتوای ویدیویی استفاده شود، مانند توضیح معنای یک اصطلاح، ارائه اطلاعات یا منابع اضافی، یا پیشنهاد ویدیوها یا لیستهای پخش مرتبط.
واکنشی متفاوت از سوی جامعه هوش مصنوعی
این اعلامیه علاقه و هیجان زیادی را در جامعه هوش مصنوعی ایجاد کرده است و همچنین شک و انتقادهایی را نیز به همراه داشته است. برخی از کارشناسان این مدل را به دلیل تطبیق پذیری و مقیاس پذیری آن تحسین کرده اند و نسبت به کاربردهای بالقوه آن در حوزه های مختلف ابراز امیدواری کرده اند.
به عنوان مثال، لئو ترونچون، مهندس تحقیقات ML در Hugging Face، توییت کرد: “بسیار جالب است که مدلهایی مانند Mirasol را با مدالیتههای بیشتری مشاهده کنید. هنوز مدلهای قوی زیادی در فضای باز با استفاده از صدا و تصویر وجود ندارد. وجود آن در حالت بسیار مفید خواهد بود. [Hugging Face]”
گوتام شاردا، دانشجوی علوم کامپیوتر در دانشگاه آیووا، توییت کرد: “به نظر می رسد هیچ کد، وزن مدل، داده های آموزشی یا حتی یک API وجود ندارد. چرا که نه؟ من دوست دارم آنها واقعا چیزی فراتر از یک مقاله تحقیقاتی منتشر کنند؟
یک نقطه عطف مهم برای آینده هوش مصنوعی
این اعلامیه نقطه عطف مهمی در زمینه هوش مصنوعی و یادگیری ماشینی است و جاهطلبی و رهبری گوگل را در توسعه فناوریهای پیشرفته که میتوانند زندگی انسانها را بهبود بخشیده و متحول کنند، نشان میدهد.
با این حال، چالش و فرصتی برای محققان، توسعهدهندگان، تنظیمکنندهها و کاربران هوش مصنوعی نیز ایجاد میکند که باید اطمینان حاصل کنند که مدل و کاربردهای آن با ارزشها و استانداردهای اخلاقی، اجتماعی و زیستمحیطی جامعه همسو هستند. .
از آنجایی که جهان چندوجهیتر و به هم پیوستهتر میشود، پرورش فرهنگ همکاری، نوآوری و مسئولیتپذیری در میان ذینفعان و عموم مردم و ایجاد یک اکوسیستم هوش مصنوعی فراگیرتر و متنوعتر که بتواند برای همه مفید باشد ضروری است.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/google-deepmind-breaks-new-ground-with-mirasol3b-for-advanced-video-analysis/