ابررایانه Eos NVIDIA به تازگی رکورد معیار آموزش هوش مصنوعی خود را شکست

بسته به سخت افزاری که استفاده می کنید، آموزش یک مدل زبان بزرگ با هر اندازه قابل توجهی ممکن است هفته ها، ماه ها و حتی سال ها طول بکشد. این راهی برای انجام تجارت نیست – هیچ کس برق و زمان کافی برای انتظار طولانی را ندارد. روز چهارشنبه، انویدیا از جدیدترین نسخه ابررایانه Eos خود رونمایی کرد، نسخه ای که با بیش از ۱۰۰۰۰ پردازنده گرافیکی H100 Tensor Core قدرت می گیرد و می تواند یک مدل GPT-3 با ۱۷۵ میلیارد پارامتر را در ۱ میلیارد توکن در کمتر از چهار دقیقه آموزش دهد. این سه برابر سریع‌تر از معیار قبلی است استاندارد صنعت MLPerf AIکه NVIDIA درست شش ماه پیش تنظیم کرد.

Eos نشان دهنده حجم عظیمی از محاسبات است. از ۱۰۷۵۲ پردازنده گرافیکی استفاده می کند که با استفاده از آن به هم متصل شده اند شبکه Infiniband NVIDIA (حرکت یک پتابایت داده در ثانیه) و ۸۶۰ ترابایت حافظه با پهنای باند بالا (پهنای باند مجموع ۳۶PB/sc و ۱٫۱PB ثانیه متصل به هم) برای تحویل ۴۰ اگزافلاپس قدرت پردازش هوش مصنوعی کل معماری ابر از ۱۳۴۴ گره تشکیل شده است – سرورهای فردی که شرکت‌ها می‌توانند با پرداخت حدود ۳۷۰۰۰ دلار در ماه به آنها دسترسی داشته باشند تا قابلیت‌های هوش مصنوعی خود را بدون ایجاد زیرساخت‌های خود گسترش دهند.

در مجموع، انویدیا شش رکورد را در ۹ تست بنچمارک ثبت کرد: بریدگی ۳٫۹ دقیقه برای GPT-3، یک علامت ۲٫۵ دقیقه برای آموزش یک مدل Stable Diffusion با استفاده از ۱۰۲۴ پردازنده گرافیکی Hopper.، یک دقیقه حتی برای آموزش DLRM، ۵۵٫۲ ثانیه برای RetinaNet، ۴۶ ثانیه برای ۳D U-Net و مدل BERT-Large تنها به ۷٫۲ ثانیه برای آموزش نیاز دارد.

NVIDIA سریعاً متذکر شد که نسخه ۱۷۵ میلیارد پارامتری GPT-3 مورد استفاده در بنچمارک، تکرار مدل با اندازه کامل نیست (و مدل Stable Diffusion هم نبود). GPT-3 بزرگتر حدود ۳٫۷ تریلیون پارامتر را ارائه می دهد و برای استفاده به عنوان تست معیار بسیار بزرگ و غیرقابل تحمل است. برای مثال، آموزش آن بر روی سیستم قدیمی‌تر A100 با ۵۱۲ پردازنده گرافیکی ۱۸ ماه طول می‌کشد – هرچند، Eos فقط به هشت روز زمان نیاز دارد.

بنابراین، در عوض، NVIDIA و MLCommons، که استاندارد MLPerf را مدیریت می‌کنند، از نسخه فشرده‌تری استفاده می‌کنند که از ۱ میلیارد توکن (کوچک‌ترین واحد مخرج داده‌ای که سیستم‌های هوش مصنوعی مولد آن را درک می‌کنند) استفاده می‌کنند. این آزمایش از یک نسخه GPT-3 با همان تعداد سوئیچ بالقوه برای ورق زدن (در اندازه کامل (آن ۱۷۵ میلیارد پارامتر) استفاده می کند، فقط مجموعه داده های بسیار قابل مدیریت تری برای استفاده در آن (یک میلیارد توکن در مقابل ۳٫۷ تریلیون).

بهبود چشمگیر در عملکرد، از این واقعیت ناشی می‌شود که این دور اخیر آزمایش‌ها از ۱۰۷۵۲ پردازنده گرافیکی H100 در مقایسه با ۳۵۸۴ پردازنده گرافیکی Hopper استفاده کرده است. این شرکت در آزمایش‌های معیارسنجی ژوئن استفاده کرد. با این حال انویدیا توضیح می دهد که علیرغم سه برابر کردن تعداد پردازنده های گرافیکی، توانسته است مقیاس ۲٫۸ برابری را در عملکرد حفظ کند – نرخ بازدهی ۹۳ درصدی – از طریق استفاده سخاوتمندانه از بهینه سازی نرم افزار.

"جرم گیری چیز شگفت انگیزی است،" سالواتور گفت."اما با مقیاس بندی، شما در مورد زیرساخت های بیشتر صحبت می کنید، که می تواند به معنای چیزهایی مانند هزینه بیشتر نیز باشد. افزایش مقیاس کارآمد به این معنی است که کاربران هستند "بهترین استفاده را از زیرساخت های خود بکنید تا اساساً بتوانید کار خود را به سرعت انجام دهید [as possible] و بیشترین سود را از سرمایه گذاری که سازمان شما انجام داده است به دست آورید."

سازنده تراشه در تلاش های توسعه خود تنها نبود. تیم Azure مایکروسافت یک سیستم گرافیکی مشابه ۱۰۷۵۲ H100 را برای این دور از بنچمارک ارائه کرد و در عرض دو درصد از NVIDIA به نتایج دست یافت.

"[The Azure team have] توانسته به عملکردی برابر با ابرکامپیوتر Eos دست یابد،" دیو سالواتور، مدیر محصولات محاسباتی شتابی در انویدیا، در یک جلسه مقدماتی سه شنبه به خبرنگاران گفت. دیگه چی "آنها از Infiniband استفاده می کنند، اما این یک نمونه تجاری در دسترس است. این سیستم آزمایشگاهی دست نخورده ای نیست که هرگز مشتریان واقعی آن را نخواهند دید. این نمونه واقعی است که Azure در اختیار مشتریان خود قرار می دهد."

انویدیا قصد دارد از این توانایی‌های محاسباتی توسعه‌یافته برای کارهای مختلف، از جمله کار مداوم این شرکت در توسعه مدل‌های پایه، طراحی GPU با کمک هوش مصنوعی، رندرینگ عصبی، هوش مصنوعی مولد چندوجهی و سیستم‌های رانندگی خودکار استفاده کند.

"هر معیار خوبی که به دنبال حفظ ارتباط خود با بازار است، باید به طور مداوم بار کاری را که قرار است به سخت افزار وارد می کند، به روز کند تا بازاری را که می خواهد به آن خدمت کند، به بهترین شکل منعکس کند." سالواتور گفت، و اشاره کرد که MLCommons اخیراً یک معیار اضافی برای آزمایش عملکرد مدل در وظایف Stable Diffusion اضافه کرده است. "این یکی دیگر از حوزه‌های هیجان‌انگیز هوش مصنوعی مولد است که در آن شاهد ایجاد انواع چیزها هستیم" – از کد برنامه نویسی تا کشف زنجیره های پروتئینی.

این معیارها مهم هستند زیرا همانطور که سالواتور اشاره می کند، وضعیت فعلی بازاریابی هوش مصنوعی مولد می تواند کمی بد باشد. "غرب وحشی." فقدان نظارت و مقررات دقیق به این معنی است که "ما گاهی اوقات در مورد برخی از ادعاهای عملکرد هوش مصنوعی می بینیم که در مورد تمام پارامترهایی که برای ایجاد آن ادعاهای خاص کاملاً مطمئن نیستید." MLPerf این اطمینان حرفه ای را ارائه می دهد که اعداد معیار شرکت ها با استفاده از آزمایش های آن تولید می کنند "بررسی، بررسی و در برخی موارد حتی توسط سایر اعضای کنسرسیوم به چالش کشیده شده یا مورد سوال قرار گرفتند،" سالواتور گفت. "این همان نوع فرآیند بررسی همتا است که واقعاً به این نتایج اعتبار می بخشد."

NVIDIA در ماه های اخیر به طور پیوسته بر قابلیت ها و برنامه های هوش مصنوعی خود تمرکز کرده است. "ما در لحظه آیفون برای هوش مصنوعی هستیم،" مدیر عامل جنسن هوانگ در جریان سخنرانی GTC خود در ماه مارس گفت. در آن زمان، شرکت سیستم ابری DGX خود را معرفی کرد که بخش‌هایی از قدرت پردازش ابرکامپیوتر را به‌ویژه با هشت تراشه H100 یا A100 با ۶۰ گیگابایت VRAM (در کل ۶۴۰ حافظه) تقسیم می‌کند. این شرکت مجموعه ابر رایانه های خود را با انتشار DGX GH200 در کامپیوتکس در ماه می.

این مقاله در ابتدا در Engadget در https://www.engadget.com/nvidias-eos-supercomputer-just-broke-its-own-ai-training-benchmark-record-170042546.html?src=rss ظاهر شد

منبع: https://www.engadget.com/nvidias-eos-supercomputer-just-broke-its-own-ai-training-benchmark-record-170042546.html?src=rss

دیدگاهتان را بنویسید لغو پاسخ