اجرای هزاران LLM روی یک GPU اکنون با S-LoRA امکان پذیر است

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. در ۱۵ نوامبر از رهبران برتر صنعت بشنوید. پاس رایگان خود را رزرو کنید


تنظیم دقیق مدل‌های زبان بزرگ (LLM) به ابزار مهمی برای کسب‌وکارهایی تبدیل شده است که به دنبال تطبیق قابلیت‌های هوش مصنوعی برای انجام وظایف خاص و تجربیات کاربر شخصی‌شده هستند. اما تنظیم دقیق معمولاً با سربار محاسباتی و مالی همراه است و استفاده از آن را برای شرکت‌هایی با منابع محدود محدود نگه می‌دارد.

برای حل این چالش‌ها، محققان الگوریتم‌ها و تکنیک‌هایی ایجاد کرده‌اند که هزینه‌های تنظیم دقیق LLM و اجرای مدل‌های تنظیم‌شده را کاهش می‌دهد. جدیدترین این تکنیک ها است S-LoRAتلاش مشترک بین محققان دانشگاه استنفورد و دانشگاه کالیفرنیا-برکلی (UC Berkeley).

S-LoRA به طور چشمگیری هزینه های مربوط به استقرار LLM های تنظیم شده را کاهش می دهد، که شرکت ها را قادر می سازد صدها یا حتی هزاران مدل را بر روی یک واحد پردازش گرافیکی واحد (GPU) اجرا کنند. این می تواند به باز کردن بسیاری از برنامه های جدید LLM کمک کند که قبلاً بسیار پرهزینه بودند یا به سرمایه گذاری های کلان در منابع محاسباتی نیاز داشتند.

سازگاری با رتبه پایین

رویکرد کلاسیک برای تنظیم دقیق LLM ها شامل بازآموزی یک مدل از پیش آموزش دیده با نمونه های جدید متناسب با یک کار پایین دستی خاص و تنظیم تمام پارامترهای مدل است. با توجه به اینکه LLM ها معمولاً دارای میلیاردها پارامتر هستند، این روش نیازمند منابع محاسباتی قابل توجهی است.

رویداد VB

هوش مصنوعی آزاد شد

AI Unleashed در ۱۵ نوامبر را از دست ندهید! این رویداد مجازی بینش‌های انحصاری و بهترین شیوه‌های رهبران داده از جمله Albertsons، Intuit و غیره را به نمایش می‌گذارد.

در اینجا به صورت رایگان ثبت نام کنید

تکنیک‌های تنظیم دقیق پارامتری (PEFT) با اجتناب از تنظیم همه وزن‌ها در طول تنظیم دقیق، این هزینه‌ها را دور می‌زنند. یک روش قابل توجه PEFT است سازگاری با رتبه پایین (LoRA)، یک تکنیک توسعه یافته توسط مایکروسافت، که حداقل زیرمجموعه ای از پارامترها را در LLM اساسی شناسایی می کند که برای تنظیم دقیق کار جدید کافی هستند.

قابل توجه است، LoRA می تواند تعداد پارامترهای قابل آموزش را با چندین مرتبه قدر کاهش دهد و در عین حال سطوح دقت را همتراز با آنچه از طریق تنظیم دقیق کامل پارامتر به دست می آید حفظ کند. این به طور قابل توجهی حافظه و محاسبات مورد نیاز برای سفارشی کردن مدل را کاهش می دهد.

کارایی و اثربخشی LoRA منجر به پذیرش گسترده آن در جامعه هوش مصنوعی شده است. آداپتورهای LoRA متعددی برای LLM های از پیش آموزش دیده و مدل های انتشار ساخته شده اند.

می توانید وزنه های LoRA را پس از تنظیم دقیق با پایه LLM ادغام کنید. با این حال، یک روش جایگزین شامل حفظ وزن های LoRA به عنوان اجزای جداگانه است که در طول استنتاج به مدل اصلی متصل می شوند. این رویکرد ماژولار به شرکت‌ها اجازه می‌دهد تا چندین آداپتور LoRA را نگهداری کنند، که هر کدام یک نوع مدل با تنظیم دقیق را نشان می‌دهند، در حالی که در مجموع تنها کسری از حافظه مدل اصلی را اشغال می‌کنند.

کاربردهای بالقوه این روش بسیار گسترده است، از تولید محتوا تا خدمات مشتری را شامل می‌شود، و این امکان را برای کسب‌وکارها فراهم می‌کند تا خدمات سفارشی مبتنی بر LLM را بدون متحمل شدن هزینه‌های گزاف ارائه دهند. به عنوان مثال، یک پلت فرم وبلاگ نویسی می تواند از این تکنیک برای ارائه LLM های تنظیم شده استفاده کند که می تواند با حداقل هزینه محتوا را با سبک نوشتاری هر نویسنده ایجاد کند.

آنچه S-LoRA ارائه می دهد

در حالی که استقرار چندین مدل LoRA بر روی یک LLM با پارامتر کامل یک مفهوم فریبنده است، چندین چالش فنی را در عمل معرفی می کند. نگرانی اصلی مدیریت حافظه است. پردازنده‌های گرافیکی حافظه محدودی دارند و تنها تعداد معینی از آداپتورها را می‌توان در هر زمان در کنار مدل پایه بارگذاری کرد. این امر به یک سیستم مدیریت حافظه بسیار کارآمد برای اطمینان از عملکرد روان نیاز دارد.

یکی دیگر از موانع، فرآیند دسته‌بندی است که توسط سرورهای LLM برای افزایش توان عملیاتی با مدیریت چندین درخواست به طور همزمان استفاده می‌شود. اندازه‌های مختلف آداپتورهای LoRA و محاسبات مجزای آن‌ها از مدل پایه، پیچیدگی‌هایی را ایجاد می‌کند که به طور بالقوه منجر به گلوگاه‌های حافظه و محاسباتی می‌شود که سرعت استنتاج را مختل می‌کند.

علاوه بر این، پیچیدگی ها با LLM های بزرگتر که نیاز به پردازش موازی چند GPU دارند، افزایش می یابد. ادغام وزن ها و محاسبات اضافی از آداپتورهای LoRA، چارچوب پردازش موازی را پیچیده می کند و راه حل های نوآورانه ای را برای حفظ کارایی می طلبد.

S-LoRA از مدیریت حافظه پویا برای تعویض آداپتورهای LoRA بین حافظه اصلی و GPU استفاده می کند

تکنیک جدید S-LoRA این چالش ها را از طریق چارچوبی که برای ارائه چندین مدل LoRA طراحی شده است، حل می کند. S-LoRA دارای یک سیستم مدیریت حافظه پویا است که وزن های LoRA را در حافظه اصلی بارگذاری می کند و به صورت خودکار آنها را بین حافظه GPU و RAM در صورت دریافت و دسته بندی درخواست ها منتقل می کند.

این سیستم همچنین یک مکانیسم «صفحه‌بندی یکپارچه» را معرفی می‌کند که به طور یکپارچه حافظه پنهان مدل پرس و جو و وزن‌های آداپتور را مدیریت می‌کند. این نوآوری به سرور اجازه می دهد تا صدها یا حتی هزاران پرس و جو دسته ای را بدون ایجاد مشکلات تکه تکه شدن حافظه که می تواند زمان پاسخگویی را افزایش دهد، پردازش کند.

S-LoRA دارای یک سیستم پیشرفته “موازی تانسور” است که برای سازگار نگه داشتن آداپتورهای LoRA با مدل‌های ترانسفورماتور بزرگ که روی چندین پردازنده گرافیکی کار می‌کنند، طراحی شده است.

این پیشرفت‌ها با هم، S-LoRA را قادر می‌سازد تا بسیاری از آداپتورهای LoRA را بر روی یک GPU واحد یا در چندین GPU ارائه دهد.

خدمت به هزاران LLM

محققان S-LoRA را با ارائه چندین نوع از آن ارزیابی کردند مدل لاما منبع باز از متا در تنظیمات مختلف GPU نتایج نشان داد که S-LoRA می تواند توان عملیاتی و کارایی حافظه را در مقیاس حفظ کند.

محک زدن در برابر کتابخانه تنظیم دقیق کارآمد پارامترها، Hugging Face PEFT، S-LoRA افزایش عملکرد قابل توجهی را به نمایش گذاشت و توان عملیاتی را تا ۳۰ برابر افزایش داد. در مقایسه با vLLM، یک سیستم سرویس دهی با توان عملیاتی بالا با پشتیبانی پایه LoRA، S-LoRA نه تنها توان عملیاتی را چهار برابر کرد، بلکه تعداد آداپتورهایی را که می‌توانستند به طور موازی با چندین مرتبه بزرگی ارائه شوند، افزایش داد.

یکی از برجسته ترین دستاوردهای S-LoRA توانایی آن در ارائه همزمان ۲۰۰۰ آداپتور در حالی که افزایش ناچیزی در سربار محاسباتی برای پردازش اضافی LoRA دارد.

یینگ شنگ، دانشجوی دکترا در استنفورد و یکی از نویسندگان مقاله، به VentureBeat گفت: “S-LoRA بیشتر توسط LLM های شخصی انگیزه می شود.” “یک ارائه دهنده خدمات ممکن است بخواهد به کاربران با همان مدل پایه اما آداپتورهای متفاوت برای هر کدام خدمات ارائه دهد. به عنوان مثال، آداپتورها را می توان با داده های تاریخچه کاربران تنظیم کرد.

تطبیق پذیری S-LoRA به سازگاری آن با یادگیری درون متنی گسترش می یابد. این به کاربر اجازه می‌دهد تا با یک آداپتور شخصی‌سازی‌شده سرویس شود و در عین حال پاسخ LLM را با افزودن داده‌های اخیر به عنوان زمینه افزایش می‌دهد.

شنگ افزود: «این می‌تواند مؤثرتر و کارآمدتر از تحریک درون متنی خالص باشد». “LoRA سازگاری فزاینده ای در صنایع دارد زیرا ارزان است. یا حتی برای یک کاربر، آنها می توانند انواع مختلفی را در خود جای دهند اما با هزینه ای مانند نگهداری یک مدل.”

کد S-LoRA اکنون است در GitHub قابل دسترسی است. محققان قصد دارند آن را در چارچوب های محبوب ارائه دهنده LLM ادغام کنند تا شرکت ها بتوانند به راحتی S-LoRA را در برنامه های خود بگنجانند.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/running-thousands-of-llms-on-one-gpu-is-now-possible-with-s-lora/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *