آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
چه زمانی ChatGPT بیش از یک سال پیش شروع به کار کرد، کاربران اینترنت یک دستیار هوش مصنوعی همیشه در دسترس برای چت و کار با آن دارند. وظایف روزمره آنها، از تولید محتوای زبان طبیعی (مانند مقاله) تا بررسی و تجزیه و تحلیل اطلاعات پیچیده را انجام می داد. در کوتاه ترین زمان، ظهور شهاب ربات چت توجه جهان را به فن آوری در قلب آن جلب کرد: سری GPT از مدل های زبان بزرگ (LLM).
به سرعت تا به امروز، LLM ها – سری GPT و دیگران – نیروی محرکه نه تنها وظایف خاص فردی، بلکه همچنین عملیات تجاری عظیم هستند. شرکت ها از API های مدل تجاری استفاده می کنند و پیشنهادات منبع باز برای خودکار کردن وظایف تکراری و افزایش کارایی در عملکردهای کلیدی. تصور کنید که با هوش مصنوعی مکالمه میکنید تا کمپینهای تبلیغاتی برای تیمهای بازاریابی ایجاد کنید یا بتوانید عملیات پشتیبانی مشتری را با قرار دادن پایگاه داده مناسب در زمان مناسب تسریع کنید.
تأثیر آن عمیق بوده است. با این حال، یکی از زمینههایی که نقش LLM آنچنان مورد بحث قرار نمیگیرد، پشته دادههای مدرن است.
LLM ها پشته داده را تبدیل می کنند
داده ها کلید مدل های زبان بزرگ با کارایی بالا هستند. وقتی این مدلها به درستی آموزش داده شوند، میتوانند به تیمها کمک کنند تا با دادههایشان کار کنند – چه در حال آزمایش با آنها یا اجرای تجزیه و تحلیل پیچیده.
در واقع، در طول سال گذشته، با رشد ChatGPT و ابزارهای رقیب، شرکتهایی که ابزارهای داده را برای کسبوکارها ارائه میکردند، هوش مصنوعی مولد را در جریان کاری خود حلقه کردند تا کار را برای مشتریان خود آسانتر کنند. ایده ساده بود: از قدرت مدلهای زبان استفاده کنید تا مشتریان نهایی نه تنها تجربه بهتری در هنگام مدیریت دادهها داشته باشند، بلکه بتوانند در زمان و منابع نیز صرفهجویی کنند – که در نهایت به آنها کمک میکند تا روی کارهای مهمتر دیگر تمرکز کنند.
اولین (و احتمالاً مهمترین) تغییر در LLM زمانی رخ داد که فروشندگان شروع به استفاده از قابلیتهای پرس و جوی محاورهای کردند – یعنی دریافت پاسخ از دادههای ساختیافته (دادههای متناسب با ردیفها و ستونها) با صحبت کردن با آن. این کار دردسر نوشتن پرس و جوهای پیچیده SQL (زبان پرس و جوی ساختاریافته) را از بین برد و به تیم ها، از جمله کاربران غیر فنی، یک تجربه آسان برای استفاده از متن به SQL داد، جایی که می توانستند درخواست های زبان طبیعی را قرار دهند و از بینش خود مطلع شوند. داده ها. LLM مورد استفاده متن را به SQL تبدیل کرد و سپس پرس و جو را روی مجموعه داده مورد نظر برای تولید پاسخ اجرا کرد.
در حالی که بسیاری از فروشندگان این قابلیت را راه اندازی کرده اند، برخی از فروشندگان قابل توجه برای حرکت در این فضا عبارتند از Databricks، Snowflake، درامکینتیکا و ThoughtSpot. کینتیکا در ابتدا ضربه زده شد ChatGPT برای این کار اما اکنون از LLM بومی خود استفاده می کند. در همین حال، دانه برف دو ابزار ارائه می دهد. یکی، یک کوپیلوت که به عنوان یک دستیار مکالمه برای مواردی مانند پرسیدن سوالات در مورد داده ها به صورت متن ساده، نوشتن پرس و جوهای SQL، اصلاح پرس و جوها و فیلتر کردن بینش ها کار می کند. دومی یک ابزار هوش مصنوعی سند برای استخراج اطلاعات مرتبط از مجموعه داده های بدون ساختار مانند تصاویر و PDF است. Databricks نیز در این فضا با آنچه که LakehouseIQ نامیده می شود، کار می کند.
شایان ذکر است، چندین استارتاپ نیز در همین منطقه راه اندازی شده اند و دامنه تحلیل مبتنی بر هوش مصنوعی را هدف قرار داده اند. مستقر در کالیفرنیا DataGPTبرای مثال، یک تحلیلگر هوش مصنوعی اختصاصی برای شرکتها میفروشد، تحلیلگر هوش مصنوعی که هزاران پرسوجو را در حافظه پنهان ذخیره دادههای خود اجرا میکند و نتایج را با لحن مکالمه دریافت میکند.
کمک به مدیریت داده ها و تلاش های هوش مصنوعی
علاوه بر کمک به تیمها برای ایجاد بینش و پاسخ از دادههای خود از طریق ورودیهای متنی، LLMها همچنین مدیریت سنتی دستی دادهها و تلاشهای دادهای را که برای ساختن یک محصول هوش مصنوعی قوی ضروری هستند، مدیریت میکنند.
در ماه مه، ارائهدهنده ابر مدیریت داده هوشمند (IDMC) Informatica شروع به کار کرد کلر GPTیک ابزار هوش مصنوعی مکالمه مبتنی بر چند LLM است که به کاربران امکان می دهد دارایی های داده IDMC خود را با ورودی های زبان طبیعی کشف، تعامل و مدیریت کنند. چندین کار را در پلتفرم IDMC انجام می دهد، از جمله کشف داده، ایجاد و ویرایش خط لوله داده، کاوش ابرداده، کیفیت داده و کاوش روابط، و تولید قوانین کیفیت داده.
سپس، برای کمک به تیم ها در ساخت پیشنهادات هوش مصنوعی، مستقر در کالیفرنیا سوخت گیری هوش مصنوعی یک مدل زبان بزرگ و هدفمند ارائه می دهد که به برچسب گذاری داده ها و وظایف غنی سازی کمک می کند. آ کاغذ منتشر شده در اکتبر ۲۰۲۳ همچنین نشان می دهد که LLM ها می توانند کار خوبی در حذف نویز از مجموعه داده ها انجام دهند که این نیز گامی مهم در ساختن هوش مصنوعی قوی است.
حوزه های دیگر در مهندسی داده که در آن LLM ها می توانند وارد عمل شوند، یکپارچه سازی داده ها و هماهنگ سازی است. این مدلها اساساً میتوانند کد مورد نیاز برای هر دو جنبه را تولید کنند، خواه فرد باید انواع دادههای مختلف را به یک قالب مشترک تبدیل کند، به منابع دادههای مختلف متصل شود یا قالبهای کد YAML یا Python را برای ساخت DAGهای جریان هوا جستجو کند.
خیلی بیشتر در راه است
تنها یک سال است که LLM ها شروع به ایجاد موج کرده اند و ما در حال حاضر شاهد تغییرات زیادی در حوزه سازمانی هستیم. همانطور که این مدلها در سال ۲۰۲۴ بهبود مییابند و تیمها به نوآوری خود ادامه میدهند، ما شاهد کاربردهای بیشتری از مدلهای زبان در مناطق مختلف پشته دادههای سازمانی خواهیم بود، از جمله فضای در حال توسعه تدریجی مشاهدهپذیری دادهها.
مونت کارلو، یک فروشنده شناخته شده در این دسته، قبلاً Fix with AI را راه اندازی کرده است، ابزاری که مشکلات موجود در خط لوله داده را شناسایی کرده و کدی را برای رفع آنها پیشنهاد می کند. Acceldata، یکی دیگر از بازیکنان در فضا، نیز اخیرا Bewgle را به دست آورد تمرکز بر یکپارچه سازی LLM برای مشاهده پذیری داده ها.
با این حال، با ظهور این برنامهها، مهمتر از همیشه برای تیمها این خواهد بود که مطمئن شوند که این مدلهای زبان، چه از ابتدا ساخته شده باشند و چه بهطور دقیق، درست عمل کنند. یک خطای جزئی اینجا یا آنجا و نتیجه پایین دستی ممکن است تحت تأثیر قرار گیرد و منجر به تجربه مشتری خراب شود.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/data-infrastructure/how-llms-made-their-way-into-the-modern-data-stack-in-2023/