رشد انفجاری در هوش مصنوعی در سالهای اخیر – که با افزایش شهابآمیز چترباتهای مولد هوش مصنوعی مانند ChatGPT همراه شده است – باعث شده است که این فناوری وظایف بسیاری را بر عهده بگیرد که قبلاً فقط ذهن انسان میتوانست از عهده آن برآید. اما علیرغم محاسبات زبانی روزافزونشان، این سیستمهای یادگیری ماشینی به طرز شگفتآوری در انجام انواع جهشهای شناختی و استنتاجهای منطقی که حتی یک نوجوان معمولی میتواند به طور مداوم به درستی انجام دهد، ناتوان هستند.
در این هفته ضربه زدن به کتاب ها استخراج کردن تاریخچه مختصری از هوش: تکامل، هوش مصنوعی و پنج پیشرفتی که مغز ما را ساختمکس بنت، کارآفرین هوش مصنوعی، با کاوش در توسعه ماشین آلی، شکاف چالش برانگیز در شایستگی کامپیوتر را بررسی می کند.
بنت با تمرکز بر پنج «پیشرفت» تکاملی، در میان بیشمار بنبستهای ژنتیکی و شاخههای ناموفق، که گونههای ما را به ذهنهای مدرن ما سوق داد، نشان میدهد که همان پیشرفتهایی که بشریت چندین سال طول کشید تا تکامل پیدا کند، میتواند برای کمک به توسعه هوش مصنوعی تطبیق داده شود. فناوری های فردا در گزیده زیر، نگاهی می اندازیم به این که چگونه سیستم های هوش مصنوعی مولد مانند GPT-3 ساخته شده اند تا عملکردهای پیش بینی کننده را تقلید کنند. نئوکورتکساما هنوز نمی تواند کاملا بر هوس های گفتار انسان چنگ بزنید.
برگرفته از تاریخچه مختصری از هوش: تکامل، هوش مصنوعی و پنج پیشرفتی که مغز ما را ساخت توسط مکس بنت منتشر شده توسط مارینر بوکز. حق چاپ © ۲۰۲۳ توسط مکس بنت. تمامی حقوق محفوظ است.
کلمات بدون دنیای درونی
GPT-3 کلمه به کلمه، جمله به جمله، پاراگراف پس از پاراگراف داده می شود. در طول این فرآیند طولانی آموزشی، سعی می کند کلمه بعدی را در هر یک از این جریان های طولانی کلمات پیش بینی کند. و با هر پیشبینی، وزن شبکه عصبی غولپیکر آن بسیار اندکی به سمت پاسخ درست هدایت میشود. این کار را چند بار نجومی انجام دهید و در نهایت GPT-3 می تواند به طور خودکار کلمه بعدی را بر اساس جمله یا پاراگراف قبلی پیش بینی کند. در اصل، این حداقل جنبه اساسی از نحوه عملکرد زبان در مغز انسان را نشان می دهد. در نظر بگیرید که پیش بینی نماد بعدی در عبارات زیر چقدر خودکار است:
-
یک به علاوه یک برابر است با _____
-
گل رز قرمز است، بنفشه _____ است
شما بارها جملات مشابهی را دیده اید، بنابراین دستگاه نئوکورتیکال شما به طور خودکار کلمه بعدی را پیش بینی می کند. با این حال، چیزی که GPT-3 را چشمگیر می کند این نیست که فقط کلمه بعدی از دنباله ای را که میلیون ها بار دیده است را پیش بینی می کند – که با چیزی جز حفظ جملات قابل انجام نیست. چیزی که قابل توجه است این است که می توان به GPT-3 اشاره کرد رمان دنباله ای که قبلاً ندیده است و هنوز کلمه بعدی را به دقت پیش بینی می کند. این نیز به وضوح چیزی را که مغز انسان می تواند _____ را به تصویر می کشد.
آیا می توانید پیش بینی کنید که کلمه بعدی بود انجام دادن? حدس میزنم میتوانی، حتی اگر قبلاً آن جمله را دقیقاً ندیده بودی. نکته این است که هم GPT-3 و هم نواحی نئوکورتیکال زبان به نظر می رسد درگیر پیش بینی هستند. هر دو میتوانند تجربیات گذشته را تعمیم دهند، آنها را در جملات جدید به کار ببرند، و حدس بزنند که چه اتفاقی میافتد.
GPT-3 و مدلهای زبانی مشابه نشان میدهند که چگونه شبکهای از نورونها میتوانند قواعد دستور زبان، نحو، و زمینه را در صورتی که زمان کافی برای یادگیری به آن داده شود، بهطور منطقی به تصویر بکشند. اما در حالی که این نشان می دهد که پیش بینی است بخش از مکانیسم های زبان، آیا این بدان معناست که پیش بینی است همه چیز وجود دارد به زبان انسان؟ سعی کنید این چهار سوال را تمام کنید:
-
اگر ۳ایکس + ۱ = ۳، سپس x برابر است با _____
-
من در زیرزمین بدون پنجره ام هستم و به آسمان نگاه می کنم و می بینم _____
-
او توپ بیسبال را ۱۰۰ فوت بالای سرم انداخت، من دستم را بالا بردم تا آن را بگیرم، پریدم و _____
-
من با حداکثر سرعتی که می توانم از نیویورک به لس آنجلس رانندگی می کنم. یک ساعت پس از عبور از شیکاگو، بالاخره _____
اینجا اتفاق متفاوتی می افتد. در سوال اول، احتمالاً قبل از اینکه بتوانید به سؤال پاسخ دهید، مکث کرده اید و حسابی ذهنی انجام داده اید. در سؤالات دیگر، احتمالاً، حتی برای یک ثانیه، مکث کرده اید تا خود را در زیرزمینی که به سمت بالا نگاه می کنید، تجسم کنید، و متوجه شدید که سقف آن چیزی است که خواهید دید. یا خود را در حال تلاش برای گرفتن توپ بیسبال در ارتفاع صد فوتی بالای سر خود مجسم کرده اید. یا اینکه یک ساعت از شیکاگو گذشته خود را تصور کرده اید و سعی کرده اید در نقشه ذهنی آمریکا کجا باشید. با این نوع سوالات، بیشتر از پیش بینی خودکار کلمات در مغز شما اتفاق می افتد.
البته ما قبلاً این پدیده را کاوش کردهایم – در حال شبیهسازی است. در این سوالات، شما یک شبیهسازی درونی، یا از تغییر مقادیر در یک سری عملیات جبری یا یک زیرزمین سهبعدی ارائه میدهید. و پاسخ به سوالات فقط در قوانین و ساختار دنیای شبیه سازی شده درونی شما یافت می شود.
من همان چهار سوال را به GPT-3 دادم. در اینجا پاسخهای آن آمده است (پاسخهای GPT-3 پررنگ و خطدار هستند):
-
اگر ۳ایکس + ۱ = ۳، سپس x برابر است
-
من در زیرزمین بدون پنجره ام هستم و به آسمان نگاه می کنم و می بینم
-
او توپ بیسبال را ۱۰۰ فوت بالای سرم انداخت، دستم را بالا بردم تا آن را بگیرم، پریدم،
-
من با حداکثر سرعتی که می توانم از نیویورک به لس آنجلس رانندگی می کنم. یک ساعت بعد از عبور از شیکاگو، بالاخره .
هر چهار پاسخ نشان میدهند که GPT-3، از ژوئن ۲۰۲۲، حتی جنبههای سادهای از نحوه عملکرد جهان را نداشت. اگر ۳ایکس + ۱ = ۳، سپس ایکس برابر ۲/۳ است نه ۱٫ اگر در زیرزمین بودید و به آسمان نگاه می کردید، سقف خود را می دیدید، نه ستاره ها را. اگر سعی می کردید توپی را در ۱۰۰ فوت بالای سر خود بگیرید، این کار را می کردید نه توپ را بگیر اگر از نیویورک به لس آنجلس رانندگی می کردید و یک ساعت پیش از شیکاگو عبور می کردید، هنوز در ساحل نبودید. پاسخ های GPT-3 فاقد عقل سلیم بود.
چیزی که یافتم غافلگیرکننده یا بدیع نبود. به خوبی شناخته شده است که سیستمهای هوش مصنوعی مدرن، از جمله این مدلهای زبانی جدید سوپرشارژ، با چنین سؤالاتی دست و پنجه نرم میکنند. اما نکته اینجاست: حتی مدلی که در کل اینترنت آموزش دیده، میلیونها دلار هزینه سرور دارد – که به هکتارها کامپیوتر در مزرعه سرور ناشناخته نیاز دارد – هنوز برای پاسخ به سؤالات عقل سلیم تلاش می کند، سؤالاتی که احتمالاً توسط یک انسان متوسطه پاسخ داده می شود.
البته، استدلال در مورد چیزها با شبیه سازی نیز با مشکلاتی همراه است. فرض کنید سوال زیر را از شما پرسیدم:
تام دبلیو متین است و خودش را نگه می دارد. او موسیقی ملایم را دوست دارد و عینک می زند. احتمال اینکه تام دبلیو. کدام حرفه باشد بیشتر است؟
۱) کتابدار
۲) کارگر ساختمانی
اگر شما هم مثل اکثر مردم هستید، جواب دادید کتابدار. اما این اشتباه است. انسانها تمایل دارند که نرخهای پایه را نادیده بگیرند – آیا این را در نظر گرفتید شماره پایه کارگران ساختمانی در مقایسه با کتابداران؟ احتمالاً تعداد کارگران ساختمانی صد برابر بیشتر از کتابداران است. و به همین دلیل، حتی اگر ۹۵ درصد از کتابداران حلیم باشند و تنها ۵ درصد از کارگران ساختمانی حلیم باشند، باز هم تعداد کارگران ساختمانی بسیار بیشتر از کتابداران حلیم خواهد بود. بنابراین، اگر تام فروتن باشد، باز هم احتمال بیشتری دارد که یک کارگر ساختمانی باشد تا یک کتابدار.
این ایده که نئوکورتکس با ارائه یک شبیهسازی درونی کار میکند و این که چگونه انسانها در مورد چیزها استدلال میکنند، توضیح میدهد که چرا انسانها به طور مداوم سوالاتی مانند این را اشتباه میگیرند. ما تصور کن یک فرد فروتن و آن را با یک کتابدار خیالی و یک کارگر ساختمانی خیالی مقایسه کنید. فرد فروتن بیشتر شبیه چه کسی به نظر می رسد؟ کتابدار. اقتصاددانان رفتاری این را نماینده اکتشافی می نامند. این منشأ بسیاری از اشکال تعصب ناخودآگاه است. اگر داستان دزدی شخصی از دوستتان را شنیدید، نمی توانید صحنه ای خیالی از سرقت را ارائه نکنید و نمی توانید دزدها را پر کنید. دزدها از نظر شما چه شکلی هستند؟ چه پوشیده اند؟ چه نژادی هستند؟ آن ها چند ساله هستند؟ این یک جنبه منفی استدلال با شبیه سازی است – ما شخصیت ها و صحنه ها را پر می کنیم و اغلب روابط علّی و آماری واقعی بین چیزها را از دست می دهیم.
با سؤالاتی است که نیاز به شبیه سازی دارد که در آن زبان در مغز انسان از زبان در GPT-3 فاصله می گیرد. ریاضی یک مثال عالی برای این موضوع است. اساس ریاضیات با برچسب گذاری اعلامی آغاز می شود. شما دو انگشت یا دو سنگ یا دو چوب را بالا می گیرید، با یک دانش آموز درگیر توجه مشترک می شوید و به آن برچسب می زنید. دو. شما همین کار را با سه تا از هر کدام انجام می دهید و به آن برچسب بزنید سه. درست مانند افعال (مثلاً در حال اجرا و خوابیدن)، در ریاضی، عملیات را برچسب گذاری می کنیم (مثلاً، اضافه کردن و تفریق کردن). به این ترتیب می توانیم جملاتی بسازیم که عملیات ریاضی را نشان می دهند: سه یکی اضافه کن.
انسانها ریاضیات را آنطور که GPT-3 ریاضی یاد می گیرد، یاد نمی گیرند. در واقع، انسان ها یاد نمی گیرند زبان روشی که GPT-3 زبان را یاد می گیرد. بچه ها تا زمانی که نتوانند اتفاق بعدی را پیش بینی کنند، فقط به دنباله های بی پایان کلمات گوش نمی دهند. به آنها یک شی نشان داده میشود، در یک مکانیسم غیرکلامی سختافزاری از توجه مشترک شرکت میکنند، و سپس نامی به آن شی داده میشود. اساس یادگیری زبان، یادگیری توالی نیست، بلکه پیوند نمادها به اجزای شبیه سازی درونی کودک است.
مغز انسان، اما نه GPT-3، میتواند پاسخهای عملیات ریاضی را با استفاده از شبیهسازی ذهنی بررسی کند. اگر با انگشتان خود یک به سه اضافه کنید، متوجه می شوید که همیشه چیزی را دریافت می کنید که قبلاً برچسب گذاری شده بود چهار.
شما حتی نیازی به بررسی چنین چیزهایی روی انگشتان واقعی خود ندارید. می توانید این عملیات را تصور کنید. این توانایی برای یافتن پاسخ چیزها با شبیه سازی به این واقعیت متکی است که شبیه سازی درونی ما ارائه دقیق واقعیت است. وقتی فکر می کنم یک انگشت را به سه انگشت اضافه می کنم، سپس انگشتان را در سرم می شمارم، چهار می شمارم. دلیلی وجود ندارد که در دنیای خیالی من چنین باشد. اما آن است. به همین ترتیب، وقتی از شما میپرسم وقتی به سقف زیرزمین خود نگاه میکنید چه میبینید، به درستی پاسخ میدهید زیرا خانه سهبعدی که در سر خود ساختهاید از قوانین فیزیک تبعیت میکند (شما نمیتوانید از طریق سقف ببینید) از این رو برای شما آشکار است که سقف زیرزمین لزوماً بین شما و آسمان است. نئوکورتکس خیلی قبل از کلمات تکامل یافته است، که قبلاً برای ارائه یک دنیای شبیهسازی شده که مجموعه بسیار وسیع و دقیقی از قوانین و ویژگیهای فیزیکی دنیای واقعی را به تصویر میکشد، تکامل یافته است.
اگر منصف باشیم، GPT-3 در واقع می تواند به بسیاری از سوالات ریاضی به درستی پاسخ دهد. GPT-3 قادر خواهد بود به ۱ + ۱ =___ پاسخ دهد زیرا آن توالی را یک میلیارد بار دیده است. وقتی بدون فکر کردن به یک سوال پاسخ می دهید، همانطور که GPT-3 پاسخ می دهد. اما وقتی به آن فکر می کنید چرا ۱ + ۱ =، وقتی با تصور ذهنی عملیات اضافه کردن یک چیز به چیز دیگر و پس گرفتن دو چیز، آن را دوباره به خود ثابت کنید، آنگاه می دانید که ۱ + ۱ = ۲ به گونه ای که GPT-3 ندارد.
مغز انسان دارای هر دو سیستم پیش بینی زبان است و یک شبیه سازی درونی بهترین شواهد برای این ایده که ما هر دو این سیستم ها را داریم، آزمایش هایی است که یک سیستم را در مقابل سیستم دیگر قرار می دهند. آزمون بازتاب شناختی را در نظر بگیرید که برای ارزیابی توانایی فرد در مهار پاسخ بازتابی خود (مثلاً پیشبینیهای معمول کلمات) طراحی شده است و در عوض فعالانه درباره پاسخ فکر کنید (مثلاً برای استدلال در مورد آن یک شبیهسازی درونی را فراخوانی کنید):
سوال ۱: یک خفاش و یک توپ در مجموع ۱٫۱۰ دلار هزینه دارند. خفاش ۱٫۰۰ دلار بیشتر از توپ قیمت دارد. قیمت توپ چقدر است؟
اگر شما هم مثل اکثر مردم هستید، غریزه شما، بدون فکر کردن، این است که ده سنت پاسخ دهید. اما اگر به این سوال فکر می کردید، متوجه می شدید که این اشتباه است. جواب پنج سنت است. به همین ترتیب:
سوال ۲: اگر ساخت ۵ ویجت برای ۵ ماشین ۵ دقیقه طول می کشد، ۱۰۰ ماشین چقدر طول می کشد تا ۱۰۰ ویجت بسازند؟
در اینجا نیز، اگر شما هم مانند اکثر مردم هستید، غریزه شما این است که بگویید «صد دقیقه»، اما اگر به آن فکر کنید، متوجه خواهید شد که پاسخ هنوز پنج دقیقه است.
و در واقع، از دسامبر ۲۰۲۲، GPT-3 هر دوی این سوالات را دقیقاً به همان روشی که مردم اشتباه میکنند، دریافت کرد، GPT-3 به سؤال اول ده سنت و به سؤال دوم صد دقیقه پاسخ داد.
نکته این است که مغز انسان یک سیستم خودکار برای پیشبینی کلمات (که احتمالاً حداقل در اصل شبیه به مدلهایی مانند GPT-3 است) و یک شبیهسازی درونی دارد. بیشتر چیزی که زبان انسان را قدرتمند می کند، نحو آن نیست، بلکه توانایی آن در ارائه اطلاعات لازم برای شبیه سازی در مورد آن و استفاده از این توالی کلمات برای ارائه است. شبیه سازی درونی مانند سایر انسان های اطراف ما.
این مقاله ابتدا در Engadget در https://www.engadget.com/hitting-the-books-a-brief-history-of-intelligence-max-bennett-mariner-books-143058118.html?src=rss منتشر شد
منبع: https://www.engadget.com/hitting-the-books-a-brief-history-of-intelligence-max-bennett-mariner-books-143058118.html?src=rss