آنچه که تکامل مغز ما می تواند در مورد آینده هوش مصنوعی به ما بگوید

رشد انفجاری در هوش مصنوعی در سال‌های اخیر – که با افزایش شهاب‌آمیز چت‌ربات‌های مولد هوش مصنوعی مانند ChatGPT همراه شده است – باعث شده است که این فناوری وظایف بسیاری را بر عهده بگیرد که قبلاً فقط ذهن انسان می‌توانست از عهده آن برآید. اما علیرغم محاسبات زبانی روزافزونشان، این سیستم‌های یادگیری ماشینی به طرز شگفت‌آوری در انجام انواع جهش‌های شناختی و استنتاج‌های منطقی که حتی یک نوجوان معمولی می‌تواند به طور مداوم به درستی انجام دهد، ناتوان هستند.

در این هفته ضربه زدن به کتاب ها استخراج کردن تاریخچه مختصری از هوش: تکامل، هوش مصنوعی و پنج پیشرفتی که مغز ما را ساختمکس بنت، کارآفرین هوش مصنوعی، با کاوش در توسعه ماشین آلی، شکاف چالش برانگیز در شایستگی کامپیوتر را بررسی می کند.

بنت با تمرکز بر پنج «پیشرفت» تکاملی، در میان بی‌شمار بن‌بست‌های ژنتیکی و شاخه‌های ناموفق، که گونه‌های ما را به ذهن‌های مدرن ما سوق داد، نشان می‌دهد که همان پیشرفت‌هایی که بشریت چندین سال طول کشید تا تکامل پیدا کند، می‌تواند برای کمک به توسعه هوش مصنوعی تطبیق داده شود. فناوری های فردا در گزیده زیر، نگاهی می اندازیم به این که چگونه سیستم های هوش مصنوعی مولد مانند GPT-3 ساخته شده اند تا عملکردهای پیش بینی کننده را تقلید کنند. نئوکورتکساما هنوز نمی تواند کاملا بر هوس های گفتار انسان چنگ بزنید.

هارپر کالینز

برگرفته از تاریخچه مختصری از هوش: تکامل، هوش مصنوعی و پنج پیشرفتی که مغز ما را ساخت توسط مکس بنت منتشر شده توسط مارینر بوکز. حق چاپ © ۲۰۲۳ توسط مکس بنت. تمامی حقوق محفوظ است.


کلمات بدون دنیای درونی

GPT-3 کلمه به کلمه، جمله به جمله، پاراگراف پس از پاراگراف داده می شود. در طول این فرآیند طولانی آموزشی، سعی می کند کلمه بعدی را در هر یک از این جریان های طولانی کلمات پیش بینی کند. و با هر پیش‌بینی، وزن شبکه عصبی غول‌پیکر آن بسیار اندکی به سمت پاسخ درست هدایت می‌شود. این کار را چند بار نجومی انجام دهید و در نهایت GPT-3 می تواند به طور خودکار کلمه بعدی را بر اساس جمله یا پاراگراف قبلی پیش بینی کند. در اصل، این حداقل جنبه اساسی از نحوه عملکرد زبان در مغز انسان را نشان می دهد. در نظر بگیرید که پیش بینی نماد بعدی در عبارات زیر چقدر خودکار است:

  • یک به علاوه یک برابر است با _____

  • گل رز قرمز است، بنفشه _____ است

شما بارها جملات مشابهی را دیده اید، بنابراین دستگاه نئوکورتیکال شما به طور خودکار کلمه بعدی را پیش بینی می کند. با این حال، چیزی که GPT-3 را چشمگیر می کند این نیست که فقط کلمه بعدی از دنباله ای را که میلیون ها بار دیده است را پیش بینی می کند – که با چیزی جز حفظ جملات قابل انجام نیست. چیزی که قابل توجه است این است که می توان به GPT-3 اشاره کرد رمان دنباله ای که قبلاً ندیده است و هنوز کلمه بعدی را به دقت پیش بینی می کند. این نیز به وضوح چیزی را که مغز انسان می تواند _____ را به تصویر می کشد.

آیا می توانید پیش بینی کنید که کلمه بعدی بود انجام دادن? حدس می‌زنم می‌توانی، حتی اگر قبلاً آن جمله را دقیقاً ندیده بودی. نکته این است که هم GPT-3 و هم نواحی نئوکورتیکال زبان به نظر می رسد درگیر پیش بینی هستند. هر دو می‌توانند تجربیات گذشته را تعمیم دهند، آن‌ها را در جملات جدید به کار ببرند، و حدس بزنند که چه اتفاقی می‌افتد.

GPT-3 و مدل‌های زبانی مشابه نشان می‌دهند که چگونه شبکه‌ای از نورون‌ها می‌توانند قواعد دستور زبان، نحو، و زمینه را در صورتی که زمان کافی برای یادگیری به آن داده شود، به‌طور منطقی به تصویر بکشند. اما در حالی که این نشان می دهد که پیش بینی است بخش از مکانیسم های زبان، آیا این بدان معناست که پیش بینی است همه چیز وجود دارد به زبان انسان؟ سعی کنید این چهار سوال را تمام کنید:

  • اگر ۳ایکس + ۱ = ۳، سپس x برابر است با _____

  • من در زیرزمین بدون پنجره ام هستم و به آسمان نگاه می کنم و می بینم _____

  • او توپ بیسبال را ۱۰۰ فوت بالای سرم انداخت، من دستم را بالا بردم تا آن را بگیرم، پریدم و _____

  • من با حداکثر سرعتی که می توانم از نیویورک به لس آنجلس رانندگی می کنم. یک ساعت پس از عبور از شیکاگو، بالاخره _____

اینجا اتفاق متفاوتی می افتد. در سوال اول، احتمالاً قبل از اینکه بتوانید به سؤال پاسخ دهید، مکث کرده اید و حسابی ذهنی انجام داده اید. در سؤالات دیگر، احتمالاً، حتی برای یک ثانیه، مکث کرده اید تا خود را در زیرزمینی که به سمت بالا نگاه می کنید، تجسم کنید، و متوجه شدید که سقف آن چیزی است که خواهید دید. یا خود را در حال تلاش برای گرفتن توپ بیسبال در ارتفاع صد فوتی بالای سر خود مجسم کرده اید. یا اینکه یک ساعت از شیکاگو گذشته خود را تصور کرده اید و سعی کرده اید در نقشه ذهنی آمریکا کجا باشید. با این نوع سوالات، بیشتر از پیش بینی خودکار کلمات در مغز شما اتفاق می افتد.

البته ما قبلاً این پدیده را کاوش کرده‌ایم – در حال شبیه‌سازی است. در این سوالات، شما یک شبیه‌سازی درونی، یا از تغییر مقادیر در یک سری عملیات جبری یا یک زیرزمین سه‌بعدی ارائه می‌دهید. و پاسخ به سوالات فقط در قوانین و ساختار دنیای شبیه سازی شده درونی شما یافت می شود.

من همان چهار سوال را به GPT-3 دادم. در اینجا پاسخ‌های آن آمده است (پاسخ‌های GPT-3 پررنگ و خط‌دار هستند):

  • اگر ۳ایکس + ۱ = ۳، سپس x برابر است

  • من در زیرزمین بدون پنجره ام هستم و به آسمان نگاه می کنم و می بینم

  • او توپ بیسبال را ۱۰۰ فوت بالای سرم انداخت، دستم را بالا بردم تا آن را بگیرم، پریدم،

  • من با حداکثر سرعتی که می توانم از نیویورک به لس آنجلس رانندگی می کنم. یک ساعت بعد از عبور از شیکاگو، بالاخره .

هر چهار پاسخ نشان می‌دهند که GPT-3، از ژوئن ۲۰۲۲، حتی جنبه‌های ساده‌ای از نحوه عملکرد جهان را نداشت. اگر ۳ایکس + ۱ = ۳، سپس ایکس برابر ۲/۳ است نه ۱٫ اگر در زیرزمین بودید و به آسمان نگاه می کردید، سقف خود را می دیدید، نه ستاره ها را. اگر سعی می کردید توپی را در ۱۰۰ فوت بالای سر خود بگیرید، این کار را می کردید نه توپ را بگیر اگر از نیویورک به لس آنجلس رانندگی می کردید و یک ساعت پیش از شیکاگو عبور می کردید، هنوز در ساحل نبودید. پاسخ های GPT-3 فاقد عقل سلیم بود.

چیزی که یافتم غافلگیرکننده یا بدیع نبود. به خوبی شناخته شده است که سیستم‌های هوش مصنوعی مدرن، از جمله این مدل‌های زبانی جدید سوپرشارژ، با چنین سؤالاتی دست و پنجه نرم می‌کنند. اما نکته اینجاست: حتی مدلی که در کل اینترنت آموزش دیده، میلیون‌ها دلار هزینه سرور دارد – که به هکتارها کامپیوتر در مزرعه سرور ناشناخته نیاز دارد – هنوز برای پاسخ به سؤالات عقل سلیم تلاش می کند، سؤالاتی که احتمالاً توسط یک انسان متوسطه پاسخ داده می شود.

البته، استدلال در مورد چیزها با شبیه سازی نیز با مشکلاتی همراه است. فرض کنید سوال زیر را از شما پرسیدم:

تام دبلیو متین است و خودش را نگه می دارد. او موسیقی ملایم را دوست دارد و عینک می زند. احتمال اینکه تام دبلیو. کدام حرفه باشد بیشتر است؟

۱) کتابدار

۲) کارگر ساختمانی

اگر شما هم مثل اکثر مردم هستید، جواب دادید کتابدار. اما این اشتباه است. انسان‌ها تمایل دارند که نرخ‌های پایه را نادیده بگیرند – آیا این را در نظر گرفتید شماره پایه کارگران ساختمانی در مقایسه با کتابداران؟ احتمالاً تعداد کارگران ساختمانی صد برابر بیشتر از کتابداران است. و به همین دلیل، حتی اگر ۹۵ درصد از کتابداران حلیم باشند و تنها ۵ درصد از کارگران ساختمانی حلیم باشند، باز هم تعداد کارگران ساختمانی بسیار بیشتر از کتابداران حلیم خواهد بود. بنابراین، اگر تام فروتن باشد، باز هم احتمال بیشتری دارد که یک کارگر ساختمانی باشد تا یک کتابدار.

این ایده که نئوکورتکس با ارائه یک شبیه‌سازی درونی کار می‌کند و این که چگونه انسان‌ها در مورد چیزها استدلال می‌کنند، توضیح می‌دهد که چرا انسان‌ها به طور مداوم سوالاتی مانند این را اشتباه می‌گیرند. ما تصور کن یک فرد فروتن و آن را با یک کتابدار خیالی و یک کارگر ساختمانی خیالی مقایسه کنید. فرد فروتن بیشتر شبیه چه کسی به نظر می رسد؟ کتابدار. اقتصاددانان رفتاری این را نماینده اکتشافی می نامند. این منشأ بسیاری از اشکال تعصب ناخودآگاه است. اگر داستان دزدی شخصی از دوستتان را شنیدید، نمی توانید صحنه ای خیالی از سرقت را ارائه نکنید و نمی توانید دزدها را پر کنید. دزدها از نظر شما چه شکلی هستند؟ چه پوشیده اند؟ چه نژادی هستند؟ آن ها چند ساله هستند؟ این یک جنبه منفی استدلال با شبیه سازی است – ما شخصیت ها و صحنه ها را پر می کنیم و اغلب روابط علّی و آماری واقعی بین چیزها را از دست می دهیم.

با سؤالاتی است که نیاز به شبیه سازی دارد که در آن زبان در مغز انسان از زبان در GPT-3 فاصله می گیرد. ریاضی یک مثال عالی برای این موضوع است. اساس ریاضیات با برچسب گذاری اعلامی آغاز می شود. شما دو انگشت یا دو سنگ یا دو چوب را بالا می گیرید، با یک دانش آموز درگیر توجه مشترک می شوید و به آن برچسب می زنید. دو. شما همین کار را با سه تا از هر کدام انجام می دهید و به آن برچسب بزنید سه. درست مانند افعال (مثلاً در حال اجرا و خوابیدن)، در ریاضی، عملیات را برچسب گذاری می کنیم (مثلاً، اضافه کردن و تفریق کردن). به این ترتیب می توانیم جملاتی بسازیم که عملیات ریاضی را نشان می دهند: سه یکی اضافه کن.

انسانها ریاضیات را آنطور که GPT-3 ریاضی یاد می گیرد، یاد نمی گیرند. در واقع، انسان ها یاد نمی گیرند زبان روشی که GPT-3 زبان را یاد می گیرد. بچه ها تا زمانی که نتوانند اتفاق بعدی را پیش بینی کنند، فقط به دنباله های بی پایان کلمات گوش نمی دهند. به آن‌ها یک شی نشان داده می‌شود، در یک مکانیسم غیرکلامی سخت‌افزاری از توجه مشترک شرکت می‌کنند، و سپس نامی به آن شی داده می‌شود. اساس یادگیری زبان، یادگیری توالی نیست، بلکه پیوند نمادها به اجزای شبیه سازی درونی کودک است.

مغز انسان، اما نه GPT-3، می‌تواند پاسخ‌های عملیات ریاضی را با استفاده از شبیه‌سازی ذهنی بررسی کند. اگر با انگشتان خود یک به سه اضافه کنید، متوجه می شوید که همیشه چیزی را دریافت می کنید که قبلاً برچسب گذاری شده بود چهار.

شما حتی نیازی به بررسی چنین چیزهایی روی انگشتان واقعی خود ندارید. می توانید این عملیات را تصور کنید. این توانایی برای یافتن پاسخ چیزها با شبیه سازی به این واقعیت متکی است که شبیه سازی درونی ما ارائه دقیق واقعیت است. وقتی فکر می کنم یک انگشت را به سه انگشت اضافه می کنم، سپس انگشتان را در سرم می شمارم، چهار می شمارم. دلیلی وجود ندارد که در دنیای خیالی من چنین باشد. اما آن است. به همین ترتیب، وقتی از شما می‌پرسم وقتی به سقف زیرزمین خود نگاه می‌کنید چه می‌بینید، به درستی پاسخ می‌دهید زیرا خانه سه‌بعدی که در سر خود ساخته‌اید از قوانین فیزیک تبعیت می‌کند (شما نمی‌توانید از طریق سقف ببینید) از این رو برای شما آشکار است که سقف زیرزمین لزوماً بین شما و آسمان است. نئوکورتکس خیلی قبل از کلمات تکامل یافته است، که قبلاً برای ارائه یک دنیای شبیه‌سازی شده که مجموعه بسیار وسیع و دقیقی از قوانین و ویژگی‌های فیزیکی دنیای واقعی را به تصویر می‌کشد، تکامل یافته است.

اگر منصف باشیم، GPT-3 در واقع می تواند به بسیاری از سوالات ریاضی به درستی پاسخ دهد. GPT-3 قادر خواهد بود به ۱ + ۱ =___ پاسخ دهد زیرا آن توالی را یک میلیارد بار دیده است. وقتی بدون فکر کردن به یک سوال پاسخ می دهید، همانطور که GPT-3 پاسخ می دهد. اما وقتی به آن فکر می کنید چرا ۱ + ۱ =، وقتی با تصور ذهنی عملیات اضافه کردن یک چیز به چیز دیگر و پس گرفتن دو چیز، آن را دوباره به خود ثابت کنید، آنگاه می دانید که ۱ + ۱ = ۲ به گونه ای که GPT-3 ندارد.

مغز انسان دارای هر دو سیستم پیش بینی زبان است و یک شبیه سازی درونی بهترین شواهد برای این ایده که ما هر دو این سیستم ها را داریم، آزمایش هایی است که یک سیستم را در مقابل سیستم دیگر قرار می دهند. آزمون بازتاب شناختی را در نظر بگیرید که برای ارزیابی توانایی فرد در مهار پاسخ بازتابی خود (مثلاً پیش‌بینی‌های معمول کلمات) طراحی شده است و در عوض فعالانه درباره پاسخ فکر کنید (مثلاً برای استدلال در مورد آن یک شبیه‌سازی درونی را فراخوانی کنید):

سوال ۱: یک خفاش و یک توپ در مجموع ۱٫۱۰ دلار هزینه دارند. خفاش ۱٫۰۰ دلار بیشتر از توپ قیمت دارد. قیمت توپ چقدر است؟

اگر شما هم مثل اکثر مردم هستید، غریزه شما، بدون فکر کردن، این است که ده سنت پاسخ دهید. اما اگر به این سوال فکر می کردید، متوجه می شدید که این اشتباه است. جواب پنج سنت است. به همین ترتیب:

سوال ۲: اگر ساخت ۵ ویجت برای ۵ ماشین ۵ دقیقه طول می کشد، ۱۰۰ ماشین چقدر طول می کشد تا ۱۰۰ ویجت بسازند؟

در اینجا نیز، اگر شما هم مانند اکثر مردم هستید، غریزه شما این است که بگویید «صد دقیقه»، اما اگر به آن فکر کنید، متوجه خواهید شد که پاسخ هنوز پنج دقیقه است.

و در واقع، از دسامبر ۲۰۲۲، GPT-3 هر دوی این سوالات را دقیقاً به همان روشی که مردم اشتباه می‌کنند، دریافت کرد، GPT-3 به سؤال اول ده سنت و به سؤال دوم صد دقیقه پاسخ داد.

نکته این است که مغز انسان یک سیستم خودکار برای پیش‌بینی کلمات (که احتمالاً حداقل در اصل شبیه به مدل‌هایی مانند GPT-3 است) و یک شبیه‌سازی درونی دارد. بیشتر چیزی که زبان انسان را قدرتمند می کند، نحو آن نیست، بلکه توانایی آن در ارائه اطلاعات لازم برای شبیه سازی در مورد آن و استفاده از این توالی کلمات برای ارائه است. شبیه سازی درونی مانند سایر انسان های اطراف ما.

این مقاله ابتدا در Engadget در https://www.engadget.com/hitting-the-books-a-brief-history-of-intelligence-max-bennett-mariner-books-143058118.html?src=rss منتشر شد


منبع: https://www.engadget.com/hitting-the-books-a-brief-history-of-intelligence-max-bennett-mariner-books-143058118.html?src=rss

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *