چرا درک مدلهای زبانی بزرگ اینقدر دشوار است؟
بهقلم: بن بروبیکر
منبع: QuantaMagazine
معمولاً بدون درک نحوه عملکرد یک ماشین آن را نمیسازند؛ اما برای پژوهشگرانی که روی مدلهای زبانی بزرگ کار میکنند، دقیقاً همین درک است که هنوز به دست نیامده است. در واقع، گاهی کار آنها بیشتر شبیه باغبانی است تا مهندسی.
مارتین واتنبرگ، پژوهشگر مدلهای زبانی در دانشگاه هاروارد میگوید: «وقتی یک دانه گوجهفرنگی را در خاک میکارید، گیاه گوجه رشد میکند. شما آن را آب میدهید، علفهای هرز اطرافش را میزنید، اما واقعاً این گیاه چطور رشد میکند؟».
این دانشمندان سعی میکنند با مشاهده واکنش مدلهای زبانی به ورودیهای مختلف، رفتار آنها را تحلیل کنند – رویکردی مشابه روانشناسی رفتاری. اما پژوهشگران حوزه نوظهور «تفسیرپذیری ماشینی» (Mechanistic Interpretability) که از علوم اعصاب الهام گرفته است، بهجای مشاهده بیرونی، درون مدل را باز میکنند تا بفهمند دقیقاً چه اتفاقی در آن میافتد. تلاشهای اولیه آنها توانسته نحوه بازنمایی مفاهیم توسط مدلهای زبانی و چگونگی انجام برخی وظایف ساده را توضیح دهد. همچنین، یافتههایی غیرمنتظره بهدست آمده که نشان میدهد درک واقعی از هوش مصنوعی چقدر دشوار است.
مغز مصنوعی در قلب مدلهای زبانی بزرگ
مدلهای زبانی بزرگ بر پایه ابژههای ریاضی بنا شدهاند که تا حدی از مغز انسان الهام گرفتهاند. این ابژهها که به نام شبکههای عصبی مصنوعی شناخته میشوند، مجموعهای از عملیات ساده ریاضی را زنجیروار اجرا میکنند تا رشتههایی از اعداد – که نمایانگر کلمات هستند – را پردازش کنند. عملکرد یک مدل زبانی – اینکه خروجی آن بیمعنا باشد یا بسیار دقیق – به مجموعهای از اعداد دیگر بستگی دارد که پارامتر نام دارند. این پارامترها بیانگر روابط درون شبکه عصبی هستند.
مدلهای زبانی بزرگ میتوانند میلیاردها یا حتی تریلیونها پارامتر داشته باشند، و هیچکس دقیقاً نمیداند که این مقادیر چگونه باید انتخاب شوند؛ بنابراین، مدل با مقادیر تصادفی آغاز میشود و حجم عظیمی از داده با یک هدف ساده به آن وارد میشود: پیشبینی کلمه بعدی در هر قطعه متن.
مدل این کار را تریلیونها بار انجام میدهد. پس از هر بار تلاش، الگوریتمی دیگر پارامترها را طوری تنظیم میکند که احتمال تولید پاسخ درست کمی بیشتر شود. به این فرایند «آموزش» میگویند، اما این واژه کمی گمراهکننده است؛ چراکه بعد از آغاز فرایند، نقش پژوهشگران تقریباً به اندازه یک باغبان در رشد گیاه است.
دریچهای به درون مغز مدلهای زبانی
در تئوری، پژوهشگران میتوانند تمام مقادیر پارامترهای یک مدل آموزشدیده را ببینند. همچنین میتوانند واکنش هر بخش داخلی مدل به یک ورودی خاص – که به آن فعالسازی میگویند – را ثبت کنند. این دادهها معادل نقشه کامل مغز یک انسان بههمراه الکترودهایی برای اندازهگیری فعالیت هر نورون است. اما همه این دادهها الزاماً به یک تفسیر نمیانجامد. پیشبینی رفتار مدل در برابر ورودیهای جدید همچنان چالشبرانگیز باقی میماند.
خوشبختانه، پژوهشگرانِ تفسیرپذیری فقط به مشاهده مقادیر بسنده نمیکنند – آنها میتوانند این مقادیر راهم دستکاری کنند. ویرایش پارامترها مثل انجام جراحی مغز با دقت فوقالعاده بالا است. این پژوهشگران همچنین میتوانند فعالسازیها را بهصورت موقت تغییر دهند تا ببینند چگونه خروجی مدل تغییر میکند.
حتی میتوانند حالتی ذهنی را کپی و در سناریوی دیگر جایگذاری کنند: ورودی اول را به مدل میدهند، فعالسازی بخشهایی خاص را ذخیره میکنند و سپس آن فعالسازیها را در پاسخ مدل به ورودی دوم وارد میکنند. این روش به پژوهشگران کمک میکند تا موقعیت ذخیرهسازی برخی مفاهیم را در مدل شناسایی کنند. اما نتیجهها همیشه سرراست نیستند. حتی اگر مفهومی در بخشی خاص از مدل ذخیره شده باشد، ممکن است با دستکاری بخشی دیگر آن مفهوم تغییر کند – موضوعی که نشان میدهد عملکرد درونی شبکههای عصبی با شهود انسانی همخوان نیست.
اسماً قندهاریون، پژوهشگر DeepMind گوگل میگوید:
«خیلی چیزها هستند که در ظاهر باید درست باشند، اما وقتی دقیقتر نگاه میکنید، اصلاً اینطور نیست.»
گامهایی بهسوی درک بهتر
پژوهشگران موفق شدهاند برخی فرایندهایی را که مدلهای زبانی برای انجام وظایفی مانند بازیابی کلمات قبلی، تشخیص نقشهای دستوری یا انجام محاسبات ساده استفاده میکنند، شناسایی کنند. بااینحال، گاهی مدلها برای وظایف مشابه، مسیرهای متفاوتی را طی میکنند که بهنظر کاملاً تصادفی میرسد. مثل این است که قبل از مسواکزدن وضعیت آبوهوا را چک کنید، چون اگر باران بیاید شما مسواک صورتی پررنگتان را استفاده میکنید!
در مواردی دیگر، مدلها گروههایی مستقل از اجزای مشابه دارند که دقیقاً یک کار را انجام میدهند و این موضوع تلاشها برای تفکیک عملکردها را دشوار میسازد. حتی پدیدهای تحت عنوان «خودترمیمی فوری» (Emergent Self-Repair) مشاهده شده است که در آن غیرفعالکردن بخشی از مدل باعث شده اجزای دیگر رفتار خود را تغییر دهند و وظیفه بخش غیرفعال را به عهده بگیرند.
آیندهای امیدوارکننده در دل پیچیدگی با وجود تمام این پیچیدگیها، بسیاری از پژوهشگرانِ تفسیرپذیری همچنان به آینده این حوزه خوشبین هستند. واتنبرگ میگوید:
«جای پیشرفت وجود دارد. اکنون خیلی جلوتر از پنج سال قبل هستیم.»