چرا درک مدل‌های زبانی بزرگ این‌قدر دشوار است؟ دسته‌بندی نشده

چرا درک مدل‌های زبانی بزرگ این‌قدر دشوار است؟ 

به‌قلم: بن بروبیکر
منبع: QuantaMagazine


معمولاً بدون درک نحوه عملکرد یک ماشین آن را نمی‌سازند؛ اما برای پژوهشگرانی که روی مدل‌های زبانی بزرگ کار می‌کنند، دقیقاً همین درک است که هنوز به دست نیامده است. در واقع، گاهی کار آن‌ها بیشتر شبیه باغبانی است تا مهندسی.

 مارتین واتنبرگ، پژوهشگر مدل‌های زبانی در دانشگاه هاروارد می‌گوید: «وقتی یک دانه گوجه‌فرنگی را در خاک می‌کارید، گیاه گوجه رشد می‌کند. شما آن را آب می‌دهید، علف‌های هرز اطرافش را می‌زنید، اما واقعاً این گیاه چطور رشد می‌کند؟».

 این دانشمندان سعی می‌کنند با مشاهده واکنش مدل‌های زبانی به ورودی‌های مختلف، رفتار آن‌ها را تحلیل کنند – رویکردی مشابه روان‌شناسی رفتاری. اما پژوهشگران حوزه نوظهور «تفسیرپذیری ماشینی» (Mechanistic Interpretability) که از علوم اعصاب الهام گرفته است، به‌جای مشاهده بیرونی، درون مدل را باز می‌کنند تا بفهمند دقیقاً چه اتفاقی در آن می‌افتد. تلاش‌های اولیه آن‌ها توانسته نحوه بازنمایی مفاهیم توسط مدل‌های زبانی و چگونگی انجام برخی وظایف ساده را توضیح دهد. همچنین، یافته‌هایی غیرمنتظره به‌دست آمده که نشان می‌دهد درک واقعی از هوش مصنوعی چقدر دشوار است.

مغز مصنوعی در قلب مدل‌های زبانی بزرگ

 مدل‌های زبانی بزرگ بر پایه ابژه‌های ریاضی بنا شده‌اند که تا حدی از مغز انسان الهام گرفته‌اند. این ابژه‌ها که به نام شبکه‌های عصبی مصنوعی شناخته می‌شوند، مجموعه‌ای از عملیات ساده ریاضی را زنجیروار اجرا می‌کنند تا رشته‌هایی از اعداد – که نمایانگر کلمات هستند – را پردازش کنند. عملکرد یک مدل زبانی – اینکه خروجی آن بی‌معنا باشد یا بسیار دقیق – به مجموعه‌ای از اعداد دیگر بستگی دارد که پارامتر نام دارند. این پارامترها بیانگر روابط درون شبکه عصبی هستند.

 مدل‌های زبانی بزرگ می‌توانند میلیاردها یا حتی تریلیون‌ها پارامتر داشته باشند، و هیچ‌کس دقیقاً نمی‌داند که این مقادیر چگونه باید انتخاب شوند؛ بنابراین، مدل با مقادیر تصادفی آغاز می‌شود و حجم عظیمی از داده با یک هدف ساده به آن وارد می‌شود: پیش‌بینی کلمه بعدی در هر قطعه متن.

 مدل این کار را تریلیون‌ها بار انجام می‌دهد. پس از هر بار تلاش، الگوریتمی دیگر پارامترها را طوری تنظیم می‌کند که احتمال تولید پاسخ درست کمی بیشتر شود. به این فرایند «آموزش» می‌گویند، اما این واژه کمی گمراه‌کننده است؛ چراکه بعد از آغاز فرایند، نقش پژوهشگران تقریباً به اندازه یک باغبان در رشد گیاه است.

دریچه‌ای به درون مغز مدل‌های زبانی

 در تئوری، پژوهشگران می‌توانند تمام مقادیر پارامترهای یک مدل آموزش‌دیده را ببینند. همچنین می‌توانند واکنش هر بخش داخلی مدل به یک ورودی خاص – که به آن فعال‌سازی می‌گویند – را ثبت کنند. این داده‌ها معادل نقشه کامل مغز یک انسان به‌همراه الکترودهایی برای اندازه‌گیری فعالیت هر نورون است. اما همه این داده‌ها الزاماً به یک تفسیر نمی‌انجامد. پیش‌بینی رفتار مدل در برابر ورودی‌های جدید همچنان چالش‌برانگیز باقی می‌ماند.

 خوشبختانه، پژوهشگرانِ تفسیرپذیری فقط به مشاهده مقادیر بسنده نمی‌کنند – آن‌ها می‌توانند این مقادیر راهم دست‌کاری کنند. ویرایش پارامترها مثل انجام جراحی مغز با دقت فوق‌العاده بالا است. این پژوهشگران همچنین می‌توانند فعال‌سازی‌ها را به‌صورت موقت تغییر دهند تا ببینند چگونه خروجی مدل تغییر می‌کند.

 حتی می‌توانند حالتی ذهنی را کپی و در سناریوی دیگر جای‌گذاری کنند: ورودی اول را به مدل می‌دهند، فعال‌سازی بخش‌هایی خاص را ذخیره می‌کنند و سپس آن فعال‌سازی‌ها را در پاسخ مدل به ورودی دوم وارد می‌کنند. این روش به پژوهشگران کمک می‌کند تا موقعیت ذخیره‌سازی برخی مفاهیم را در مدل شناسایی کنند. اما نتیجه‌ها همیشه سرراست نیستند. حتی اگر مفهومی در بخشی خاص از مدل ذخیره شده باشد، ممکن است با دست‌کاری بخشی دیگر آن مفهوم تغییر کند – موضوعی که نشان می‌دهد عملکرد درونی شبکه‌های عصبی با شهود انسانی هم‌خوان نیست.

 اسماً قندهاریون، پژوهشگر DeepMind گوگل می‌گوید:
«خیلی چیزها هستند که در ظاهر باید درست باشند، اما وقتی دقیق‌تر نگاه می‌کنید، اصلاً این‌طور نیست.»

گام‌هایی به‌سوی درک بهتر

 پژوهشگران موفق شده‌اند برخی فرایندهایی را که مدل‌های زبانی برای انجام وظایفی مانند بازیابی کلمات قبلی، تشخیص نقش‌های دستوری یا انجام محاسبات ساده استفاده می‌کنند، شناسایی کنند. بااین‌حال، گاهی مدل‌ها برای وظایف مشابه، مسیرهای متفاوتی را طی می‌کنند که به‌نظر کاملاً تصادفی می‌رسد. مثل این است که قبل از مسواک‌زدن وضعیت آب‌وهوا را چک کنید، چون اگر باران بیاید شما مسواک صورتی پررنگتان را استفاده می‌کنید!

 در مواردی دیگر، مدل‌ها گروه‌هایی مستقل از اجزای مشابه دارند که دقیقاً یک کار را انجام می‌دهند و این موضوع تلاش‌ها برای تفکیک عملکردها را دشوار می‌سازد. حتی پدیده‌ای تحت عنوان «خودترمیمی فوری» (Emergent Self-Repair) مشاهده شده است که در آن غیرفعال‌کردن بخشی از مدل باعث شده اجزای دیگر رفتار خود را تغییر دهند و وظیفه بخش غیرفعال را به عهده بگیرند.

آینده‌ای امیدوارکننده در دل پیچیدگی با وجود تمام این پیچیدگی‌ها، بسیاری از پژوهشگرانِ تفسیرپذیری همچنان به آینده این حوزه خوش‌بین هستند. واتنبرگ می‌گوید:
  «جای پیشرفت وجود دارد. اکنون خیلی جلوتر از پنج سال قبل هستیم.»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تمامی حقوق این سایت متعلق به مجموعه نوآوران داده سلامت پیشرو می‌باشد.​