سال گذشته، تیم آزمایش مدل کوچکی را آغاز کرد که فقط از یک لایه نورون استفاده می کرد. (LLM های پیچیده ده ها لایه دارند.) امید این بود که در ساده ترین تنظیمات ممکن، بتوانند الگوهایی را کشف کنند که نشان دهنده توابع است. آنها آزمایش های بی شماری را بدون موفقیت انجام دادند. “ما یک سری چیزها را امتحان کردیم و هیچ چیز جواب نداد. تام هنیگان، یکی از اعضای کادر فنی آنتروپیک، میگوید: «به نظر میرسید یک دسته آشغال تصادفی. سپس حلقه ای به نام “جانی” – به هر آزمایش یک نام تصادفی اختصاص داده شد – شروع به اتصال الگوهای عصبی به مفاهیمی کرد که در نتایج آن ظاهر شد.
کریس به او نگاه کرد و گفت: “لعنت. هنیگان که او نیز شگفت زده شده بود، می گوید: این عالی به نظر می رسد. “به آن نگاه کردم و گفتم: “اوه، وای، صبر کن، آیا این کار می کند؟”
ناگهان محققان توانستند ویژگی های کدگذاری شده توسط گروهی از نورون ها را شناسایی کنند. آنها می توانستند به جعبه سیاه نگاه کنند. هنیگان می گوید که او پنج ویژگی اولیه را که به آنها نگاه کرده است شناسایی کرده است. یک گروه از نورون ها به معنای متون روسی بود. دیگری مربوط به توابع ریاضی در زبان کامپیوتر پایتون بود. و غیره.
محققان پس از اینکه نشان دادند میتوانند ویژگیهای مدل کوچک را شناسایی کنند، کار پیچیدهتر رمزگشایی LLM با اندازه کامل را در طبیعت آغاز کردند. آنها از کلود سونت، نسخه متوسط سه مدل فعلی آنتروپیک استفاده کردند. این هم کار کرد. یکی از ویژگی هایی که به آنها توجه کرد مربوط به پل گلدن گیت بود. آنها مجموعهای از نورونها را نقشهبرداری کردند که وقتی با هم شلیک شدند، نشان دادند که کلود به ساختار عظیمی که سانفرانسیسکو را به مارین کانتی متصل میکند «فکر میکند». علاوه بر این، هنگامی که چنین مجموعهای از نورونها شلیک میشوند، اجسامی را فراخوانی میکنند که در نزدیکی پل گلدن گیت قرار دارند: آلکاتراز، فرماندار کالیفرنیا گاوین نیوسام، و فیلم هیچکاک. سرگیجهکه در سانفرانسیسکو اتفاق می افتد. در مجموع، تیم میلیونها ویژگی را شناسایی کرد – نوعی سنگ روزتا برای رمزگشایی شبکه عصبی کلود. بسیاری از ویژگیها مربوط به ایمنی بودند، از جمله «نزدیک شدن به فردی با انگیزههای پنهان»، «بحث در مورد جنگ بیولوژیکی» و «توطئههای شرور برای تصرف جهان».
سپس تیم Anthropic قدم بعدی را برداشتند تا ببینند آیا می توانند از این اطلاعات برای تغییر رفتار کلود استفاده کنند. آنها شروع به دستکاری شبکه عصبی برای افزایش یا کاهش مفاهیم خاص کردند – نوعی جراحی مغز هوش مصنوعی، با پتانسیل ایمن تر کردن LLM ها و افزایش قدرت آنها در زمینه های انتخاب شده. بیایید بگوییم که ما این تابلوی ویژگی را داریم. ما مدل را روشن می کنیم، یکی از آنها روشن می شود، و می بینیم: “اوه، به پل گلدن گیت فکر می کند.” شان کارتر، دانشمند انسان شناس در این تیم می گوید. “پس اکنون ما به این فکر می کنیم، اگر یک صفحه کوچک روی همه اینها بگذاریم چه؟ پس اگر آن دیسک را بچرخانیم چه؟
تا اینجا به نظر می رسد که پاسخ به این سوال این است که چرخاندن صفحه به مقدار مناسب بسیار مهم است. آنتروپیک میگوید با سرکوب این ویژگیها، این مدل میتواند برنامههای کامپیوتری ایمنتری ایجاد کند و سوگیری را کاهش دهد. به عنوان مثال، تیم چندین ویژگی را یافت که نشان دهنده اقدامات ناامن است، مانند کد رایانه ای ناامن، ایمیل های جعلی و دستورالعمل هایی برای ایجاد محصولات ناایمن.