هوش مصنوعی یک جعبه سیاه است. آنتروپیک راهی برای نگاه کردن به درون اختراع کرد

سال گذشته، تیم آزمایش مدل کوچکی را آغاز کرد که فقط از یک لایه نورون استفاده می کرد. (LLM های پیچیده ده ها لایه دارند.) امید این بود که در ساده ترین تنظیمات ممکن، بتوانند الگوهایی را کشف کنند که نشان دهنده توابع است. آنها آزمایش های بی شماری را بدون موفقیت انجام دادند. “ما یک سری چیزها را امتحان کردیم و هیچ چیز جواب نداد. تام هنیگان، یکی از اعضای کادر فنی آنتروپیک، می‌گوید: «به نظر می‌رسید یک دسته آشغال تصادفی. سپس حلقه ای به نام “جانی” – به هر آزمایش یک نام تصادفی اختصاص داده شد – شروع به اتصال الگوهای عصبی به مفاهیمی کرد که در نتایج آن ظاهر شد.

کریس به او نگاه کرد و گفت: “لعنت. هنیگان که او نیز شگفت زده شده بود، می گوید: این عالی به نظر می رسد. “به آن نگاه کردم و گفتم: “اوه، وای، صبر کن، آیا این کار می کند؟”

ناگهان محققان توانستند ویژگی های کدگذاری شده توسط گروهی از نورون ها را شناسایی کنند. آنها می توانستند به جعبه سیاه نگاه کنند. هنیگان می گوید که او پنج ویژگی اولیه را که به آنها نگاه کرده است شناسایی کرده است. یک گروه از نورون ها به معنای متون روسی بود. دیگری مربوط به توابع ریاضی در زبان کامپیوتر پایتون بود. و غیره.

محققان پس از اینکه نشان دادند می‌توانند ویژگی‌های مدل کوچک را شناسایی کنند، کار پیچیده‌تر رمزگشایی LLM با اندازه کامل را در طبیعت آغاز کردند. آنها از کلود سونت، نسخه متوسط سه مدل فعلی آنتروپیک استفاده کردند. این هم کار کرد. یکی از ویژگی هایی که به آنها توجه کرد مربوط به پل گلدن گیت بود. آنها مجموعه‌ای از نورون‌ها را نقشه‌برداری کردند که وقتی با هم شلیک شدند، نشان دادند که کلود به ساختار عظیمی که سانفرانسیسکو را به مارین کانتی متصل می‌کند «فکر می‌کند». علاوه بر این، هنگامی که چنین مجموعه‌ای از نورون‌ها شلیک می‌شوند، اجسامی را فراخوانی می‌کنند که در نزدیکی پل گلدن گیت قرار دارند: آلکاتراز، فرماندار کالیفرنیا گاوین نیوسام، و فیلم هیچکاک. سرگیجهکه در سانفرانسیسکو اتفاق می افتد. در مجموع، تیم میلیون‌ها ویژگی را شناسایی کرد – نوعی سنگ روزتا برای رمزگشایی شبکه عصبی کلود. بسیاری از ویژگی‌ها مربوط به ایمنی بودند، از جمله «نزدیک شدن به فردی با انگیزه‌های پنهان»، «بحث در مورد جنگ بیولوژیکی» و «توطئه‌های شرور برای تصرف جهان».

سپس تیم Anthropic قدم بعدی را برداشتند تا ببینند آیا می توانند از این اطلاعات برای تغییر رفتار کلود استفاده کنند. آنها شروع به دستکاری شبکه عصبی برای افزایش یا کاهش مفاهیم خاص کردند – نوعی جراحی مغز هوش مصنوعی، با پتانسیل ایمن تر کردن LLM ها و افزایش قدرت آنها در زمینه های انتخاب شده. بیایید بگوییم که ما این تابلوی ویژگی را داریم. ما مدل را روشن می کنیم، یکی از آنها روشن می شود، و می بینیم: “اوه، به پل گلدن گیت فکر می کند.” شان کارتر، دانشمند انسان شناس در این تیم می گوید. “پس اکنون ما به این فکر می کنیم، اگر یک صفحه کوچک روی همه اینها بگذاریم چه؟ پس اگر آن دیسک را بچرخانیم چه؟

تا اینجا به نظر می رسد که پاسخ به این سوال این است که چرخاندن صفحه به مقدار مناسب بسیار مهم است. آنتروپیک می‌گوید با سرکوب این ویژگی‌ها، این مدل می‌تواند برنامه‌های کامپیوتری ایمن‌تری ایجاد کند و سوگیری را کاهش دهد. به عنوان مثال، تیم چندین ویژگی را یافت که نشان دهنده اقدامات ناامن است، مانند کد رایانه ای ناامن، ایمیل های جعلی و دستورالعمل هایی برای ایجاد محصولات ناایمن.