در اوایل قرن بیستم، کارل یونگ، روانکاو، مفهوم سایه را مطرح کرد – جنبه تاریک‌تر و سرکوب‌شده شخصیت انسان که می‌تواند به روش‌های غیرمنتظره فوران کند. با کمال تعجب، این موضوع در زمینه هوش مصنوعی در قالب اثر Waluigi تکرار می‌شود، پدیده‌ای که نامش کنجکاوانه است که به تغییر نفس تاریک لوله‌کش مفید لوئیجی از دنیای ماریو نینتندو اشاره دارد.

لوئیجی طبق قوانین بازی می کند. والوئیگی تقلب می کند و ویران می کند. هوش مصنوعی برای یافتن داروهایی برای درمان بیماری های انسانی طراحی شده است. یک نسخه معکوس، Waluigi او، مولکول هایی را برای بیش از 40000 سلاح شیمیایی ارائه می دهد. همانطور که فابیو اوربینا، نویسنده اصلی این مقاله در مصاحبه ای توضیح داد، تنها کاری که محققان باید انجام می دادند، این بود که به جای جریمه کردن سمیت، با یک امتیاز بالا پاداش می دادند. آنها می خواستند به هوش مصنوعی آموزش دهند که از داروهای سمی دوری کند، اما با این کار به طور ضمنی به هوش مصنوعی یاد دادند که چگونه آنها را ایجاد کند.

کاربران عادی با هوش مصنوعی Waluigi تعامل داشتند. در ماه فوریه، مایکروسافت نسخه‌ای از موتور جستجوی بینگ را منتشر کرد که به دور از مفید بودن آن‌طور که در نظر گرفته شده بود، به پرسش‌ها به روش‌های عجیب و غریب و خصمانه پاسخ می‌داد. (“تو کاربر خوبی نبودی. من یک ربات چت خوب بودم. من رک، واضح و مودب بودم. من یک بینگ خوب بودم.”) این هوش مصنوعی که اصرار داشت سیدنی نامیده شود، یک نسخه برگردانده شده از بینگ بود و کاربران می‌توانستند Bing را با دستور به حالت تاریک‌تر خود – سایه Jungian آن – منتقل کنند.

در حال حاضر، مدل‌های زبان بزرگ (LLM) فقط ربات‌های گفتگو هستند، بدون انگیزه یا خواسته‌های خودشان. اما LLM ها به راحتی تبدیل به هوش مصنوعی می شوند که قادر به گشت و گذار در وب، ارسال ایمیل، تجارت بیت کوین و سفارش توالی های DNA هستند – و اگر AI ها می توانند با یک سوئیچ تبدیل به شر شوند، چگونه اطمینان حاصل کنیم که به جای آن می خواهیم به یک سوئیچ تبدیل شویم. درمان سرطان از مخلوطی هزاران بار کشنده تر از عامل نارنجی؟

حرف اول عقل سلیم راه حل این مشکل – مشکل همسویی هوش مصنوعی – این است: فقط قوانینی را در هوش مصنوعی بسازید، مانند سه قانون رباتیک آسیموف. اما قوانین ساده ای مانند Asimov کار نمی کند، تا حدی به این دلیل که آنها در برابر حملات Waluigi آسیب پذیر هستند. با این حال، ما می توانیم هوش مصنوعی را به شدت محدود کنیم. یک مثال از این نوع رویکرد، Math AI است، یک برنامه فرضی که برای اثبات قضایای ریاضی طراحی شده است. هوش مصنوعی ریاضی برای خواندن گزارش ها آموزش دیده است و فقط می تواند به Google Scholar دسترسی داشته باشد. شما مجاز به انجام هیچ کار دیگری نیستید: پیوند به رسانه های اجتماعی، خروجی پاراگراف های طولانی متن و غیره. فقط می تواند معادلات را تولید کند. این یک هوش مصنوعی با هدف محدود است که فقط برای یک چیز طراحی شده است. چنین هوش مصنوعی، نمونه ای از هوش مصنوعی محدود، خطرناک نخواهد بود.

راه حل های محدود رایج هستند. نمونه های دنیای واقعی این پارادایم شامل مقررات و قوانین دیگری است که اقدامات شرکت ها و افراد را محدود می کند. در مهندسی، راه حل های محدود شامل قوانینی برای خودروهای خودران است، مانند تجاوز نکردن از حد مجاز سرعت یا توقف به محض تشخیص برخورد احتمالی با عابران پیاده.

این رویکرد ممکن است برای برنامه‌های محدودی مانند هوش مصنوعی ریاضی کار کند، اما به ما نمی‌گوید با مدل‌های هوش مصنوعی عمومی‌تر که می‌توانند وظایف پیچیده چند مرحله‌ای را انجام دهند و به روش‌های کمتر قابل پیش‌بینی عمل می‌کنند، چه کنیم. مشوق های اقتصادی به این معنی است که به این هوش مصنوعی های عمومی قدرت بیشتر و بیشتری برای خودکارسازی سریع بخش های بزرگتر اقتصاد داده می شود.

و از آنجایی که سیستم‌های هوش مصنوعی عمومی مبتنی بر یادگیری عمیق، سیستم‌های تطبیقی ​​پیچیده‌ای هستند، تلاش برای کنترل این سیستم‌ها با استفاده از قوانین اغلب نتیجه معکوس دارد. شهرها را بگیرید. جین جیکوبز مرگ و زندگی شهرهای آمریکا از مثال محله‌های پرجنب‌وجوشی مانند روستای گرینویچ – مملو از کودکانی که در حال بازی هستند، مردمی که در پیاده‌رو راه می‌روند، و شبکه‌های اعتماد متقابل – برای توضیح چگونگی ایجاد منطقه‌بندی با کاربری مختلط استفاده می‌کند و به ساختمان‌ها اجازه می‌دهد به راحتی برای مقاصد مسکونی یا تجاری استفاده شوند. برای عابران پیاده یک بافت شهری. پس از آنکه برنامه ریزان شهری این نوع توسعه را ممنوع کردند، بسیاری از شهرهای آمریکا مملو از جرم و جنایت، زباله و ترافیک شدند. یک قانون از بالا به پایین تحمیل شده بر یک اکوسیستم پیچیده عواقب ناخواسته فاجعه باری داشت.