یکی از مؤلفههای کلیدی که ChatGPT را به موفقیت چشمگیری تبدیل کرد، ارتشی از مربیان انسانی بود که به مدل هوش مصنوعی پشت ربات در مورد نتایج خوب و بد راهنمایی میکردند. اکنون OpenAI می گوید که افزودن هوش مصنوعی حتی بیشتر به این ترکیب – برای کمک به آموزش انسان ها – می تواند به هوشمندتر و قابل اعتمادتر شدن دستیاران هوش مصنوعی کمک کند.
در توسعه ChatGPT، OpenAI در استفاده از یادگیری تقویتی با بازخورد انسانی یا RLHF پیشگام شد. این تکنیک از ورودی آزمایشکنندگان انسانی برای تنظیم دقیق مدل هوش مصنوعی استفاده میکند تا خروجی آن منسجمتر، ناخواستهتر و دقیقتر ارزیابی شود. رتبهبندیهایی که مربیان میدهند به الگوریتمی وارد میشوند که رفتار مدل را هدایت میکند. ثابت شده است که این تکنیک هم در قابل اعتمادتر و مفیدتر کردن چت بات ها و هم در جلوگیری از رفتار نادرست آنها بسیار مهم است.
Nat McAleese، محققی در OpenAI که در کار جدید شرکت دارد، میگوید: «RLHF بسیار خوب کار میکند، اما محدودیتهای کلیدی دارد. برای یک چیز، بازخورد انسان می تواند متناقض باشد. از سوی دیگر، ارزیابی نتایج بسیار پیچیده، مانند کد نرم افزار پیچیده، حتی برای افراد با تجربه نیز می تواند دشوار باشد. این فرآیند همچنین میتواند یک مدل را برای تولید نتیجهای که محتملتر از دقیقتر به نظر میرسد، بهینه کند.
OpenAI با تنظیم دقیق قدرتمندترین پیشنهاد خود، GPT-4، مدل جدیدی را توسعه داد تا به مربیان انسانی که مسئول ارزیابی کد هستند کمک کند. این شرکت دریافت که مدل جدید، به نام CriticGPT، میتواند اشکالاتی را که انسانها از قلم انداختهاند، تشخیص دهد و داوران انسانی، نقدهای کد آن را در ۶۳ درصد مواقع بهتر میدانند. OpenAI به دنبال گسترش این رویکرد به مناطقی فراتر از کد در آینده خواهد بود.
McAleese می گوید: “ما در حال شروع کار برای ادغام این تکنیک در پشته چت RLHF خود هستیم.” او خاطرنشان میکند که این رویکرد ناقص است، زیرا CriticGPT همچنین میتواند با توهم کردن اشتباه کند، اما میافزاید که این تکنیک میتواند به دقیقتر کردن مدلهای OpenAI و همچنین ابزارهایی مانند ChatGPT با کاهش خطاهای یادگیری انسان کمک کند. او اضافه میکند که این میتواند در کمک به هوشمندتر شدن مدلهای هوش مصنوعی بسیار مهم باشد، زیرا میتواند به انسانها اجازه دهد تا به آموزش هوش مصنوعی که فراتر از تواناییهای خودشان است کمک کنند. McAleese می گوید: “و همانطور که مدل ها همچنان بهتر و بهتر می شوند، ما گمان می کنیم که مردم به کمک بیشتری نیاز دارند.”
این تکنیک جدید یکی از تکنیکهایی است که اکنون برای بهبود مدلهای زبان بزرگ و حذف قابلیتهای بیشتر از آنها توسعه یافته است. همچنین بخشی از تلاش برای اطمینان از این است که هوش مصنوعی حتی در صورت توانمندتر شدن، به شیوه ای قابل قبول رفتار می کند.
در اوایل این ماه، Anthropic، یک رقیب OpenAI که توسط کارمندان سابق OpenAI تأسیس شده بود، به لطف بهبود در حالت آموزشی مدل و دادههایی که از آن تغذیه میکند، نسخه قابلتری از چت بات خود به نام Claude را معرفی کرد. Anthropic و OpenAI اخیراً راههای جدیدی را برای بازرسی مدلهای هوش مصنوعی پیشنهاد کردهاند تا بفهمند چگونه به خروجی خود میرسند تا بهتر از رفتارهای ناخواسته مانند تقلب جلوگیری کنند.
این تکنیک جدید میتواند به OpenAI کمک کند تا مدلهای هوش مصنوعی قدرتمندتر را آموزش دهد و در عین حال اطمینان حاصل کند که خروجی آنها قابل اعتمادتر و انسانیتر است، به خصوص اگر شرکت با موفقیت آن را در زمینههای بیشتری نسبت به کد مستقر کند. OpenAI گفته است که در حال آموزش مدل بعدی هوش مصنوعی خود است و این شرکت به وضوح مایل است نشان دهد که در مورد تضمین رفتار خود جدی است. این به دنبال انحلال یک تیم برجسته است که به ارزیابی خطرات بلندمدت ناشی از هوش مصنوعی اختصاص یافته است. این تیم توسط Ilya Sutzkever، یکی از بنیانگذاران شرکت و عضو سابق هیئت مدیره، رهبری می شد که قبل از کناره گیری و کمک به او برای به دست آوردن کنترل، برای مدت کوتاهی مدیر عامل سام آلتمن را از شرکت برکنار کرد. چندین نفر از اعضای آن تیم از آن زمان از این شرکت به دلیل اتخاذ یک حرکت مخاطره آمیز انتقاد کردند زیرا این شرکت برای توسعه و تجاری سازی الگوریتم های هوش مصنوعی قدرتمند عجله دارد.
Dylan Hadfield-Mennell، استاد MIT که روشهای همسوسازی هوش مصنوعی را مطالعه میکند، میگوید ایده مدلهای هوش مصنوعی که به آموزش مدلهای قدرتمندتر کمک میکنند مدتی است که وجود داشته است. او می گوید: «این یک پیشرفت کاملاً طبیعی است.
هادفیلد-منل خاطرنشان می کند که محققانی که در ابتدا تکنیک های مورد استفاده برای RLHF را توسعه دادند چندین سال پیش ایده های مرتبط را مورد بحث قرار دادند. او میگوید باید دید تا چه حد قابل اجرا و قدرتمند است. او میگوید: «این میتواند منجر به جهشهای بزرگ در تواناییهای فردی شود و میتواند پلهای برای بازخورد مؤثرتر در بلندمدت باشد».