یکی از مؤلفه‌های کلیدی که ChatGPT را به موفقیت چشمگیری تبدیل کرد، ارتشی از مربیان انسانی بود که به مدل هوش مصنوعی پشت ربات در مورد نتایج خوب و بد راهنمایی می‌کردند. اکنون OpenAI می گوید که افزودن هوش مصنوعی حتی بیشتر به این ترکیب – برای کمک به آموزش انسان ها – می تواند به هوشمندتر و قابل اعتمادتر شدن دستیاران هوش مصنوعی کمک کند.

در توسعه ChatGPT، OpenAI در استفاده از یادگیری تقویتی با بازخورد انسانی یا RLHF پیشگام شد. این تکنیک از ورودی آزمایش‌کنندگان انسانی برای تنظیم دقیق مدل هوش مصنوعی استفاده می‌کند تا خروجی آن منسجم‌تر، ناخواسته‌تر و دقیق‌تر ارزیابی شود. رتبه‌بندی‌هایی که مربیان می‌دهند به الگوریتمی وارد می‌شوند که رفتار مدل را هدایت می‌کند. ثابت شده است که این تکنیک هم در قابل اعتمادتر و مفیدتر کردن چت بات ها و هم در جلوگیری از رفتار نادرست آنها بسیار مهم است.

Nat McAleese، محققی در OpenAI که در کار جدید شرکت دارد، می‌گوید: «RLHF بسیار خوب کار می‌کند، اما محدودیت‌های کلیدی دارد. برای یک چیز، بازخورد انسان می تواند متناقض باشد. از سوی دیگر، ارزیابی نتایج بسیار پیچیده، مانند کد نرم افزار پیچیده، حتی برای افراد با تجربه نیز می تواند دشوار باشد. این فرآیند همچنین می‌تواند یک مدل را برای تولید نتیجه‌ای که محتمل‌تر از دقیق‌تر به نظر می‌رسد، بهینه کند.

OpenAI با تنظیم دقیق قدرتمندترین پیشنهاد خود، GPT-4، مدل جدیدی را توسعه داد تا به مربیان انسانی که مسئول ارزیابی کد هستند کمک کند. این شرکت دریافت که مدل جدید، به نام CriticGPT، می‌تواند اشکالاتی را که انسان‌ها از قلم انداخته‌اند، تشخیص دهد و داوران انسانی، نقدهای کد آن را در ۶۳ درصد مواقع بهتر می‌دانند. OpenAI به دنبال گسترش این رویکرد به مناطقی فراتر از کد در آینده خواهد بود.

McAleese می گوید: “ما در حال شروع کار برای ادغام این تکنیک در پشته چت RLHF خود هستیم.” او خاطرنشان می‌کند که این رویکرد ناقص است، زیرا CriticGPT همچنین می‌تواند با توهم کردن اشتباه کند، اما می‌افزاید که این تکنیک می‌تواند به دقیق‌تر کردن مدل‌های OpenAI و همچنین ابزارهایی مانند ChatGPT با کاهش خطاهای یادگیری انسان کمک کند. او اضافه می‌کند که این می‌تواند در کمک به هوشمندتر شدن مدل‌های هوش مصنوعی بسیار مهم باشد، زیرا می‌تواند به انسان‌ها اجازه دهد تا به آموزش هوش مصنوعی که فراتر از توانایی‌های خودشان است کمک کنند. McAleese می گوید: “و همانطور که مدل ها همچنان بهتر و بهتر می شوند، ما گمان می کنیم که مردم به کمک بیشتری نیاز دارند.”

این تکنیک جدید یکی از تکنیک‌هایی است که اکنون برای بهبود مدل‌های زبان بزرگ و حذف قابلیت‌های بیشتر از آنها توسعه یافته است. همچنین بخشی از تلاش برای اطمینان از این است که هوش مصنوعی حتی در صورت توانمندتر شدن، به شیوه ای قابل قبول رفتار می کند.

در اوایل این ماه، Anthropic، یک رقیب OpenAI که توسط کارمندان سابق OpenAI تأسیس شده بود، به لطف بهبود در حالت آموزشی مدل و داده‌هایی که از آن تغذیه می‌کند، نسخه قابل‌تری از چت بات خود به نام Claude را معرفی کرد. Anthropic و OpenAI اخیراً راه‌های جدیدی را برای بازرسی مدل‌های هوش مصنوعی پیشنهاد کرده‌اند تا بفهمند چگونه به خروجی خود می‌رسند تا بهتر از رفتارهای ناخواسته مانند تقلب جلوگیری کنند.

این تکنیک جدید می‌تواند به OpenAI کمک کند تا مدل‌های هوش مصنوعی قدرتمندتر را آموزش دهد و در عین حال اطمینان حاصل کند که خروجی آنها قابل اعتمادتر و انسانی‌تر است، به خصوص اگر شرکت با موفقیت آن را در زمینه‌های بیشتری نسبت به کد مستقر کند. OpenAI گفته است که در حال آموزش مدل بعدی هوش مصنوعی خود است و این شرکت به وضوح مایل است نشان دهد که در مورد تضمین رفتار خود جدی است. این به دنبال انحلال یک تیم برجسته است که به ارزیابی خطرات بلندمدت ناشی از هوش مصنوعی اختصاص یافته است. این تیم توسط Ilya Sutzkever، یکی از بنیانگذاران شرکت و عضو سابق هیئت مدیره، رهبری می شد که قبل از کناره گیری و کمک به او برای به دست آوردن کنترل، برای مدت کوتاهی مدیر عامل سام آلتمن را از شرکت برکنار کرد. چندین نفر از اعضای آن تیم از آن زمان از این شرکت به دلیل اتخاذ یک حرکت مخاطره آمیز انتقاد کردند زیرا این شرکت برای توسعه و تجاری سازی الگوریتم های هوش مصنوعی قدرتمند عجله دارد.

Dylan Hadfield-Mennell، استاد MIT که روش‌های همسوسازی هوش مصنوعی را مطالعه می‌کند، می‌گوید ایده مدل‌های هوش مصنوعی که به آموزش مدل‌های قدرتمندتر کمک می‌کنند مدتی است که وجود داشته است. او می گوید: «این یک پیشرفت کاملاً طبیعی است.

هادفیلد-منل خاطرنشان می کند که محققانی که در ابتدا تکنیک های مورد استفاده برای RLHF را توسعه دادند چندین سال پیش ایده های مرتبط را مورد بحث قرار دادند. او می‌گوید باید دید تا چه حد قابل اجرا و قدرتمند است. او می‌گوید: «این می‌تواند منجر به جهش‌های بزرگ در توانایی‌های فردی شود و می‌تواند پله‌ای برای بازخورد مؤثرتر در بلندمدت باشد».