محققان «دانشگاه توکیو» و استارتاپ Alternative Machine یک ربات انسان‌نما را توسعه داده‌اند که می‌تواند دستورات زبان طبیعی را به طور مستقیم به عملکرد تبدیل کند. این ربات که Alter3 نام دارد به گونه‌ای طراحی شده که بتواند از دانش گسترده مدل‌های زبانی بزرگ (LLM) مانند GPT-4 برای انجام کارهای پیچیده مانند گرفتن عکس سلفی استفاده کند.

Alter3 از GPT-4 پشتیبانی می‌کند و با این وجود، می‌تواند به دستورات زبان طبیعی که یک عمل یا موقعیت را توصیف می‌کنند پاسخ دهد. مدل زبانی بزرگ این ربات از یک فریم‌ورک برای برنامه‌ریزی مجموعه‌ای از اقدامات استفاده می‌کند که Alter3 برای رسیدن به هدف خود باید آن‌ها را انجام دهد.

قابلیت‌های ربات انسان‌نما Alter3

در ویدیو زیر این ربات عملیات گرفتن سلفی با آیفون را شبیه‌سازی می‌کند:

در مرحله اول، مدل به‌عنوان یک برنامه‌ریز عمل می‌کند و باید مراحل مورد نیاز برای انجام یک عمل مورد نظر را تعیین کند.

در مرحله بعد دستورات موردنیاز ربات برای انجام هر یک از کارهای تولید می‌شود. سپس مدل هر یک از مراحل را به یک یا چند دستور API تبدیل می‌کند که برای ربات ارسال می‌شوند.

ویدیو زیر نیز عملیات پرتاب توپ توسط ربات را نشان می‌دهد:

محققان Alter3 را با چندین وظیفه مختلف از جمله کارهای روزمره مانند گرفتن عکس سلفی، نوشیدن چای و تقلید برخی رفتارها آزمایش کرده‌اند. آن‌ها همچنین در آزمایش‌های خود روی توانایی مدل برای پاسخگویی به سناریوهایی که نیاز به برنامه‌ریزی دقیق دارند نیز تمرکز کرده‌اند.

دانش گسترده مدل GP-4 در زمینه رفتارها و اعمال انسان، باعث‌شده تا در چند سال گذشته ربات‌های انسان‌نما زیادی مانند Alter3 توسعه پیدا کنند که می‌توانند برنامه‌های خود را به شیوه‌ای واقعی انجام دهند. آزمایش محققان همچنین نشان می‌دهد که آن‌ها می‌توانند احساساتی مانند خجالت و شادی را تقلید کنند.