همچنین از مدل‌ها خواسته شد که ابعاد نسبی سایه‌ی اشیای داخل یک تصویر را بررسی کنند. پژوهشگرها این آزمایش را با زوج تصاویر و تصاویر معکوس هم تکرار کردند تا سوگیری‌های احتمالی سمت چپ یا راست را در پاسخ مدل‌ها آشکار کنند. اگر واکنش‌های بات به تمام پرسش‌ها منطبق با درک استاندارد انسانی بود، پژوهشگرها آن را در دسته‌ی «شبه‌انسان» قرار می‌دادند.

برای نوعی دستور که به اندازه‌گیری توانایی مدل‌ها برای موقعیت‌یابی اشیای درون یک تصویر اختصاص دارد، دو مدل تست‌شده در واکنش به توهم‌های پرسپکتیو تا ۷۵ درصد شبیه به انسان عمل کردند. در تست‌های دیگر و برای مدل‌های دیگر، سرعت واکنش‌های شبیه به انسان به شکل چشمگیری پائین‌تر بودند.

بر اساس یک پژوهش پیش‌انتشار دیگر که در ماه مارس منتشر شد، پژوهشگر‌ها به تست قابلیت‌های GPT-4V و جمنای پرو گوگل پرداختند تا ۱۲ دسته‌ی متفاوت از توهم‌های بصری را ارزیابی کنند. این توهم‌ها مواردی مثل توهمات شیء غیرممکن را دربر می‌گرفتند که شامل شکل‌های دوبعدی از اشیایی هستند که نمی‌توانند در فضای سه‌بعدی وجود داشته باشند.

همچنین توهم‌های تصویر پنهان که در آن سایه‌های اشیا بدون آنکه فورا قابل تشخیص باشد، درون تصویر گنجانده شده بودند. در ۹ دسته از ۱۲ دسته، مدل‌ها در نشان دادن اتفاق‌های یک توهم نسبت به افراد عملکرد ضعیف‌تری داشتند، به‌طوری‌که با ۵۹ درصد دقت در برابر ۹۴ درصد دقت انسانی همراه بودند؛ اما در سه دسته‌ی رنگ، زاویه‌ی و توهم‌های اندازه، GPT -4V عملکرد نسبتا بهتر یا مقایسه‌پذیری با ناظران انسانی داشت.

بیشتر بخوانید:

به باور واسی احمد، یکی از مؤلفان پژوهش و دانشمندان کاربردی در آزمایشگاه هوش مصنوعی آمازون وب سرویسز، تفاوت‌ها به این بستگی دارند که برای تحلیل توهم‌ها به استدلال کمی نیاز داریم یا کیفی. از سوی دیگر مدل‌های یادگیری ماشین باید کمتر در معرض چیزهایی قرار بگیرند که اندازه‌گیری‌شان آسان نیست. سه دسته توهمی که هوش مصنوعی بهترین عملکرد را در تحلیل‌شان دارند، اغلب شامل ویژگی‌های قابل اندازه‌گیری هستند نه صرفا ادراک ذهنی. به گفته‌ی جویس چای، استاد علوم کامپیوتر و پژوهشگر هوش مصنوعی در دانشگاه میشیگان:

 برای توسعه‌ی سیستم‌های هوش مصنوعی به درک آسیب‌پذیری‌ها و نقاط کور آن‌ها نیاز داریم. همچنین باید بدانیم آیا گرایش‌های انسانی را تقلید می‌کنند یا خیر. هماهنگی با انسان برای یک مدل می‌تواند خوب یا بد باشد. در برخی نمونه‌ها تعدیل سوگیری‌های انسانی مطلوب است. برای مثال ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژی را تحلیل می‌کنند، در معرض خطای بصری قرار ندارند.

در برخی برنامه‌ها بهتر است هوش مصنوعی از برخی سوگیری‌های انسان تقلید کند. برای مثال ممکن است بخواهیم سیستم‌های بصری هوش مصنوعی در خودروهای خودران با خطای انسانی منطبق شوند، به‌طوری‌که پیش‌بینی و درک خطاهای وسایل نقلیه آسان‌تر شود؛ اما عامل نگرانی درباره‌ی خودروهای خودران، خطاهای عجیبشان است که سیستم‌های امنیتی روی جاده آماده‌ی کنترل آن‌ها نیستند.

GPT-4V از اوپن ای‌آی و دیگر مدل‌های یادگیری ماشین بزرگ اغلب اوقات به‌صورت جعبه‌های سیاه توصیف می‌شوند. سیستم‌های غیرشفافی که بدون توضیح خروجی‌هایی را ارائه می‌دهند، اما پدیده‌ی انسانی توهم‌های بصری می‌تواند چشم‌اندازی از اتفاقات درونی آن‌ها را آشکار کند.