هوش مصنوعی جمنای؛ گوگل بالاخره ChatGPT را به زانو درآورد؟

در حال حاضر پیکسل ۸ پرو مجهز به تراشه‌ی Tensor 3 تنها دستگاه سازگار با جمنای نانو است و قرار است در به‌روزرسانی آینده از قابلیت‌‌های هوش مصنوعی چون خلاصه‌سازی خودکار در اپلیکیشن Recorder و قابلیت Smart Reply در کیبورد Gboard بهره ببرد. البته گوگل ماجرا را از این هم پیچیده‌تر کرده و می‌گوید جمنای نانو بسته به ظرفیت رم گوشی در دو مدل Nano-1 با ۱٫۸ میلیارد پارامتر و Nano-2 با ۳٫۲۵ میلیارد پارامتر عرضه خواهد شد.

گوگل، مدل هوش مصنوعی جمنای را اینگونه توصیف می‌کند:

جمنای به روش کاملا جدیدی برای اهداف چندوجهی (multimodality)، یعنی استدلال و جابه‌جایی روان و یکپارچه بین متن، تصویر، ویدیو، صدا و کد توسعه یافته است.

گوگل در تعریف جمنای به دفعات به کلمه‌ی «چندوجهی» بودن، آن هم به‌صورت بومی اشاره می‌کند. اما منظور از چندوجهی بودن مدل هوش مصنوعی دقیقا چیست؟

چندوجهی بودن جمنای به این معنی است که گوگل برای آموزش دادن مدل صرفا به متن بسنده نکرده و آن را با مقادیر عظیمی از کد، فایل‌های صوتی، تصاویر و ویدیو بهبود داده است؛ برای همین، جمنای می‌تواند به‌همان راحتی که به درخواست‌های متنی پاسخ می‌دهد، از پرامپت‌های صوتی و حتی ویدیویی هم سر در بیاورد.

قدرت استدلال چندوجهی و تکنیک «کاملا جدید» در توسعه جمنای

ایلای کالینز (Eli Collins) معاون محصول دیپ‌مایند در توضیح مختصری که از مدل‌های چندوجهی مدعی شد که جمنای اولترا می‌تواند اطلاعات «بسیار جزیی» را در متن، تصویر، صدا و کد درک کند و به سوالات مربوط به موضوعات پیچیده، به‌ویژه مسائل ریاضی و فیزیک پاسخ دهد.

روش استاندارد در ساخت مدل‌های چندوجهی، آموزش اجزای جداگانه‌ی مدل با وجه‌های مختلف است. این مدل‌ها در انجام وظایف خاصی مانند توصیف تصویر بسیار خوب هستند، اما هنگام رویارویی با تسک‌هایی که به استدلال مفهومی و پیچیده‌تر نیاز دارند، دچار مشکل می‌شوند. برای همین ما جمنای را به‌صورت بومی چندوجهی طراحی کردیم تا از پس این مشکل برآید.

از این توضیحات نمی‌توان تفاوت جادویی جمنای را از مدل‌های رقیب متوجه شد، چون حتی این بحث «چندوجهی» بودن و توانایی تجزیه‌وتحلیل ویدیو پیش‌تر در مدل GPT-4 with Vision دیده شده بود. البته بهبود قدرت استدلال مدل در رسیدن به هوش مصنوعی فرا انسانی بسیار مهم است و گوگل مدعی است برای تقویت استدلال جمنای از روش کاملا جدیدی استفاده کرده است؛ هرچند تمایلی به توضیح درباره‌ی این روش ندارد.

گوگل: جمنای درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد

بااین‌حال، دمیس هاسابیس (Demis Hassabis)، رهبر تیم توسعه‌ی جمنای که پیش‌تر رهبری تیم توسعه‌دهنده‌ی بات آلفا‌گو را برعهده داشت، مدعی شد این مدل قابلیت‌های جدیدی را ارائه خواهد داد که درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد. او همچنین گفت برای اینکه سیستم‌های هوش مصنوعی بتوانند جهان را بهتر از چت‌بات‌های امروزی درک کنند، مدل‌‌های زبانی بزرگ لازم است با سایر تکنیک‌های هوش مصنوعی ترکیب شوند.

تااینجا، مدل‌های زبانی بزرگ ازجمله GPT-4 با خوراندن حجم عظیمی از داده‌های متنی آموزش دیده‌اند و برخی از پژوهشگران هوش مصنوعی معتقدند هرچه بر حجم این داده‌ها افزوده شود، مدل قدرتمند‌تر خواهد شد؛ تا جایی‌ که بتوانند از هوش انسانی پیشی بگیرند.

اما شناخت واقعیت فیزیکی از درون لنز متونی که انسان‌ها درباره‌اش نوشته‌اند، بالاخره جایی به بن‌بست می‌خورد و نقاط ضعف مدل‌های زبانی بزرگ، ازجمله هذیان‌گویی، استدلال ضعیف و مشکلات امنیتی عجیب‌وغریب آن‌ها این واقعیت را آشکار می‌کند که صرف افزایش حجم داده‌ احتمالا هیچ‌گاه به دستیابی به «فراهوش مصنوعی» منجر نشود.

اگرچه گوگل خودش را در رقابتی نفس‌گیر با OpenAI قرار داده است، هر دو رقیب گویا به این نتیجه رسیده‌اند که برای بهبود وضعیت هوش مصنوعی لازم است به روش‌های کاملا جدیدی روی آورد. درحال حاضر، OpenAI مشغول توسعه‌ی پروژه‌ی مخفی و مرموزی به‌نام *Q است که از تکنیک‌های جدیدی در آن استفاده شده و ظاهرا قرار است این شرکت را یک قدم به هوش فرا انسانی معروف‌به AGI نزدیک‌تر کند.

سم‌آلتمن، مدیرعامل OpenAI چند ماه پیش گفته بود که «من بر این باورم که به پایان عصری رسیدیم که مدل‌های هوش مصنوعی فوق‌العاده عظیم بتوانند راهگشا باشند. برای بهبود این مدل‌ها سراغ روش‌های دیگری خواهیم رفت.»

اما آیا جمنای همان‌طور که گوگل می‌گوید آغاز عصر جدید هوش مصنوعی است؟ فعلا برای رسیدن به این نتیجه‌گیری بسیار زود است؛ به‌ویژه چون عملکرد جمنای پرو در چت‌بات بارد هنوز نتوانسته بهبود چشمگیری نسبت‌به GPT-4 از خود نشان دهد و تا عرضه‌ی جمنای اولترا و بررسی توانایی‌های آن چند ماه دیگر مانده است.

ماجرای ویدیوی دست‌کاری شده‌ی جمنای چه بود؟

زمانی که داشتم مقایسه‌ی بینگ چت، بارد و چت‌جی‌پی‌تی را می‌نوشتم، به این نتیجه رسیدم که بزرگ‌ترین باخت چت‌بات گوگل در رقابت با بینگ‌‌ چت و ChatGPT در حوزه‌ی مارکتینگ و زمان انتشار بود. یعنی اگر بارد بعد از هیاهوی تبلیغاتی ChatGPT و پیش از بینگ چت منتشر شده بود، می‌توانست به‌خاطر قابلیت اتصال به اینترنت و دسترسی به داد‌ه‌های به‌روز مزیتی نسبت‌به ChatGPT داشته باشد. اما بارد هنگام عرضه بسیار محدود‌تر از بینگ چت بود و ماجرای خطای علمی و سرقت ادبی هم به‌شدت به‌ضررش تمام شد. در سایه‌ی تمام این اشتباهات و محدودیت‌ها، عجیب نبود که بارد به‌سرعت به دست فراموشی سپرده شود.

اما گوگل این بار با معرفی جمنای قصد داشت ضعف در مارکتینگ و زمان انتشار را جبران کند، طوری‌که ظاهرا پروژه را بسیار زودتر از زمان مناسب منتشر کرد و برای تبلیغ قابلیت‌های اعجاب‌انگیزش از ویدیویی استفاده کرد که حسابی در رسانه‌ها و شبکه‌های اجتماعی خبرساز شد؛‌ در دقایق ابتدایی، دقیقا به همان دلیلی که گوگل برایش برنامه‌ریزی کرده بود، اما کمی بعد مشخص شد این ویدیوی شگفت‌انگیز آن‌قدرها هم که فکرش را می‌کردیم، جادویی نیست.

اغراق می‌کنم تماشای این ویدیوی ۶ دقیقه‌‌ای از عملکرد جمنای نفس‌ها را در سینه حبس می‌کند. گوگل در این دمو به ما نشان می‌دهد که چگونه قدرتمندترین هوش مصنوعی‌اش توانایی تجزیه‌وتحلیل «ویدیو»‌ را دارد و می‌تواند در لحظه پرامپت‌های صوتی و ویدیویی را آنالیز کند، استدلال کند و مناسب‌ترین پاسخ را در کسری از ثانیه ارائه دهد.

ویدئوی شگفت‌انگیز جمنای واقعی نیست!

مثلا می‌بینیم که چطور جمنای می‌تواند در هر مرحله از تکمیل شدن طرح یک اردک، به درستی از خطوط کشیده‌شده سر دربیاورد؛ یا به‌درستی حرکت دست روی نقشه را دنبال کند و جواب درست را تشخیص دهد؛ یا از این هم شگفت‌انگیزتر؛ به‌درستی تشخیص دهد کاغذ مچاله‌شده زیر کدام لیوان پنهان شده است یا متوجه شعبده‌بازی ناپدید کردن سکه در دست شود یا ویدیوی در حال پخش از گوشی‌ پیکسلی را تحلیل کند که خودش دارد از ویدیوی دیگری پخش می‌شود!

اما وقتی از تماشای ویدیو دست می‌کشیم و به بُعد عملی قضیه فکر می‌کنیم، سوالات زیادی ذهن را درگیر می‌کنند. چطور ممکن است یک مدل زبانی بزرگ، هرچقدر هم قدرتمند، بتواند این چنین روان با ویدیویی در حال پخش در دل ویدویی دیگر ارتباط برقرار کند؟ چطور ممکن است هوش مصنوعی به‌جایی رسیده باشد که بتواند سریع و روان بین پرامپت‌های مختلف جابه‌جا شود؟

دموی تبلیغاتی جمنای فریبکارانه بود

نکته اینجا است که دموی تبلیغاتی گوگل ما را فریب داد. البته شاید استفاده از لفظ «فریب» کاملا درست نباشد؛‌ به‌ویژه اگر نظر خود گوگل را بپرسید، چون احتمالا خواهد گفت هم در ابتدای دمو و هم در بخش توضیحات یوتیوب، هشدارهای لازم را داده است. مثلا اینکه گفته به مدل «یک سری تصویر» نشان داده است تا خودمان به این نتیجه برسیم که چیزی که به صورت ویدیو به ما نمایش داده شد، واقعی نیست. در توضیحات یوتیوب هم نوشته است که برای کوتاه کردن ویدیو، تاخیر در پاسخ مدل کم شده و جواب‌های جمنای هم خلاصه شده‌اند.

اما باوجود این توضیحات که احتمالا خود گوگل هم می‌دانسته پشت قابلیت‌های «جادویی» جمنای گم خواهند شد، این حقیقت کماکان پابرجا است که آنچه در دموی معرفی این هوش مصنوعی دیدیم، آنطور نیست که به نظر می‌آید.

در دموی جمنای فردی را می‌بینیم که با این مدل صحبت می‌کند، آنطور که مثلا شخصیت تئودور در فیلم Her با هوش مصنوعی سامانتا صحبت می‌کند؛ اما در واقعیت، مکالمه‌ی بین‌ این فرد با جمنای کاملا متنی بود.

در دمو همچنین می‌بینیم که جمنای دارد در لحظه با ویدیوی متحرک ارتباط برقرار می‌کند، اما در واقعیت، صرفا در حال تجزیه‌وتحلیل تصاویر ساکن بوده است؛ همان‌طور که گوگل در پستی درباره‌ی نحوه‌ی ساخت دموی جمنای به آن اشاره کرده است.