مایکروسافت نسخه جدیدی از مدل زبان کوچک Phi-3 خود را معرفی کرد که Phi-3-sight این نسخه جدید می تواند به تصاویر نگاه کند و اطلاعاتی در مورد آنها در اختیار شما قرار دهد.

Phi-3-vision یک مدل چندوجهی است (به این معنی که می تواند هم متن و هم تصاویر را درک کند) و بهترین استفاده را در تلفن های همراه دارد. مایکروسافت می گوید Phi-3-vision که اکنون در پیش نمایش است، یک مدل است 4.2 میلیارد پارامتر قادر به انجام وظایف کلی استدلال بصری، مانند پرسیدن سوال در مورد نمودارها یا تصاویر است.

البته، Phi-3-vision بسیار کوچکتر از سایر مدل های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. بر خلاف این مدل ها، Phi-3-vision توانایی تولید تصاویر را ندارد، اما می تواند محتوای تصویر را درک کرده و آن را برای کاربر تحلیل کند.

مایکروسافت Phi-3 را در ماه آوریل با Phi-3-mini معرفی کرد که کوچکترین مدل خانواده با 3.8 میلیارد پارامتر است. خانواده Phi-3 دو عضو دیگر دارد: Phi-3-small (7 میلیارد پارامتر) و Phi-3-medium (14 میلیارد پارامتر).

Phi-3-vision در حال حاضر به صورت پیش نمایش در دسترس است، بدون هیچ اطلاعاتی در مورد زمان عرضه جهانی آن. سایر اعضای این خانواده نیز از طریق کتابخانه مدل Azure در دسترس هستند.