مایکروسافت در کنفرانس بیلد 2024 از نسخه جدید مدل زبان کوچک خود به نام Phi-3-vision رونمایی کرد.

Phi-3-vision یک مدل زبان چندوجهی کوچک است که با بهره گیری از 4.2 میلیارد پارامتر، توانایی درک تصاویر و ویدئوها را دارد. به نظر می رسد هوش مصنوعی کوچک مایکروسافت با سایر مدل های زبانی مانند Gemnai 1 Pro گوگل و مدل Claude 3 Haiku برابری می کند.

بر اساس تحقیقات منتشر شده در Arxiv، هوش مصنوعی کوچک مایکروسافت در برخی موارد در معیارهای ScienceQA، MathVista، MMMU و ChartQA بهتر از همه مدل‌های زبان کوچک عمل می‌کند. Phi-3-vision می تواند در هنگام پرسیدن سوالاتی در مورد تصاویر یا تجزیه و تحلیل نمودار، استدلال بصری را انجام دهد.

Arxiv

برخلاف مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion، Phi-3-vision توانایی تولید تصاویر را ندارد.

پیش نمایش Phi-3-vision اکنون در دسترس است و کاربران می توانند Phi-3 mini و Phi-3 Medium را از طریق پلت فرم Microsoft Azure AI خریداری کنند.

Phi Silica یکی دیگر از مدل های هوش مصنوعی مایکروسافت است که برای پشتیبانی از برنامه های هوش مصنوعی ویندوز منتشر شده است و این مدل به طور خاص برای NPU های رایانه های Copilot Plus طراحی شده است.

مدل Phi Silica AI می تواند 650 توکن ورودی در ثانیه پردازش کند و تنها 1.5 وات انرژی مصرف می کند، بدون احتساب CPU و گرافیک.