مایکروسافت در کنفرانس بیلد 2024 از نسخه جدید مدل زبان کوچک خود به نام Phi-3-vision رونمایی کرد.
Phi-3-vision یک مدل زبان چندوجهی کوچک است که با بهره گیری از 4.2 میلیارد پارامتر، توانایی درک تصاویر و ویدئوها را دارد. به نظر می رسد هوش مصنوعی کوچک مایکروسافت با سایر مدل های زبانی مانند Gemnai 1 Pro گوگل و مدل Claude 3 Haiku برابری می کند.
بر اساس تحقیقات منتشر شده در Arxiv، هوش مصنوعی کوچک مایکروسافت در برخی موارد در معیارهای ScienceQA، MathVista، MMMU و ChartQA بهتر از همه مدلهای زبان کوچک عمل میکند. Phi-3-vision می تواند در هنگام پرسیدن سوالاتی در مورد تصاویر یا تجزیه و تحلیل نمودار، استدلال بصری را انجام دهد.
Arxiv
برخلاف مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion، Phi-3-vision توانایی تولید تصاویر را ندارد.
پیش نمایش Phi-3-vision اکنون در دسترس است و کاربران می توانند Phi-3 mini و Phi-3 Medium را از طریق پلت فرم Microsoft Azure AI خریداری کنند.
Phi Silica یکی دیگر از مدل های هوش مصنوعی مایکروسافت است که برای پشتیبانی از برنامه های هوش مصنوعی ویندوز منتشر شده است و این مدل به طور خاص برای NPU های رایانه های Copilot Plus طراحی شده است.
مدل Phi Silica AI می تواند 650 توکن ورودی در ثانیه پردازش کند و تنها 1.5 وات انرژی مصرف می کند، بدون احتساب CPU و گرافیک.