آخرین مدل زبان مایکروسافت با نام Phi-1 با 1.3 میلیارد پارامتر و بهبود شگفت انگیز در عملکرد معرفی شد. افکار عمومی این است که مدل های بزرگتر عملکرد بهتری دارند، اما رویکرد غول فناوری مستقر در ردموند بر کیفیت داده های آموزشی تمرکز دارد. Phi-1 که بر روی مجموعه داده های با دقت بالا در سطح کتاب درسی آموزش دیده است، از مدل GTP-3.5 که دارای 100 میلیارد پارامتر است، بهتر عمل می کند.

مدل زبان Phi-1 مایکروسافت که مبتنی بر معماری Transformer است، به دلیل عملکرد چشمگیرش توجه بسیاری را به خود جلب کرده است. تیم سازی در این مدل بر کیفیت داده های آموزشی تاکید دارد. مراحل آموزش این مدل با استفاده از 8 پردازنده گرافیکی Nvidia A100 تنها در چهار روز به پایان رسید.

به گفته GizmoChina، مایکروسافت با تمرکز بر افزایش کیفیت داده های آموزشی به جای افزایش تعداد پارامترها، نتایج امیدوارکننده ای را نشان داده است. دقت بنچمارک Phi-1 به 50.6% رسید، بهتر از عملکرد 47% GPT-3.5 با 175 میلیارد پارامتر.

مایکروسافت تصمیم گرفت این مدل زبان را به عنوان منبع باز منتشر کند تا دسترسی و مشارکت انسانی در توسعه Phi-1 را بهبود بخشد. این اولین باری نیست که این شرکت مستقر در ردموند مدلی با زبان کوچک تولید می کند، زیرا قبلاً شاهد رونمایی از مدل Orca بودیم. یک مدل 13 میلیارد پارامتری که بر روی داده های مصنوعی با استفاده از GPT-4 آموزش داده شده است. حتی Orca نیز نشان داد که از ChatGPT بهتر عمل می کند. مقاله تحقیقاتی Phi-1 منتشر شده در arXiv بینشی دقیق از معماری و روش آموزش این مدل هوش مصنوعی ارائه می دهد.

مدل زبان Phi-1 مایکروسافت این ایده را به چالش می کشد که افزایش اندازه پشته برای بهبود عملکرد ضروری است. این مدل با تمرکز بر داده های آموزشی با کیفیت بالا، دقت قابل توجهی از خود نشان داد و حتی از مدل های بزرگتر نیز بهتر عمل کرد. ماهیت منبع باز مدل زبان جدید مایکروسافت تعهد این شرکت را به پیشرفت پردازش زبان طبیعی بهتر نشان می دهد.

By ادمین سایت

عاشق دنیای تکنولوژی و ای تی هستم. و اینجا می تونید جدیدترین مطالب را هر روز قبل از همه مشاهده کنید و مطلع بشید.