تیم هوش مصنوعی شرکت دانشبنیان لایفوب پس از ۶ ماه تلاش موفق به توسعه مدلهای جدید برای پردازش زبان فارسی شده است. این نخستین بار است که یک مدل زبانی براساس دادههای زبان فارسی با تنوع موضوعی و پلتفرمی بهصورت کلان انجام شده و اکنون در راستای مسئولیت اجتماعی در اختیار پژوهشگران و فعالان حوزه هوش مصنوعی قرار میگیرد. «تهران» و «شیراز» نام این مدلهای زبانی است.
شرکت لایفوب در سالهای گذشته برای بومیسازی سرویسهای تحلیل متن مبتنی بر هوشمصنوعی فعالیتهای گستردهای داشته است و با در نظر گرفتن ساختار زبان رسمی فارسی و ادبیات محاورهای کاربران فارسیزبان شبکههای اجتماعی، سرویسهای مختلف مانند تحلیل عواطف و احساسات متون، تشخیص موجودیتهای نامدار و … را ارائه داده است.
مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخدهی متمرکز است
مدلهای زبانی توسعه دادهشده در لایفوب، تهران و شیراز نامگذاری شدهاند. مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخدهی در شرایط محدودیت منابع سختافزاری متمرکز هستند. یکی از نکات مهم این مدل نزدیکی بسیار بالای آن به زبان روزمره مردم در شبکههای اجتماعی است. که باعث میشود خروجیهای آن شفافتر و دقیقتر باشد.
لایفوب بهصورت پیوسته تلاش میکند تا با دادههای انبوه و استاندارد و بهینهسازی مدلهای زبانی، ماشینها را آموزش دهد تا دقیقترین خروجی ممکن را در سامانههای خود به مخاطبان ارائه کند. در همین راستا متخصصان هوش مصنوعی شرکت لایفوب در اواسط سال ۱۴۰۲ با تمرکز بر زبان فارسی توسعه مدل زبانی را آغاز کردند که در اسفند ۱۴۰۲ منتشر شد و در دو مدل در دسترس عموم قرار گرفت. دسترسی به مدلهای زبانی تهران و شیراز در وبسایت لایفوب امکانپذیر است.
برای توسعه این مدل زبانی، ابتدا تیم داده شرکت لایفوب مجموعهای از دادههای متنوع و با حجم بالا جمعآوری و سپس تیم هوش مصنوعی این دیتاست (Dataset) را نرمالسازی کرد و درنهایت مسیر توسعه مدل زبانی آغاز شد.
این مجموعه داده، برآمده از بسترهای مختلف مانند سایتهای خبری، گروهها و کانالهای تلگرامی، پستهای سایتهای پرطرفدار ورزشی، حقوقی، تاریخی، تکنولوژی و… است، که با نام «دیوان» منتشر خواهد شد.
مدل زبانی تهران بر پایه معماری RoBERTA آموزش داده شده و شامل بیش از ۱۲۳ میلیون پارامتر است که بهترین نتایج را در مقایسههای انجامشده نسبت به سایر مدلهای زبانی فارسی گزارش کرده است. این مدل برای توسعه سرویسهای مختلف و استفاده غیررایگان به سایر سازمانها ارائه میشود.
مدل شیراز هم بر پایه معماری Mobile BERT آموزش داده شده و بیش از ۲۵ میلیون پارامتر را در برمیگیرد که با سرعت پاسخدهی بیش از ۵۰۰ درصدی نسبت به سایر مدلهای زبانی فارسی بهصورت کاملا متنباز و رایگان در اختیار عموم جامعه فارسیزبان قرار گرفته است. طبق توضیحات لایفوب، این افزایش سرعت چشمگیر بدون فدا کردن دقت قابلتوجه انجام شده است.