گامی بلند در پردازش زبان فارسی

تیم هوش مصنوعی شرکت دانش‌بنیان لایف‌وب پس از ۶ ماه تلاش موفق به توسعه مدل‌های جدید برای پردازش زبان فارسی شده است. این نخستین بار است که یک مدل زبانی براساس داده‌های زبان فارسی با تنوع موضوعی و پلتفرمی به‌صورت کلان انجام شده و اکنون در راستای مسئولیت اجتماعی در اختیار پژوهشگران و فعالان حوزه هوش مصنوعی قرار می‌گیرد. «تهران» و «شیراز» نام این مدل‌های زبانی است.

شرکت لایف‌وب در سال‌های گذشته برای بومی‌سازی سرویس‌های تحلیل متن مبتنی بر هوش‌مصنوعی فعالیت‌های گسترده‌ای داشته است و با در نظر گرفتن ساختار زبان رسمی فارسی و ادبیات محاوره‌ای کاربران فارسی‌زبان شبکه‌های اجتماعی، سرویس‌های مختلف مانند تحلیل عواطف و احساسات متون، تشخیص موجودیت‌های نامدار و … را ارائه داده است.

مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخ‌دهی متمرکز است

مدل‌های زبانی توسعه داده‌شده در لایف‌وب، تهران و شیراز نام‌گذاری شده‌اند. مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخ‌دهی در شرایط محدودیت منابع سخت‌افزاری متمرکز هستند. یکی از نکات مهم این مدل نزدیکی بسیار بالای آن به زبان روزمره مردم در شبکه‌های اجتماعی است. که باعث می‌شود خروجی‌های آن شفاف‌‌تر و دقیق‌تر باشد.

لایف‌وب به‌صورت پیوسته تلاش می‌کند تا با داده‌‎های انبوه و استاندارد و بهینه‌سازی مدل‌های زبانی، ماشین‌ها را آموزش دهد تا دقیق‌ترین خروجی ممکن را در سامانه‌های خود به مخاطبان ارائه کند. در همین راستا متخصصان هوش مصنوعی شرکت لایف‌وب در اواسط سال ۱۴۰۲ با تمرکز بر زبان فارسی توسعه مدل زبانی را آغاز کردند که در اسفند ۱۴۰۲ منتشر شد و در دو مدل در دسترس عموم قرار گرفت. دسترسی به مدل‌های زبانی تهران و شیراز در وبسایت لایف‌وب امکان‌پذیر است.

برای توسعه این مدل زبانی، ابتدا تیم داده شرکت لایف‌وب مجموعه‌ای از داده‌های متنوع و با حجم بالا جمع‌آوری و سپس تیم هوش مصنوعی این دیتاست (Dataset) را نرمال‌سازی کرد و درنهایت مسیر توسعه مدل زبانی آغاز شد.

این مجموعه داده، برآمده از بستر‌های مختلف مانند سایت‌های خبری، گروه‌ها و کانال‌های تلگرامی، پست‌های سایت‌های پرطرفدار ورزشی، حقوقی، تاریخی، تکنولوژی و… است، که با نام «دیوان» منتشر خواهد شد.

مدل زبانی تهران بر پایه معماری RoBERTA آموزش داده شده و شامل بیش از ۱۲۳ میلیون پارامتر است که بهترین نتایج را در مقایسه‌های انجام‌شده نسبت به سایر مدل‌های زبانی فارسی گزارش کرده است. این مدل برای توسعه سرویس‌های مختلف و استفاده غیررایگان به سایر سازمان‌ها ارائه می‌شود.

مدل شیراز هم بر پایه معماری Mobile BERT آموزش داده شده و بیش از ۲۵ میلیون پارامتر را در برمی‌گیرد که با سرعت پاسخ‌دهی بیش از ۵۰۰ درصدی نسبت به سایر مدل‌های زبانی فارسی به‌صورت کاملا متن‌باز و رایگان در اختیار عموم جامعه فارسی‌زبان قرار گرفته است. طبق توضیحات لایف‌وب، این افزایش سرعت چشمگیر بدون فدا کردن دقت قابل‌توجه انجام شده است.