چالش دیگر برای مدلهای چندزبانه ناشی از تفاوت در میزان دادههای آموزش داده شده در هر زبان است. هنگام تجزیه و تحلیل محتوا در زبانهایی که دادههای آموزشی کمتری برای آنها دارند، مدلها به قوانینی که برای زبانهایی که دادههای بیشتری برای آنها دارند، تکیه میکنند. این مانع از توانایی آنها برای درک تفاوتهای ظریف و زمینههای منحصر به فرد برای زبانهای با منابع پایینتر میشود و ارزشها و مفروضات کدگذاری شده به زبان انگلیسی را به ارمغان میآورد. برای مثال، یکی از مدلهای چند زبانه متا، با استفاده از متن انگلیسی تقریباً هزار برابر بیشتر از متن برمهای، آمهری یا پنجابی آموزش داده شد. اگر درک او از این زبانها از دریچه زبان انگلیسی شکسته شود، قطعاً بر توانایی او در تشخیص محتوای مضر مرتبط با رویدادهای جاری در این زبانها، مانند بحران پناهندگان روهینگیا، جنگ تیگری و کشاورزان معترض هندی تأثیر میگذارد. .
در نهایت، حتی اگر یک مدل زبان چندزبانه بر روی مقادیر مساوی از دادههای با کیفیت بالا در هر زبان آموزش داده شود، باز هم با آنچه دانشمندان کامپیوتر “نفرین چندزبانگی” میخوانند مواجه میشود – یعنی زبانها در نهایت با یکدیگر تداخل پیدا میکنند. نتایج مدل زبانهای مختلف برای فضایی در نگاشت زبان داخلی مدل زبان چندزبانه با یکدیگر رقابت میکنند. در نتیجه، آموزش یک مدل چندزبانه بر روی دادههای هندی بیشتر میتواند به عملکرد آن در انجام وظایف در زبانهای ریشهشناسی مختلف مانند انگلیسی یا تاگالوگ لطمه بزند، و افزایش تعداد کل زبانهایی که مدل روی آنها آموزش داده میشود، میتواند به عملکرد آن در همه زبانها آسیب برساند. آنها را
در مورد تعدیل محتوا، این سؤالات دشواری را در مورد اینکه شرکتهای رسانههای اجتماعی باید کدام زبانها را در اولویت قرار دهند و این مدلها باید چه اهدافی را هدف قرار دهند، ایجاد میکند. آیا مدلهای زبانی چندزبانه باید سعی کنند به بازنمایی یکسان از همه زبانها دست یابند؟ اولویت با کسانی که بیشترین سخنران را دارند؟ کسانی که با بدترین مسائل مربوط به تعدیل محتوا مواجه هستند؟ و چه کسی تصمیم می گیرد که بدترین بحران ها کدامند؟
مدل های زبان چند زبانه قول ارائه قدرت تحلیلی LLM به تمام زبانهای جهان را میدهند، اما هنوز مشخص نیست که آیا قابلیتهای آنها به شناسایی محتوای مضر هم میرسد یا خیر. به نظر نمی رسد ترسیم آنچه مضر است در بین زبان ها و زمینه های زبانی آسان باشد. برای اطمینان از اینکه این مدلها به تأثیرات متفاوتی بر جوامع زبانی مختلف منجر نمیشوند، شرکتهای رسانههای اجتماعی باید بینش بهتری در مورد نحوه عملکرد این مدلها ارائه دهند.
حداقل، شرکتها باید اطلاعاتی را در مورد اینکه کدام محصولات به این مدلها متکی هستند، برای چه نوع محتوایی و به چه زبانی استفاده میشوند، به اشتراک بگذارند. شرکتها همچنین باید معیارهای کلیدی را در مورد نحوه عملکرد مدلهای زبان در هر زبان و اطلاعات بیشتر در مورد دادههای آموزشی که استفاده میکنند به اشتراک بگذارند تا محققان بتوانند این مجموعه دادهها را از نظر سوگیری ارزیابی کنند و تعادل شرکت را بین زبانهای مختلف درک کنند. در حالی که بزرگترین شرکتها، مانند فیسبوک و گوگل، نسخههایی از مدلهای زبان خود را برای استفاده محققان و حتی سایر شرکتها در اختیار عموم قرار میدهند، آنها اغلب در مورد اینکه این سیستمهای در دسترس عموم با سیستمهایی که در خودشان استفاده میشوند ارتباط دارند یا با آنها تفاوت دارند، سکوت میکنند. محصولات این پراکسیها کافی نیستند – شرکتها باید اطلاعات مربوط به مدلهای زبان واقعی را که برای تعدیل محتوا استفاده میکنند به اشتراک بگذارند.
شرکتهای رسانههای اجتماعی نیز باید در نظر داشته باشند که رویکرد بهتر ممکن است استفاده از یک مدل بزرگ چند زبانه نباشد، بلکه از مدلهای متعدد و کوچکتر برای زبانها و خانوادههای زبانی خاص استفاده شود. به عنوان مثال، مدل AfroLM Masakhane در 23 زبان مختلف آفریقایی آموزش دیده است و می تواند از مدل های چند زبانه بزرگتر در این زبان ها بهتر عمل کند. جوامع تحقیقاتی در سرتاسر جهان به سختی کار می کنند تا بفهمند چه نوع مدل های زبانی برای زبان های خودشان بهترین کارایی را دارند. شرکتهای رسانههای اجتماعی باید نه تنها بر کار فنی خود، بلکه بر تخصص خود در زمینه زبان محلی نیز تکیه کنند.
بهعنوان راهحل، مدلهای زبان چندزبانه در خطر تبدیل شدن به یک باند در اندازه «بقیه جهان» برای یک مشکل پویا هستند. با ارائه شفافیت و پاسخگویی بیشتر، اولویت دادن به عملکرد زبان فردی بر مقیاس پذیری، و مشاوره با جوامع زبانی، شرکت ها می توانند شروع به حذف این رویکرد کنند.
تصحیح 05/30/23 3:30 PT ET: مدل AfroLM توسط Masakhane است. نسخه قبلی مقاله گفته بود که از Lelapa است.