نقص وحشتناک تعدیل محتوای هوش مصنوعی "چند زبانه".

چالش دیگر برای مدل‌های چندزبانه ناشی از تفاوت در میزان داده‌های آموزش داده شده در هر زبان است. هنگام تجزیه و تحلیل محتوا در زبان‌هایی که داده‌های آموزشی کمتری برای آن‌ها دارند، مدل‌ها به قوانینی که برای زبان‌هایی که داده‌های بیشتری برای آنها دارند، تکیه می‌کنند. این مانع از توانایی آن‌ها برای درک تفاوت‌های ظریف و زمینه‌های منحصر به فرد برای زبان‌های با منابع پایین‌تر می‌شود و ارزش‌ها و مفروضات کدگذاری شده به زبان انگلیسی را به ارمغان می‌آورد. برای مثال، یکی از مدل‌های چند زبانه متا، با استفاده از متن انگلیسی تقریباً هزار برابر بیشتر از متن برمه‌ای، آمهری یا پنجابی آموزش داده شد. اگر درک او از این زبان‌ها از دریچه زبان انگلیسی شکسته شود، قطعاً بر توانایی او در تشخیص محتوای مضر مرتبط با رویدادهای جاری در این زبان‌ها، مانند بحران پناهندگان روهینگیا، جنگ تیگری و کشاورزان معترض هندی تأثیر می‌گذارد. .

در نهایت، حتی اگر یک مدل زبان چندزبانه بر روی مقادیر مساوی از داده‌های با کیفیت بالا در هر زبان آموزش داده شود، باز هم با آنچه دانشمندان کامپیوتر “نفرین چندزبانگی” می‌خوانند مواجه می‌شود – یعنی زبان‌ها در نهایت با یکدیگر تداخل پیدا می‌کنند. نتایج مدل زبان‌های مختلف برای فضایی در نگاشت زبان داخلی مدل زبان چندزبانه با یکدیگر رقابت می‌کنند. در نتیجه، آموزش یک مدل چندزبانه بر روی داده‌های هندی بیشتر می‌تواند به عملکرد آن در انجام وظایف در زبان‌های ریشه‌شناسی مختلف مانند انگلیسی یا تاگالوگ لطمه بزند، و افزایش تعداد کل زبان‌هایی که مدل روی آن‌ها آموزش داده می‌شود، می‌تواند به عملکرد آن در همه زبان‌ها آسیب برساند. آنها را

در مورد تعدیل محتوا، این سؤالات دشواری را در مورد اینکه شرکت‌های رسانه‌های اجتماعی باید کدام زبان‌ها را در اولویت قرار دهند و این مدل‌ها باید چه اهدافی را هدف قرار دهند، ایجاد می‌کند. آیا مدل‌های زبانی چندزبانه باید سعی کنند به بازنمایی یکسان از همه زبان‌ها دست یابند؟ اولویت با کسانی که بیشترین سخنران را دارند؟ کسانی که با بدترین مسائل مربوط به تعدیل محتوا مواجه هستند؟ و چه کسی تصمیم می گیرد که بدترین بحران ها کدامند؟

مدل های زبان چند زبانه قول ارائه قدرت تحلیلی LLM به تمام زبان‌های جهان را می‌دهند، اما هنوز مشخص نیست که آیا قابلیت‌های آن‌ها به شناسایی محتوای مضر هم می‌رسد یا خیر. به نظر نمی رسد ترسیم آنچه مضر است در بین زبان ها و زمینه های زبانی آسان باشد. برای اطمینان از اینکه این مدل‌ها به تأثیرات متفاوتی بر جوامع زبانی مختلف منجر نمی‌شوند، شرکت‌های رسانه‌های اجتماعی باید بینش بهتری در مورد نحوه عملکرد این مدل‌ها ارائه دهند.

حداقل، شرکت‌ها باید اطلاعاتی را در مورد اینکه کدام محصولات به این مدل‌ها متکی هستند، برای چه نوع محتوایی و به چه زبانی استفاده می‌شوند، به اشتراک بگذارند. شرکت‌ها همچنین باید معیارهای کلیدی را در مورد نحوه عملکرد مدل‌های زبان در هر زبان و اطلاعات بیشتر در مورد داده‌های آموزشی که استفاده می‌کنند به اشتراک بگذارند تا محققان بتوانند این مجموعه داده‌ها را از نظر سوگیری ارزیابی کنند و تعادل شرکت را بین زبان‌های مختلف درک کنند. در حالی که بزرگ‌ترین شرکت‌ها، مانند فیس‌بوک و گوگل، نسخه‌هایی از مدل‌های زبان خود را برای استفاده محققان و حتی سایر شرکت‌ها در اختیار عموم قرار می‌دهند، آنها اغلب در مورد اینکه این سیستم‌های در دسترس عموم با سیستم‌هایی که در خودشان استفاده می‌شوند ارتباط دارند یا با آن‌ها تفاوت دارند، سکوت می‌کنند. محصولات این پراکسی‌ها کافی نیستند – شرکت‌ها باید اطلاعات مربوط به مدل‌های زبان واقعی را که برای تعدیل محتوا استفاده می‌کنند به اشتراک بگذارند.

شرکت‌های رسانه‌های اجتماعی نیز باید در نظر داشته باشند که رویکرد بهتر ممکن است استفاده از یک مدل بزرگ چند زبانه نباشد، بلکه از مدل‌های متعدد و کوچک‌تر برای زبان‌ها و خانواده‌های زبانی خاص استفاده شود. به عنوان مثال، مدل AfroLM Masakhane در 23 زبان مختلف آفریقایی آموزش دیده است و می تواند از مدل های چند زبانه بزرگتر در این زبان ها بهتر عمل کند. جوامع تحقیقاتی در سرتاسر جهان به سختی کار می کنند تا بفهمند چه نوع مدل های زبانی برای زبان های خودشان بهترین کارایی را دارند. شرکت‌های رسانه‌های اجتماعی باید نه تنها بر کار فنی خود، بلکه بر تخصص خود در زمینه زبان محلی نیز تکیه کنند.

به‌عنوان راه‌حل، مدل‌های زبان چندزبانه در خطر تبدیل شدن به یک باند در اندازه «بقیه جهان» برای یک مشکل پویا هستند. با ارائه شفافیت و پاسخگویی بیشتر، اولویت دادن به عملکرد زبان فردی بر مقیاس پذیری، و مشاوره با جوامع زبانی، شرکت ها می توانند شروع به حذف این رویکرد کنند.

تصحیح 05/30/23 3:30 PT ET: مدل AfroLM توسط Masakhane است. نسخه قبلی مقاله گفته بود که از Lelapa است.

نقص وحشتناک تعدیل محتوای هوش مصنوعی “چند زبانه”.