متا در توسعه‌ی SeamlessM4T از ده‌ها‌میلیارد جمله‌ی عمومی و چهار‌میلیون ساعت گفتار صوتی در محیط وب استفاده کرده است. خوان پینو، دانشمند واحد تحقیقاتی هوش مصنوعی متا و یکی از مشارکت‌کنندگان در پروژه‌ی SeamlessM4T، منابع دقیق داده‌ها را فاش نکرد و گفت تنوع زیادی در این منابع وجود دارد.

همه‌ی تولیدکنندگان محتوا با استفاده از داده‌های عمومی برای آموزش مدل‌هایی که می‌توانند به‌صورت تجاری عرضه شوند، موافق نیستند.

به‌هرحال، متا ادعا می‌کند داده‌هایی که از وب برای آموزش SeamlessM4T استخراج کرده است، می‌تواند حاوی اطلاعات شخصی باشد؛ البته این شرکت اعلام کرده است که داده‌های مذکور حق‌ کپی‌رایت ندارند و از منابع منبع‌باز یا با کسب مجوز به‌دست آمده‌اند.

روی‌هم‌رفته، متا از متن و گفتار استخراج‌شده از وب موسوم‌ به SeamlessAlign برای ایجاد مجموعه داده‌های موردنیاز آموزش مدل SeamlessM4T استفاده کرده است. محققان ۴۴۳,۰۰۰ ساعت گفتار هماهنگ‌شده با متن و ۲۹,۰۰۰ ساعت داده‌ی گفتار‌به‌گفتار ایجاد کردند تا به SeamlessM4T یاد دهند چگونه گفتار را به متن رونویسی و متن را ترجمه یا گفتار را براساس متن تولید کند. این مدل حتی می‌تواند کلماتی که به زبان خاصی گفته می‌شوند، به کلمات یا عبارت‌های مشابه در زبان‌های دیگر ترجمه کند.

متا ادعا می‌کند که براساس معیار داخلی این شرکت، SeamlessM4T دربرابر نویزهای پس‌زمینه و تغییر صدای اسپیکر، هیچ ضعف عملکردی از خود نشان نداد. ازنظر این شرکت، دلیل عملکرد دقیق مدل مذکور ترکیب غنی داده‌های گفتار و متن در مجموعه‌ داده‌های آموزشی اعلام شده و همین ویژگی دلیل برتری مدل جدید بر مدل‌های فقط گفتاری و فقط متنی است.

متا در پست وبلاگی خود نوشت:

ناگفته نماند که متا نمی‌داند مدل هوش مصنوعی SeamlessM4T چه سوگیری‌هایی می‌تواند داشته باشد. مقاله‌ای که اخیراً در The Conversation منتشر شده است، به ایرادهای بسیار زیاد در ترجمه‌ی مبتنی‌بر هوش مصنوعی ازجمله اشکال سوگیری جنسیتی اشاره دارد.

به‌عنوان مثال، سرویس ترجمه‌ی گوگل زمانی فرض می‌کرد پزشکان مَرد هستند؛ درحالی‌که پرستارهای زن فقط به زبان‌های خاصی صحبت می‌کنند. همچنین، مترجم بینگ مایکروسافت عبارت‌هایی مثل «میز نرم است» را در زبان آلمانی به‌عنوان die Tabelle ترجمه کرده است که درواقع به جدولی از ارقام اشاره می‌کند.

الگوریتم‌های تشخیص گفتار نیز اغلب سوگیری دارند. مطالعه‌ای منتشر‌شده در مجموعه مقالات آکادمی ملی علوم نشان داد که سیستم‌های تشخیص گفتار شرکت‌های بزرگ فناوری در رونویسی صدای افراد سیاه‌پوست دوبرابر ضعیف‌تر از رونویسی افراد سفید‌پوست عمل می‌کنند.