مایکروسافت و گوگل در زمینه هوش مصنوعی بسیار فعال هستند و این روزها سر و صدای زیادی به پا کرده اند. اما شرکت های دیگری مانند متا نیز در حال توسعه محصولات و خدمات مبتنی بر هوش مصنوعی هستند.

متا با انتشار پستی در وبلاگ خود اعلام کرد که در حال کار بر روی یک ابزار مولد هوش مصنوعی برای گفتار است. ابزار Voicebox می‌تواند طیف وسیعی از وظایف تولید گفتار مانند ویرایش، نمونه‌برداری و استایل‌سازی را انجام دهد. وظایفی که Voicebox لزوماً به صورت موضوعی برای انجام آنها آموزش داده نشده است.

متا قابلیت های Voicebox را به شرح زیر توصیف می کند:

تبدیل متن به متن صوتی: با دریافت نمونه صوتی 2 ثانیه ای لحن و سبک صدا را یاد می گیرد و متن را با همان سبک به صوت تبدیل می کند.

ویرایش مکالمه و کاهش نویز: می‌تواند بخشی از مکالمه صوتی را که توسط نویز مختل شده است بازسازی کند یا کلمات اشتباه تلفظ شده را بدون نیاز به ضبط مجدد تصحیح کند.

انتقال سبک مکالمه از یک زبان به زبان دیگر: این می تواند یک مکالمه نمونه یا یک متن را بگیرد و آن را به یک فایل صوتی به زبان های انگلیسی، فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتغالی تبدیل کند.

نمونه های مختلف گفتار: از داده‌های مختلف برای تولید صدا استفاده می‌کند تا نوع مکالمه افراد به ۶ زبان مشخص‌شده را با دقت بیشتری بازتولید کند.

متا معتقد است که در آینده، مدل‌های هوش مصنوعی چند منظوره مانند Voicebox می‌توانند صدای طبیعی را به دستیارهای دیجیتال و شخصیت‌های NPC در Metaverse بدهند. متا می گوید که با استفاده از این ابزار، افراد کم بینا یا نابینا می توانند پیام های متنی دوستان خود را به صورت صوتی بشنوند، و سازندگان محتوا می توانند کلیپ های صوتی را راحت تر از همیشه بسازند یا ویرایش کنند.