متا اکنون یک ابزار هوش مصنوعی نسل بعدی به نام است جعبه صدا این نشان داد که می تواند کارهای مختلفی مانند تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی های مهم این مدل گرفتن نمونه صوتی از یک زبان و تبدیل آن به زبان های خارجی است. این ابزار می تواند کاری را که ChatGPT و DALL-E در زمینه تبدیل متن به صدا در زمینه تولید متن و تصویر انجام می دهند، انجام دهد.

AI Voicebox یک مبدل متن به گفتار است که متا آن را به عنوان “یک مدل همگام سازی جریان غیر خودکاهنده برای تکمیل صوتی متنی و مبتنی بر متن” توصیف می کند. این مدل گنجانده شده است بیش از 50 هزار ساعت صدای آموزش دیده و فرا آموزش دیده به طور خاص از صدای کتاب صوتی به زبان های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده می کرد.

از جمله قابلیت های مهم این هوش مصنوعی، انتقال سبک گفتار از یک زبان به زبان های خارجی دیگر است. یک مثال برای استفاده از این تابع کافی است 2 ثانیه در صدای شما همراه با متن به زبان ها انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی Voicebox را بدهید و از هوش مصنوعی بخواهید متن را به آن زبان ها بخواند. این شرکت می‌گوید مدل آنها می‌تواند تقریباً هر متنی را از یک زبان به زبان دیگر ترجمه کند و در عین حال شکل گفتاری زبان مقصد را حفظ کند.

مدل متا هوش مصنوعی Voicebox چه قابلیت های دیگری دارد؟

گستره وسیع ورودی ها به سیستم کمک می کند صداهایی تولید کند که بیشتر محاوره ای باشد. متا می‌گوید: «نتایج ما نشان می‌دهد که مدل‌های تشخیص گفتار آموزش‌دیده بر روی صداهایی که با Voicebox ایجاد شده‌اند، تقریباً به خوبی مدل‌های آموزش‌دیده بر روی صداهای واقعی عمل می‌کنند». علاوه بر این، صداهای تولید شده توسط رایانه فقط با آنها در دسترس هستند 1% خطای تخریب در حالی که این میزان برای سایر مدل های تبدیل متن به گفتار (TTS) بین 45 تا 70 درصد بود.

مدل Voicebox AI می تواند صداها را ویرایش کند، سر و صدا حذف از مکالمات و حتی کلماتی که اشتباه تلفظ می شوند، تصحیح محققان متا آهسته می گویند که برای مثال، کاربر می تواند تشخیص دهد که کدام قسمت از فایل صوتی دارای نویز است و سپس از هوش مصنوعی بخواهد که آن قسمت را بازی کند.

مدل Voicebox به لطف یک روش فرا یادگیری جدید به نام “Flow Matching” به مقدار زیادی داده ورودی نیاز ندارد. نتایج بنچمارک نشان می دهد که این هوش مصنوعی از نظر خطا بسیار بهتر از بهترین سیستم های سنتز گفتار عمل می کند (1.9% در مقایسه با 5.9%) و سرعت آن تا 20 برابر سریعتر خوب.

با این حال، مدل Wisbox یا کد منبع آن برای عموم در دسترس نیست. متا اعتراف کرده است که به دلیل خطرات احتمالی، قصد ندارد این مدل را در دسترس عموم قرار دهد. آنها تاکنون فقط یک مقاله تحقیقاتی اولیه در مورد این مدل منتشر کرده‌اند، اما امیدوارند در آینده از این فناوری برای کمک به افراد مبتلا به مشکلات تارهای صوتی، NPC در بازی‌ها و دستیارهای صوتی استفاده کنند.