هوش مصنوعی دائما در حال تکامل است. اگرچه بسیاری از افراد از هوش مصنوعی برای انجام کارهای خود استفاده می کنند، این فناوری می تواند بسیار کاربردی تر باشد. گوگل سال هاست که به دنبال دسترسی به تمام ظرفیت هوش مصنوعی است و آخرین فناوری این شرکت AudioPaLM نام دارد. مدلی که می تواند با دقت بسیار بالا گوش کند، صحبت کند یا ترجمه کند.

محققان گوگل AudioPaLM را به عنوان یک مدل زبان جدید معرفی کردند که می تواند به صحبت های دیگران با دقت شگفت انگیزی گوش دهد و آن را به زبان های دیگر ترجمه کند. این مدل از معماری چند وجهی استفاده می کند و نقاط قوت دو مدل فعلی PaLM-2 و AudioLM را ترکیب می کند.

AudioLM در حفظ اطلاعاتی مانند هویت گوینده و لحن صدا کار بسیار خوبی انجام می دهد. با ترکیب این دو مدل زبان، مدل جدید AudioPaLM به دست می آید که از تخصص زبانی PaLM-2 نیز برای درک کامل متن و گفتار بهره می برد.

به گفته GizmoChina، AudioPaLM از واژگان مشترکی استفاده می کند که می تواند گفتار و متن را با استفاده از تعداد محدودی از نمادهای مختلف نشان دهد. این قابلیت مدل را قادر می سازد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را با معماری و فرآیند یادگیری یکپارچه ارائه دهد.

AudioPaLM از سیستم‌های موجود در ترجمه گفتار بهتر عمل می‌کند و حتی می‌تواند ترجمه گفتار به متن را با ترکیب‌های زبانی که قبلاً دیده نشده انجام دهد. این هوش مصنوعی جدید می تواند صداها را بین زبان ها بر اساس دستورات گفتاری کوتاه منتقل کند و صداهای مختلف را به زبان های مختلف ضبط و پخش کند.