علاوه‌بر ویدئو از حرف زدن افراد، امو می‌تواند با هماهنگ کردن شکل دهان و حالات چهره، ویدئو‌هایی از آواز خواندن را با استفاده از تصاویر بسازد؛ به لطف این قابلیت، هرکس می‌تواند تنها با یک عکس و یک کلیپ صوتی، موزیک ویدئوی خودش را ایجاد کند.

نظرخواهی از افراد عادی نشان داد که ویدئو‌های اِمو نسبت به سایر سیستم‌ها، طبیعی‌تر و احساسی‌تر هستند. این هوش مصنوعی می‌تواند ویژگی‌های خاص هر فرد را به‌درستی نشان دهد و حرکاتی انسانی تولید کند. هر دو نوع ویدئو‌ی صحبت کردن و آواز خواندن را می‌توان با هر مدت‌زمانی ایجاد کرد.

نمی‌توان از احتمال سوء‌استفاده از چنین سیستم‌هایی چشم‌پوشی کرد. توانایی ایجاد ویدیوهای واقع‌گرایانه از عکس‌ها، نگرانی‌هایی را در مورد جعل هویت و انتشار اطلاعات نادرست برمی‌انگیزد؛ محققان ضمن تأیید این نگرانی‌ها، می‌گوید که در تلاشند تا روش‌هایی را برای تشخیص ویدیوهای تولید شده توسط مصنوعی توسعه دهند.