VASA-1技術解析：實時生成逼真的語音驅動交談臉部

VASA-1是一項革命性的技術，它能夠實時生成逼真的語音驅動交談臉部，這項技術對於增強虛擬實境、遊戲以及互動媒體的可能性具有深遠的影響。VASA-1的核心在於它如何精確地捕捉語音信號，並將這些信號轉化為自然的面部動作，從而創造出高度真實感的數字人物

只要一人像照片+ 一段文字，就能產生逼近像真實人說話的畫面，微軟昨天剛發布的VASA-1，聲稱可以提供音頻+照片，就能按照音頻說話讓照片動起來，像是真人說話一樣，甚至可以連音頻也不用，僅提供文字用TTS轉換成語音+圖片也可以。這簡直是對i人型的內容創作者的福音。期待有大神實作出開源的Code。

官方網址：

https://www.microsoft.com/en-us/research/project/vasa-1/

詳細介紹:一張照片、一段語音生成逼真說話臉孔 - 微軟VASA-1

https://hawo.tw/v/detail/microsoft-vasa-1

💖 支持作者： 如果我的內容對你有幫助，歡迎請我喝杯咖啡 ☕，您的支持是我持續創作的最大動力！點我贊助

文章轉載或引用，請先告知並保留原文出處與連結！！(單純分享或非營利的只需保留原文出處，不用告知)

原文連結:
https://blog.aidec.tw/post/VASA-1

若有業務合作需求，可寫信至： [email protected]

創業、網站經營相關內容未來將發布在小易創業筆記

相關文章