VASA-1是一項革命性的技術,它能夠實時生成逼真的語音驅動交談臉部,這項技術對於增強虛擬實境、遊戲以及互動媒體的可能性具有深遠的影響。VASA-1的核心在於它如何精確地捕捉語音信號,並將這些信號轉化為自然的面部動作,從而創造出高度真實感的數字人物


只要一人像照片+ 一段文字,就能產生逼近像真實人說話的畫面,微軟昨天剛發布的VASA-1,聲稱可以提供音頻+照片,就能按照音頻說話讓照片動起來,像是真人說話一樣,甚至可以連音頻也不用,僅提供文字用TTS轉換成語音+圖片也可以。這簡直是對i人型的內容創作者的福音。期待有大神實作出開源的Code。


官方網址:

https://www.microsoft.com/en-us/research/project/vasa-1/


詳細介紹:一張照片、一段語音生成逼真說話臉孔 - 微軟VASA-1

https://hawo.tw/v/detail/microsoft-vasa-1


文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)

原文連結:
https://blog.aidec.tw/post/VASA-1