上一篇Google Veo3 影片生成使用體驗與心得,分享了我的veo3測試小心得,其中得出的結論是,生成的影片不支援中文配音,結果今天在X上看到有人分享的提示詞,居然發現veo3是能說中文的啊~ 之前被騙了嗎? 還是之前的要說的內容太難了? 而且我發現X上國外的人分享的提示詞都是以json格式,veo3比較偏好這樣的格式嗎?


國外看到的提示詞,但回去找來源,都找不到了。

{
"lens": {
"framing": "medium close-up, 85mm lens, shot with ARRI Alexa LF, shallow depth of field",
"camera movement": "slow approach from stage left, shot with gimbal",
"frame rate": "24fps",
"film texture": "Kodak 250D film grain simulation"
},
"subject": {
"description": "a 21-year-old Korean female idol with long straight black hair parted in the middle, deep blue eyes, and symmetrical, three-dimensional facial features",
"outfit": "black leather K-pop crop top with silver details, black leather mini skirt, high-shine knee-high boots, and transparent wings on shoulders"
},
"scene": {
"location": "real-world outdoor stadium",
"time": "night",
"ambience": "full-size concert stage with large LED screen in the background and a silhouetted backing band behind her"
},
"visual details": {
"action": "She confidently walked to the center of the stage, raised a studio microphone, and spoke to the audience with a charming smile",
"Props": "Studio microphone, earphone monitor, fog machine, broadcast camera, LED light stand"
},
"Photography": {
"Lighting": "The spotlight hits her upper body, and there is a contour light in the back corner of the stage. The light beam in the fog creates a layered separation with a movie texture",
"Atmosphere": "A sense of victory and full of electricity"
},
"Sound Effects": {
"Ambient Sound": "The cheers of the audience, the low-frequency roar of the expectation atmosphere, and the bass vibration in the sound reinforcement system echoing under the lines"
},
"Color": "The bright concert colors: dark purple, steel gray, electric blue, supplemented by silver highlights",
"Lines": {
"Role": "Idol",
"Lines": "Everyone, are you ready?",
"Subtitles": false
}
}

翻譯成中文後微調的版本


{
"鏡頭": {
"構圖": "中近景,85mm 鏡頭,使用 ARRI Alexa LF 拍攝,淺景深",
"攝影運動": "從舞台左側緩慢推進,穩定器拍攝",
"幀率": "24幀/秒",
"膠卷質感": "柯達 250D 膠卷顆粒模擬"
},
"主體": {
"描述": "20歲的韓國女愛豆,紅長直髮中分,湛藍眼睛,五官對稱立體",
"服裝": "黑色愛豆打歌服配短上衣配銀色細節,黑色皮質迷你裙,高光膝靴,肩部裝有可愛翅膀"
},
"場景": {
"地點": "真實世界的露天體育場",
"時間": "白天",
"環境": "全尺寸演唱會舞台,背景為LED大屏,剪影中的伴奏樂隊在她身後"
},
"視覺細節": {
"動作": "她自信地走上舞台中央,舉起一隻錄音室麥克風,帶著富有魅力的微笑對著觀眾開口",
"道具": "錄音室麥克風、耳返、造霧機、轉播攝影機、LED燈架"
},
"攝影": {
"燈光": "聚光燈打在她上半身,舞台後角設有輪廓光,霧氣中光束營造出電影質感的層次分離",
"氛圍": "勝利感與電力十足"
},
"音效": {
"環境音": "觀眾歡呼聲、低頻轟鳴的期待氛圍、擴聲系統中低音震動在台詞下迴響"
},
"色調": "鮮明的演唱會色彩:淺粉、藍白、夢幻,輔以高光",
"台詞": {
"角色": "愛豆",
"台詞": "大家,準備好跟我一起High起來了嗎?",
"字幕": false
}
}




總共生成了兩次,有稍微微調一下提示詞,基本上是差不多的,兩次生成出來的人臉感覺上長得差不多,就連聲音好像也是同一個人的。不知道是不是用哪個真實明星的樣子跟聲音去改的?對愛豆這塊完全陌生。原版的提示詞應該有點小瑕疵,這段:

舉起一隻錄音室麥克風

所以兩個影片的麥克風支架都突然冒出來的

不過此篇的重點是,用veo3生成影片可以參考這樣的提示詞架構,有鏡頭、主體、場景、燈光、音效.... 定義的越詳細,生成的影片品質會越好。


後來將一樣的提示詞丟給veo2,發現生成出來的品質,跟過去使用veo2生成的影片相比,真的品質有感提升。跟上面的veo3感覺上沒有差很多,但veo2完全沒聲音就是了。而且veo2跟veo3生成出來的這個臉,怎麼感覺還是同一個人啊~整個訓練集資料庫的韓國女愛豆就只有這麼一張臉嗎? (哈



文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)

原文連結:
https://blog.aidec.tw/post/veo3-2
若有業務合作需求,可寫信至: opweb666@gmail.com
創業、網站經營相關內容未來將發布在 小易創業筆記