最近在玩Wan 2.2 的首尾幀,也同時在測試Qwen Image Edit 還有Wan2.2 圖生影片並跟之前Ltx Video 0.98 做測試。
有使用過這類圖生視頻模型的人都會知道,每個模型能生成的秒數是有限的,一般多數為4~8秒。正常來說都是4~5秒,超過的話要不是渲染時間會非常的長,要不就是畫面很崩。
所以大部分的作法都是生成4秒的影片,然後讀取最後一幀的圖片,再次生成新的影片,之後再把它剪輯合併起來。但網上我看幾乎都是手動串節點跑N輪就串了N輪一樣的節點整個工作流很爆炸。於是我就改良了自己之前寫的節點。(節點連結放在文末)
改良後的節點就能實現只要上傳第一張圖,設定想要的次數就會自動一直跑了。動作的提示詞,我是一切交給AI生成的,但目前提示詞還在優化中。
有了這個之後,我就想著測試看看,讓它就這樣一直反覆循環會出現甚麼樣的結果...
LTX Video 無限流生成影片測試
流程:上傳一張圖,圖片用Janus Pro 來識別圖片畫面 -> 用LLM(OpenAI)將圖片描述轉換成影片提示詞 -> LTX生成影片,取最後一幀圖做為來源,自動進行下一輪,反覆循環。雖說是無限流,但礙於電腦算力有限,太耗費時間,大概頂多都測8輪就手動終止了。
第一輪測試
LTX的提示詞實在太難控制了,只有第一輪(前4秒)還行,後面就開始崩了。
(原圖尺寸704*928)大概近3分鐘出一個4秒的影片。
第二輪測試
這次微調了提示詞,以及將原始圖尺寸調大,畫面有變好一些,因此沒有這麼快崩,大概維持了四輪。
但提升了畫面尺寸後,每一輪都跑了六分鐘左右才出一個4秒的影片(圖片尺寸992*1280),且很明顯的每一輪的畫質都在下降。
Wan 2.2圖生影片無限流測試
接著繼續測試Wan2.2的。
Wan2.2 第一輪測試
流程:同樣也是上傳一張圖 -> 圖片用Janus Pro 來識別圖片畫面 -> 用LLM(OpenAI)將圖片描述轉換成影片提示詞,Wan2.2生成影片,取最後一幀圖做為來源,自動進行下一輪,反覆循環。Wan的算力要求太高了,我的電腦大概只能跑640*848這個尺寸的5秒(81幀),每輪影片生成需要11~13分鐘,生成出一個5秒的影片。
這次總共測試了五輪,但我發現都沒有太大的變化,而且它第一輪不知道為何突然悲傷了起來,導致後面幾輪都這樣。本來想說它會揮拳之類的,但都沒有發生。
重新檢查之前幾輪的AI產生的提示詞後發現到,原因可能是出自於Janus Pro生成的圖片描述不夠精準,導致遞交給OpenAI的提示詞產生的不精準。
Wan2.2 第二輪測試
於是此輪測試將Janus Pro拿掉,改成直接將圖片遞交給 Gemini 並讓它直接產生影片提示詞(用的免費API KEY所以改用Gemini)
流程:改成上傳一張圖 -> 用Gemini 讀取圖片直接轉換成影片提示詞,Wan2.2生成影片,取最後一幀圖做為來源,自動進行下一輪,反覆循環。
測試結果確實好了許多,可以確認的確是Janus Pro影響影片提示詞,導致畫面不夠有效果。但通用提示詞還是不夠完美,導致影片中的角色像個話癆一樣(哈~)。
另外影片出現的殘影是開了某個Lora忘記關的關係。
Wan2.2 第三輪測試
這次決定換了一個圖片來做測試,這次進行了7次循環,本來想跑十幾次的,但前面用了Gemini 免費API,結果第七次循環出現API模型過載,被迫中斷。
而且跑完以後,我才發現Wan系列的測試都跑錯系統提示詞了。(我有分成有人為需求+圖片的跑A提示詞,純以圖片的跑B提示詞,但沒判斷好都跑成A系統提示詞)
但是效果明顯還是比LTX的好,估計在跑個十幾輪也都沒問題。而且我發現LTX用的是992*1280的輸出,但產生的影片畫質感覺比Wan 640*848的還差。
第一次循環忘記在負面提示詞加上殘影,後面的循環就沒這問題了。
LTX對比Wan2.2
LTX雖然快一些,但提示詞跟畫面不太可控,畫質每輪都會下降。(對於建築物、Q版3D的一兩次循環還行,不適合跑無限流,但拼接多個不一樣的4秒影片應該還行。)
Wan2.2 雖然低顯存只能跑小尺寸,但畫質明顯比較好一些。缺點就是生成速度太慢。穩定度很夠,估計算力夠跑個二十次+循環畫面都能銜接的上。(拿來做短視頻、short這類10~30秒左右的短影音,覺得堪用)
節尾說一下
要跑這種無限流還是得直接將圖丟給AI去分析,不要透過Janus Pro這類的圖片反推描述,會失真的很嚴重。
之後Wan2.2在跑一次完整版的,看能跑到第幾輪,並且調整提示詞看會不會做出什麼有趣的行為。
LTX Video之後也在試試看,假如它也直接傳圖給Gemini、openai 看看品質會不會提升。
還有這幾個影片發現到都會有一個問題,因為是用尾幀,導致兩個影片過渡會有一點點停頓,之後想想有沒有辦法解決。
使用的LLM最好還是使用付費的Gemini API 或者是 OpenAI的API,這樣比較穩定。
跑這個無限流,其實就是要測試看看這些模型的穩定度。
彩蛋
有興趣的可以自行安裝這個自訂節點,這個節點適合拿來做批次文生圖、圖生圖、無限流反覆疊代影片、搭配的好應該也能自動化產生分鏡、首尾幀影片(每個分鏡腳本先準備好)。
文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)
原文連結:
https://blog.aidec.tw/post/test-wan22-video-ltxvideo
若有業務合作需求,可寫信至: opweb666@gmail.com
創業、網站經營相關內容未來將發布在 小易創業筆記