今天來測試RTX5060ti在ComfyUI的性能表現。使用的是MSI RTX5060 Ti 16GB版本。
測試環境:
Win11
python 3.13
pytorch2.8+cu128
有使用sageattention
可以看影片介紹
Wan 2.2 I2V測試
採用模型
smoothMixWan22 High Q8
smoothMixWan22 Low Q6

有使用WanVideoBlockSwap 、Patch Sage Attention KJ、 Model Patch Torch Settings
簡單介紹一下:
WanVideoBlockSwap 這個可以降低VRAM的使用,但運算時間會提升。可以根據自身的顯卡的VRAM跟所需的VRAM,來決定blocks to swap要設定多少。

以下是我的測試結果

Patch Sage Attention KJ(這個也能提速,選auto就好)、 Model Patch Torch Settings(這個套上會明顯的提升速度,沒感覺輸出品質有下降,建議打開)

測試輸出
496 * 720 , 81f => 首次(需加載模型),耗時222.81秒
496 * 720 , 81f => 第二次(模型已在記憶體),耗時133.24秒
496 * 720 , 97f => 耗時158.63秒
Flux測試
(測試更新2025-11-12,跟影片有些不同)
使用的模型flux-krea-dev, 有使用 waveCache 設定值為 0.120 ,採用 euler simple,weight_dtype:default。
992 * 1440 , 20steps ,總共費時121.71秒(首次,包含載入模型),實際算圖的部分53秒
20跟24steps 老實說沒太大差異。

waveCache設定值為0.120 ,採用 euler simple,weight_dtype:default。
今天改用 Flux Art Fusion 測試,一樣是992 * 1440 ,步數為25步,算圖時間為34秒,完整執行為38.36秒 (首次執行為109.35秒)

Flux-dev模型
waveCache設定值為0.120 ,採用 euler simple,一樣是992 * 1440,weight_dtype:default。


20步跟25步 說真的看不出甚麼差異。

改用weight_dtype:fp8_e4m3fn
flux krea-dev

Flux dev


flux art fusion


三個模型在default 模式下速度會有差異,但在fp8_e4m3fn下,速度就沒差異。
大尺寸測試(使用DyPE)
測試尺寸1440 * 2560,總共花費117.49秒,算圖的部分是94秒
Qwen Image 測試
使用的是 Qwen-Rapid-AIO ,使用4步生圖
將一張939*833的圖片,從牛變成熊,輸出840*1240

首次總共費時124.27秒,算圖的部分21秒。
第二次運行總共費時33.88秒,算圖的部分20秒。
改尺寸1080 * 1360 ,算圖23秒,總費時36.79秒。
跟我之前的RTX3060 12G相比,RTX5060 Ti 速度約快了1~1.5倍
原本要跑400多秒的變成200多秒完成(跑影片)。
像是wan s2v 4秒的影片(480*640)在RTX3060 要跑六分多鐘(第二次運行),現在變成155~265秒(2分多鐘~4分多鐘),4分多鐘是首次加載
flux 原本是67秒,變成43秒,這個優化就比較有限
文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)
原文連結:
https://blog.aidec.tw/post/rtx5060ti-comfyui-test
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記