上一篇使用Flux2-dev fp8 ComfyUI測試,這一篇改使用gguf來進行測試,並測試多種提示詞。
gguf的下載連結:
首先測試的是
flux2-dev gguf_Q4_K_M
記憶體使用量
vram使用量

使用的時間,出一張1024*1024的圖要超過3分鐘

多人細節場景
測試的提示詞:
一張摩洛哥馬拉喀什夜市黃昏時分的紀實廣角照片。數百名表情各異、穿著傳統服裝的人緊緊擠在一起。商人們販賣著五顏六色的香料堆、黃銅燈和帶有圖案的地毯。烤肉攤位冒著煙,在無數小燈籠的照耀下形成溫暖的霧氣。即使在中景,人群的面部也高度細緻,氛圍混亂但連貫。

高能特效場景
提示詞:
在一座廢墟古神廟內的史詩奇幻戰鬥場景。兩位強大的術士在中央交鋒。左邊,一位法師懸浮著,召喚出一個巨大的、旋轉的藍色冰錐和雪的暴風雪漩渦。右邊,一位法師控制著一條咆哮的、由岩漿和火花組成的火蛇龍。這兩種元素猛烈碰撞,產生爆炸性的蒸汽、魔法閃電和粒子特效,照亮了搖搖欲墜的石柱。電影感的動作鏡頭。

複雜場景測試
提示詞:
一座被大自然重新佔領的後末日圖書館塔樓的巨大多層內部。陽光像「耶穌光」一樣穿過高處塌陷的玻璃天花板圓頂射入,照亮了底層從腐爛書堆山中長出的巨大古樹。一群穿著拾荒裝備的倖存者正在數百英尺高的腐朽書架的不同樓層之間,用廢木料建造錯綜複雜的吊橋和小棚屋。塵埃微粒在光線中飛舞,垂下的藤蔓,到處都是極致的細節,橫向風景構圖。

人像測試
有一種說不出的假假的感覺。
Cinematic portrait of an elderly fisherman with a weathered face and a thick white beard, wearing a yellow raincoat, standing in the rain at night, neon city lights reflecting in the background, highly detailed skin texture, photorealistic.

大尺寸測試
改成2560*1440的尺寸做測試,顯卡的記憶體使用量反而下降了,記憶體用量上升。估計是顯卡記憶體不足,用記憶體來緩衝了。

實測結果是能跑得出來,但是太慢了,生成一張2560*1440的圖片需要耗時8分多鐘

採用複雜的提示詞
A richly detailed, cinematic photograph inside a cramped, cluttered antique shop located in a bustling Hong Kong alleyway on a rainy night. An elderly Chinese shopkeeper with round glasses and a traditional jacket is holding a magnifying glass, examining an old pocket watch for a younger Western male customer wearing a soaked trench coat. The shop is overflowing to the ceiling with objects: vintage cameras, porcelain vases, bronze Buddhas, stacks of leather books, and mechanical clocks.
Hanging wooden signs inside have traditional Chinese calligraphy reading "百年老店" and "真品保證". Through the rain-streaked front window, complex neon signs from the street reflect into the shop; one prominent glowing English sign reads "EAST OMNIBUS TRADING CO." and another smaller one below says "Est. 1920 - Imports & Exports". Outside on the wet pavement, crowds of people with umbrellas walk past under the neon glow. The atmosphere is warm inside, chaotic and wet outside. 8k resolution, highly textured.
說明:
一張細節極其豐富的電影感照片,拍攝於一個雨夜,位於香港繁忙小巷內一間擁擠狹窄、雜亂的古董店內部。一位戴著圓眼鏡、穿著傳統夾克的年長中國店主正拿著放大鏡,為一位穿著濕透風衣的年輕西方男顧客檢查一塊舊懷錶。店內塞滿了物品直達天花板:老式相機、瓷花瓶、青銅佛像、成堆的皮面書和機械鐘錶。
店內懸掛的木製招牌上寫著傳統漢字書法「百年老店」和「真品保證」。透過佈滿雨痕的前窗,街上複雜的霓虹燈反射進店內;一個顯眼的發光英文招牌寫著「EAST OMNIBUS TRADING CO.」,下面另一個較小的寫著「Est. 1920 - Imports & Exports」。在外面濕滑的人行道上,打著傘的人群在霓虹燈光下走過。氛圍是室內溫暖,室外混亂潮濕。8k 解析度,高度紋理化。

生成出來的圖,很遵循提示詞,就是中文字【證】有問題、人物看起來就假假的。光影一看也不太自然,一眼就是AI的圖。
接下來測試GGUF_Q6_K
Flux2_dev_GGUF_Q6_K
測試圖片編輯能力
使用的記憶體

簡單在一張圖上,寫上"自由航行"的文字

尺寸為992*1440,生成時間要7分多鐘。依舊是慢到無法接受的程度。其他模型在一樣的尺寸大概在30~40秒
另外16GB的顯存,看樣子是不夠將GGUF_Q6完全載入到vram當中的。
測試文生圖尺寸992*1440
提示詞:
創意頭像,q 版財神卡通風格,戴墨鏡搭霸氣金色皇帝服飾,慵懶倚靠在龍椅上,手拿茶杯,悠然自得模樣。龍椅邊上立著一個金色的大路牌,路牌上寫著“財富無限”、“隨時可領”,“需要多少”、“直接拿”
跑一張圖需要4分多鐘。

輸出的成品。(Flux2)

下面是qwen_image_aio (只花27秒左右)

FLUX2-dev_GGUF_Q5
992*1440 耗時4分多鐘

1024*1024 耗時3分多鐘

提示詞:
一張廣角電影感鏡頭,拍攝於一個粗獷、復古未來風格的維修車庫內。在中央,一位臉上有油漬、留著藍色雷鬼髒辮的女機械師,正用焊槍修理一個漂浮的銀色反重力引擎組件。明亮的火花猛烈飛濺,照亮了她的護目鏡。在她旁邊,一個生鏽的機器人助手拿著一張全像投影的藍圖。 在後方的金屬牆上,一個黃色的工業警告標誌用粗體黑色漢字寫著「高壓危險」。在巨大的敞開車庫門上方,一個閃爍的霓虹燈招牌顯示著英文文字「QUANTUM MOTORS」。在前景,一個紅色的金屬工具箱上用白色噴漆模版印著中文「維修中心」。地板上滿是油漬、散落的扳手和銅線。透過車庫門,可以看到日落時分有飛行汽車的賽博龐克城市天際線。8k 解析度,體積光,照片級真實紋理。
效果

上一點難度
提示詞:
A photograph of a chrome sphere floating in the center of a library. The reflection in the sphere clearly shows the photographer (a robot) and the bookshelves behind the camera. The books in the reflection should be distorted correctly by the curvature of the sphere but still suggest detailed spines. Hyper-realistic, 8k

flux2對於基本上用中文、英文作為提示詞都行,理解能力測試下來精準度還挺高的。但產生的圖片速度太慢了。只能看之後有沒有加速跟優化的版本。目前的版本生成的圖片細節也不太夠,不知道是步數太低還是尺寸設定的不夠,看之後有沒有增加細節的lora可以補足這塊缺失。但是這個生成速度真的不太行,它生成一張圖qwen_image_aio版可以生成5~8張圖。比較下來flux2沒有足夠的優勢,跟nano banana pro比就又差得更遠了。
編輯圖片,衣服的文字像是P圖上去的。

使用加速後,仍然要2分31秒,跑一張執行要164.78秒。(1024*1024)

waveCache、TeaCache目前沒有一項可以支援的
官方出的EasyCache倒是可以運行,1024*1024,執行時間變成02:41,快了50秒。關於這個節點網上一點介紹也沒有。


可以獲得2倍加速
1.4倍加速

2倍加速

未使用加速

看起來開加速不太影響品質,16GB的顯卡目前測試起來,GGUF_Q5最合適(想省一點空間可以用Q4)
步數測試

開加速 (1024*1024)
20 steps 要1分31秒(選這個)
25 steps 要1分55秒
30 steps 要7分45秒
25steps 跟 30 steps 基本上看不出差異

20 steps 跟 30steps 也看不出差異

Q4

Q5

Q4&Q5,差異很小,但Q5感覺上比較自然一點點

另一個對比,這次的我反而比較喜歡Q4的結果

這輪的我真比較不出來,但有種Q4細節比Q5還多的感覺。

另外一組
另一個參照組

這樣比較起來,似乎選Q4就行。
fp8 vs Q4,這兩個對比就有明顯的細節上的差異。裙子、毛衣、手部細節、背景建築,fp8都比Q4來的豐富細膩。

聽說之後還會釋出一個比dev輕量的模型,到時候再試試看
文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)
原文連結:
https://blog.aidec.tw/post/flux-dev-gguf
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記