通義推出新的生圖模型z Image Turbo,算是一個小模型參數量6B,檔案僅12GB。跟flux2(30多G)比起來小了好多好多,使用的text_encoders採用qwen3_4b
模型下載
工作流(下載圖片,將圖片拖曳到comfyUI就能顯示工作流)
測試環境的顯卡一樣是RTX 5060Ti 16GB
首先測試官方範例 1024*1024的圖
首次運行(包含模型加載 只需要36.75秒)

第二次運行,只需要17.55秒 (其實可以改成6~8steps,表現也很不錯)

這速度完全勝過昨天的flux2,輸出的品質也完全沒有輸。
我們來測試一下提示詞
cute anime girl with gigantic fennec ears and a big fluffy fox tail with long wavy blonde hair and large blue eyes blonde colored eyelashes wearing a pink sweater a large oversized gold trimmed black winter coat and a long blue maxi skirt and a red scarf, she is happy while singing on stage like an idol while holding a microphone, there are colorful lights, it is a postcard held by a hand in front of a beautiful city at sunset and there is cursive writing that says "Flux2, Now in ComfyUI"

對比一下

用中文提示詞,中文字表現也比flux2好

多人細節場景
測試的提示詞:
一張摩洛哥馬拉喀什夜市黃昏時分的紀實廣角照片。數百名表情各異、穿著傳統服裝的人緊緊擠在一起。商人們販賣著五顏六色的香料堆、黃銅燈和帶有圖案的地毯。烤肉攤位冒著煙,在無數小燈籠的照耀下形成溫暖的霧氣。即使在中景,人群的面部也高度細緻,氛圍混亂但連貫。

z Image畫面很有真實感,flux2雖然人物比較多,但flux2的內容很糊,左側的燈都糊再一起了。

高能特效場景
提示詞:
在一座廢墟古神廟內的史詩奇幻戰鬥場景。兩位強大的術士在中央交鋒。左邊,一位法師懸浮著,召喚出一個巨大的、旋轉的藍色冰錐和雪的暴風雪漩渦。右邊,一位法師控制著一條咆哮的、由岩漿和火花組成的火蛇龍。這兩種元素猛烈碰撞,產生爆炸性的蒸汽、魔法閃電和粒子特效,照亮了搖搖欲墜的石柱。電影感的動作鏡頭。

複雜場景測試
提示詞:
一座被大自然重新佔領的後末日圖書館塔樓的巨大多層內部。陽光像「耶穌光」一樣穿過高處塌陷的玻璃天花板圓頂射入,照亮了底層從腐爛書堆山中長出的巨大古樹。一群穿著拾荒裝備的倖存者正在數百英尺高的腐朽書架的不同樓層之間,用廢木料建造錯綜複雜的吊橋和小棚屋。塵埃微粒在光線中飛舞,垂下的藤蔓,到處都是極致的細節,橫向風景構圖。

人像測試
真實感也很好,但怎麼跟flux2出來的老人好像,訓練集都是同個人物嗎(哈
Cinematic portrait of an elderly fisherman with a weathered face and a thick white beard, wearing a yellow raincoat, standing in the rain at night, neon city lights reflecting in the background, highly detailed skin texture, photorealistic.

大尺寸測試
對提示詞的遵循度,略輸flux2,但輸出的品質還是很好多。
A richly detailed, cinematic photograph inside a cramped, cluttered antique shop located in a bustling Hong Kong alleyway on a rainy night. An elderly Chinese shopkeeper with round glasses and a traditional jacket is holding a magnifying glass, examining an old pocket watch for a younger Western male customer wearing a soaked trench coat. The shop is overflowing to the ceiling with objects: vintage cameras, porcelain vases, bronze Buddhas, stacks of leather books, and mechanical clocks.
Hanging wooden signs inside have traditional Chinese calligraphy reading "百年老店" and "真品保證". Through the rain-streaked front window, complex neon signs from the street reflect into the shop; one prominent glowing English sign reads "EAST OMNIBUS TRADING CO." and another smaller one below says "Est. 1920 - Imports & Exports". Outside on the wet pavement, crowds of people with umbrellas walk past under the neon glow. The atmosphere is warm inside, chaotic and wet outside. 8k resolution, highly textured.

像是flux2有顯示Est. 1920 - Imports & Exports ,z Image沒有。中文表現仍然是z Image比較好,但冒出了提示詞沒要求的牌子。提示詞要求年輕西方男顧客,但顯示的是東方人。

輸出2560*1440的圖也是沒問題的,只需要65.73秒,(flux2花費時間535.63秒,慢了8倍)

中文字測試
提示詞
創意頭像,q 版財神卡通風格,戴墨鏡搭霸氣金色皇帝服飾,慵懶倚靠在龍椅上,手拿茶杯,悠然自得模樣。龍椅邊上立著一個金色的大路牌,路牌上寫著“財富無限”、“隨時可領”,“需要多少”、“直接拿”
測試中文字,以下是Qwen Image 跟 Z Image對比,明顯Z Image對提示詞遵循度差很多,輸出的文字會大致會以簡體中文輸出,即使要求繁體也是。

繁體字真的表現不好,過多的文字表現也不太好。跟nano banana pro是完全沒法比,但畢竟這個模型參數量比較少,生成的成本也差很多,無法放在一起比。
一張金色神秘古老的令牌,上面寫著繁體中文"天地玄宗,萬炁本根。廣修萬劫,證吾神通。三界內外,唯道獨尊。體有金光,覆映吾身。視之不見,聽之不聞。包羅天地,養育群生。受持萬遍,身有光明。三界侍衛,五帝司迎。萬神朝禮,役使雷霆。鬼妖喪膽,精怪忘形。內有霹靂,雷神隱名。洞慧交徹,五氣騰騰。金光速現,覆護真人。"
複雜場景
第一組
一張廣角電影感鏡頭,拍攝於一個粗獷、復古未來風格的維修車庫內。在中央,一位臉上有油漬、留著藍色雷鬼髒辮的女機械師,正用焊槍修理一個漂浮的銀色反重力引擎組件。明亮的火花猛烈飛濺,照亮了她的護目鏡。在她旁邊,一個生鏽的機器人助手拿著一張全像投影的藍圖。 在後方的金屬牆上,一個黃色的工業警告標誌用粗體黑色漢字寫著「高壓危險」。在巨大的敞開車庫門上方,一個閃爍的霓虹燈招牌顯示著英文文字「QUANTUM MOTORS」。在前景,一個紅色的金屬工具箱上用白色噴漆模版印著中文「維修中心」。地板上滿是油漬、散落的扳手和銅線。透過車庫門,可以看到日落時分有飛行汽車的賽博龐克城市天際線。8k 解析度,體積光,照片級真實紋理。

第二組
A photograph of a chrome sphere floating in the center of a library. The reflection in the sphere clearly shows the photographer (a robot) and the bookshelves behind the camera. The books in the reflection should be distorted correctly by the curvature of the sphere but still suggest detailed spines. Hyper-realistic, 8k

人像表現
(此提示詞網上複製來的)
真实照片质感,描绘一位气质阴郁清冷的绝美少女,皮肤白皙,修长的手指,双臂趴在柔软的缎面布料上,手臂缠着几圈白色缎面蕾丝边腕带,下巴垫在双臂上,厚重浓密的偏分棕色波浪长发侧向垂到一边,前额发整体吹高,略显凌乱,高颅顶,在近距离俯视视角下,画面聚焦锁定眼部光斑折射,光泽卧蚕,水润高光灰绿棕色瞳孔虹膜分层上色,水润玻璃感立体唇反光,她的鼻尖眉骨颧骨和下巴上有细腻的银色偏光微珠光,鼻梁上有小小的雀斑,精心描绘面部细节,尤其是那浓密纤长的棕色睫毛根根分明十分吸睛,前景局部画面有虚焦水晶光斑,大碎银闪光斑,柔焦,景深,华丽又迷醉的氛围,整体画面营造出神秘的氛围,左下角帅气手写签名“Nano”。透视感,修长的手指,薇尔莉特真人特写,魅惑又天真,冷艳,清冷,神秘元素,电影级冷暖光对冲,明暗高对比,超长焦,超精3D肌肤粒子(细腻肌肤毛孔),3D高精度建模渲染 ,OC渲染 Dolby Vision动态范围,细腻皮肤纹理 柔和 8K超清真人比例建模,电影级景深,精确的面部解剖结构,微距摄影打光技术,动态表情捕捉,瞳孔虹膜分层着色。柔焦虚化背景,胶片颗粒质感。画面发光特效,光斑粒子,氛围,超高品質,超高質感,高品质,极致质感

另一組
一位气质优雅、皮肤细腻白皙如高级羊脂玉、五官精致、嘴唇饱满湿润泛光、鼻子小巧莹润、长睫毛柳叶眉的xhs美女,身着哥特萝莉风格穿搭并佩戴精致首饰,带着娇羞情绪、疲惫依靠的神态,以随手一拍的方式拍成略带运动模糊、轻微曝光过度的iphone自拍照, 无明确构图, 空灵感、自然感、白月光感、亲切感、现实感氛围, 超高清、电影质感、32K高清画质修饰, 日常快照风格, 超高品質,超高質感,高品质,极致质感


另一組


若沒有文字輸出需求Z image表現與輸出速度,真的挺不錯,真實感跟畫風都是我喜歡的。目前測試的是Z Image Turbo,好像還有的Base版尚未釋出、還有個Edit版,到時再測試看看表現。
官方推薦尺寸
1280
1024

文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)
原文連結:
https://blog.aidec.tw/post/z-image-turbo
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記