2026.01.22更新,經過多次測試,終於測試出RTX5060ti 16GB版本顯卡的最佳量化版本了。

使用glm-4.7 flash iq3_xxs 、 q3_k_s、q3_k_xl 將上下文調整到8192~12288之間(這個很重要,一定要將上下文調低到GPU上限範圍內),GPU拉滿,不要開啟Force Model Expert Weights onto CPU

image.png



glm-4.7 flash iq3_xxs


這樣可以跑出52.32 token/s 的成績。這樣的速度雖然還是沒法跟gpt oss 20B相比,但已經好過於qwen3 80b a3b的速度。

跟glm-4.7-flash@q4_k_xl 相比,回應的內容品質,沒感覺有明顯差距,但速度確實提升很多,快了近一倍。


image.png

glm-4.7 flash q3_k_s 

可以跑出49.54 token/s

glm 4.7 flash q3_k_xl 

可以跑出51.68 token/s


基本上q3的版本都能跑,且速度差不多,但上下文一定要縮減,否則GPU vram不夠加載,速度就會差超級多。



2026.01.21更新,unsloth更新了新的模型(使用q3_k_xl),lm studio的runtime也更新了,運行起來速度變快了一些,可以達到每秒15.88 token

有開啟Force Model Expert Weights onto CPU,沒開啟的話思考5分多鐘還沒結束

設定,以下的設定可以避免思考鬼打牆

image.png




Q3_K_XL15.88 token/s
Q4_K_XL14.49 token/s (將專家數縮減到2,可以達18.98 token/s)

雖然說有變快,但仍不如qwen3 80B A3B的速度。



glm 4.7 flash發布了,滿懷希望的測試一波,但老實說,實在不如預期。以RTX5060Ti這個只有16GB的低顯存顯卡的話,這個模型明顯不合適。


使用ollama 來跑的話,會出現顯存不足與記憶體不足的問題,看提示寫需要96GB記憶體,這在30B A3B的模型來說很奇怪,就連Qwen3 80B A3B都不需要這麼高的配置。(看了一下官方說明是glm-4.7-flash:q4_K_M,照理說不至於跑不起來)


使用lm studio,推薦是運行Q3_K_XL等級的模型,Q4模型也能跑,但估計會更慢。


運行的速度實在太慢了,光是思考時間就需要1~2分多鐘,輸出又得等好幾分鐘(大概3分多鐘),每秒僅10.55 token。

image.png

還出現了回文的問題,明明已經要回應結束,又自己問自己,又重新回應了。

image.png

這速度實在有點慢

image.png

已經將上下文壓到50K、GPU也全開了。

image.png

假如開Force Model Expert Weights onto CPU的話,速度也只有8.98 token/s。

image.png


整體來說,一輪回應大約需要4~6分鐘。思考1~3分鐘+回應3分鐘。


(有人說沒開注意力會比較快,實測下來更慢4分52秒才思考完畢,回應又得回10分多鐘,一輪回應得15分鐘,每秒僅2.55 token的速度。)



回應的品質,也沒有特別突出,感覺跟下面的模型差不了太多(除了Twinkle Ai Gemma3 4B T1略弱)


自己經常在用的模型有Qwen3 Next 80B A3B、gpt oss 20B、Twinkle Ai Gemma3 4B T1、glm4.6v,使用同一個問題問以下的模型。



Token /s花費時間
Qwen3 Next 80B A3B(Q4_K_XL)24.37 token/s , 1393 token
58.89秒
gpt oss 20B A3B(MXFP4)105.63 token/s , 2420 token24.14秒(包含2.31秒思考)
gpt oss 20B-abliterated(IQ4_NL)126.23 token/s , 2073 token17.39秒(包含2.93秒思考)
glm4.6v flash52.33 token/s,1549 token
39秒(包含8秒思考)
Twinkle Ai Gemma3 4B T1(Q4_K_M)102.47 token/s , 1332 token11.74秒

這樣比較起來,glm4.7 flash的速度比qwen3 next 80B A3B還慢,不知道是不是底層程式尚未最佳化適配這個模型。假如它能有gpt oss 20B的速度且能關閉推理的話,這樣或許真能替代gpt oss 20B。


假如是聊天的話,我一般認為至少得35 token/s才算達到可接受的速度,最好有50 token/s以上,只能說glm4.7 flash完全沒達標



文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)

原文連結:
https://blog.aidec.tw/post/glm4-7-flash-test
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記