glm 4.7 flash 測試(使用rtx5060ti 16GB)

2026.01.22更新，經過多次測試，終於測試出RTX5060ti 16GB版本顯卡的最佳量化版本了。

使用glm-4.7 flash iq3_xxs 、 q3_k_s、q3_k_xl 將上下文調整到8192~12288之間(這個很重要，一定要將上下文調低到GPU上限範圍內)，GPU拉滿，不要開啟Force Model Expert Weights onto CPU

這樣可以跑出52.32 token/s 的成績。這樣的速度雖然還是沒法跟gpt oss 20B相比，但已經好過於qwen3 80b a3b的速度。

跟glm-4.7-flash@q4_k_xl 相比，回應的內容品質，沒感覺有明顯差距，但速度確實提升很多，快了近一倍。

可以跑出49.54 token/s

可以跑出51.68 token/s

基本上q3的版本都能跑，且速度差不多，但上下文一定要縮減，否則GPU vram不夠加載，速度就會差超級多。

2026.01.21更新，unsloth更新了新的模型(使用q3_k_xl)，lm studio的runtime也更新了，運行起來速度變快了一些，可以達到每秒15.88 token

有開啟Force Model Expert Weights onto CPU，沒開啟的話思考5分多鐘還沒結束

設定，以下的設定可以避免思考鬼打牆

雖然說有變快，但仍不如qwen3 80B A3B的速度。

glm 4.7 flash發布了，滿懷希望的測試一波，但老實說，實在不如預期。以RTX5060Ti這個只有16GB的低顯存顯卡的話，這個模型明顯不合適。

使用ollama 來跑的話，會出現顯存不足與記憶體不足的問題，看提示寫需要96GB記憶體，這在30B A3B的模型來說很奇怪，就連Qwen3 80B A3B都不需要這麼高的配置。(看了一下官方說明是glm-4.7-flash:q4_K_M，照理說不至於跑不起來)

使用lm studio，推薦是運行Q3_K_XL等級的模型，Q4模型也能跑，但估計會更慢。

運行的速度實在太慢了，光是思考時間就需要1~2分多鐘，輸出又得等好幾分鐘(大概3分多鐘)，每秒僅10.55 token。

還出現了回文的問題，明明已經要回應結束，又自己問自己，又重新回應了。

這速度實在有點慢

已經將上下文壓到50K、GPU也全開了。

假如開Force Model Expert Weights onto CPU的話，速度也只有8.98 token/s。

整體來說，一輪回應大約需要4~6分鐘。思考1~3分鐘+回應3分鐘。

(有人說沒開注意力會比較快，實測下來更慢4分52秒才思考完畢，回應又得回10分多鐘，一輪回應得15分鐘，每秒僅2.55 token的速度。)

回應的品質，也沒有特別突出，感覺跟下面的模型差不了太多(除了Twinkle Ai Gemma3 4B T1略弱)。

自己經常在用的模型有Qwen3 Next 80B A3B、gpt oss 20B、Twinkle Ai Gemma3 4B T1、glm4.6v，使用同一個問題問以下的模型。

這樣比較起來，glm4.7 flash的速度比qwen3 next 80B A3B還慢，不知道是不是底層程式尚未最佳化適配這個模型。假如它能有gpt oss 20B的速度且能關閉推理的話，這樣或許真能替代gpt oss 20B。

假如是聊天的話，我一般認為至少得35 token/s才算達到可接受的速度，最好有50 token/s以上，只能說glm4.7 flash完全沒達標。

💖 支持作者： 如果我的內容對你有幫助，歡迎請我喝杯咖啡 ☕，您的支持是我持續創作的最大動力！點我贊助

文章轉載或引用，請先告知並保留原文出處與連結！！(單純分享或非營利的只需保留原文出處，不用告知)

原文連結:
https://blog.aidec.tw/post/glm4-7-flash-test

若有業務合作需求，可寫信至： [email protected]

創業、網站經營相關內容未來將發布在小易創業筆記

相關文章