昨天Nvdia 推出nemotron 3 nano版本,今天來測試看看它日常使用使否能比GPT OSS 20B 有更好的性能。
測試使用的是LM Studio
先從檔案大小來看
| 名稱 | 檔案大小 | 參數量 |
| Nemotron 3 nano Q4版本 | 22.83GB | 30B (A3B) |
| gpt-oss 20B | 11.28GB | 20B |

Nemotron 3 nano 支援1M的上下文,GPU註冊有52(選擇越高GPU使用率越高)、專家是默認是6。
測試的Prompt
你是一名專業電商內容編輯,請生成完整 SEO 導流文章,3600字,html 格式,包含段落、H2/H3 標題,僅<body>區塊。
文章中請自然插入每張圖片的連結(圖片文字只在alt,無須figcaption),H2標題不要放在第一行,開頭以P段落。
【商品資料】
商品名稱:多功能透明化妝刷收納盒
型號:TB-001
價格:390 元
材質:PET
尺寸:17.5 x 9 x 25.5 cm
商品描述:專為化妝刷及零散美妝工具設計
特色賣點:
透明可視設計
抽屜式結構
精準隔層,避免交叉污染
【圖片資料】
[#imgUrl:(1.jpg):] 透明化妝刷收納盒,抽屜式分層設計,一目了然方便整理美妝工具。
[#imgUrl:(2.jpg):] 透明收納盒細節特寫,內部分層清晰,使用方便。
【相關連結】
商品連結:https://example.com/product/TB-001
請生成:
完整文章,段落清楚、SEO 友好
在合適位置自然插入圖片與連結
包含開場段落、特色段落、規格段落、適用族群、常見問題、結論(不要在標題寫結論)
【要求】
文章須忠實使用以上資料,不得虛構資訊。
思考時間: 2分13秒(開思考的輸出效果跟沒開差不多)

每秒的Tokens: 6.13,看網上說3060都能跑到20 tokens/s ,不知道為何我的5060ti只能跑出這麼低的數字,GPT OSS 20B,之前測是可以跑到27tokens/s,上下文太多就會掉到剩下9 tokens/s。 下面有新的測試,速度有變快了。

記憶體使用量
基本上是全用上了

專家數 從6改成3:
思考時間變成2分3秒
每秒tokens : 7.74 tokens/s
GPU記憶體跟使用率基本上也全用上了,但溫度變得好低只有48度。(很少看到這樣的情況)
明顯的出現錯字,也不知道甚麼叫做 【繁忙的化妝棒前】 ?

輸出的完整內容
專家數為6的正常輸出



調整測試
嘗試把上下文長度從1048576 改成 51200後,記憶體的使用量變少了,每秒tokens也快了一些,變成7 tokens/s,效果也不是很明顯。
有效加速,把Force Model Expert Weights onto CPU 勾起來,可以變成17.84 tokens/s

記憶體、GPU的使用都變低了,CPU的使用變高(將 MoE 權重卸載到 CPU)

我發現這個模型有一個特點,就是無論文本數長度多少(但沒測試過超長文本),速度幾乎不會降,保持在17 tokens/s 。而GPT OSS 20B 文本越多,每秒tokens就會明顯下降越多了。
但很奇怪的是,NV的模型不是應該要更有效使用GPU,怎麼在GPU上反而不快,卸載到CPU反而快了。
不過這個模型預設開的專家數是6,GPT OSS 20B是4。假如將專家數改成4,輸出可以達到24 tokens/s
兩個模型回應的內容,我目前都能接受,但目前比較下來我會選nemotron-3-nano
因為nemotron-3-nano 的上下文長度有1M,且幾乎不會隨著對話字數而影響輸出速度。
但GPT OSS會,簡單一句話能54 tokens/s,輸入約1K,輸出1.5K,速度就掉到剩27tokens/s,但繼續再對話就掉到剩下9 tokens/s,剩至更低。
不過根據這兩個模型的特性,我們可以根據不同場合來選模型。像是聊天/對話就選nemotron-3-nano。一次性的小任務就選GPT OSS 20B。
但我始終覺得,我目前的設定還沒達到最佳化,再研究看看。實在沒道理RTX5060 Ti 16GB只比3060快 4 token/s。
按照之前使用comfyUI算圖,5060ti 的性能應該有3060的兩倍。
Q6版的話,也跑得動,每秒約19.37 tokens

文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)
原文連結:
https://blog.aidec.tw/post/nemotron-3-nano
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記