昨天Nvdia 推出nemotron 3 nano版本,今天來測試看看它日常使用使否能比GPT OSS 20B 有更好的性能。

測試使用的是LM Studio


image.png

先從檔案大小來看

名稱檔案大小參數量
Nemotron 3 nano Q4版本22.83GB30B (A3B)
gpt-oss 20B11.28GB20B 


image.png


Nemotron 3 nano 支援1M的上下文,GPU註冊有52(選擇越高GPU使用率越高)、專家是默認是6。


測試的Prompt

你是一名專業電商內容編輯,請生成完整 SEO 導流文章,3600字,html 格式,包含段落、H2/H3 標題,僅<body>區塊。

文章中請自然插入每張圖片的連結(圖片文字只在alt,無須figcaption),H2標題不要放在第一行,開頭以P段落。

【商品資料】

商品名稱:多功能透明化妝刷收納盒

型號:TB-001

價格:390 元

材質:PET

尺寸:17.5 x 9 x 25.5 cm

商品描述:專為化妝刷及零散美妝工具設計

特色賣點:

透明可視設計

抽屜式結構

精準隔層,避免交叉污染

【圖片資料】

[#imgUrl:(1.jpg):] 透明化妝刷收納盒,抽屜式分層設計,一目了然方便整理美妝工具。

[#imgUrl:(2.jpg):] 透明收納盒細節特寫,內部分層清晰,使用方便。

【相關連結】

商品連結:https://example.com/product/TB-001

請生成:

完整文章,段落清楚、SEO 友好

在合適位置自然插入圖片與連結

包含開場段落、特色段落、規格段落、適用族群、常見問題、結論(不要在標題寫結論)


【要求】


文章須忠實使用以上資料,不得虛構資訊。

思考時間: 2分13秒(開思考的輸出效果跟沒開差不多)

image.png

每秒的Tokens: 6.13,看網上說3060都能跑到20 tokens/s ,不知道為何我的5060ti只能跑出這麼低的數字,GPT OSS 20B,之前測是可以跑到27tokens/s,上下文太多就會掉到剩下9 tokens/s。 下面有新的測試,速度有變快了。

image.png

記憶體使用量

基本上是全用上了

image.png

專家數 從6改成3:

思考時間變成2分3秒

每秒tokens : 7.74 tokens/s

GPU記憶體跟使用率基本上也全用上了,但溫度變得好低只有48度。(很少看到這樣的情況)

image.png

明顯的出現錯字,也不知道甚麼叫做 【繁忙的化妝棒前】 ?

image.png



輸出的完整內容

專家數為6的正常輸出

image.png

image.png

image.png


調整測試

嘗試把上下文長度從1048576 改成 51200後,記憶體的使用量變少了,每秒tokens也快了一些,變成7 tokens/s,效果也不是很明顯。

image.png


有效加速,把Force Model  Expert Weights onto CPU 勾起來,可以變成17.84 tokens/s

image.png

記憶體、GPU的使用都變低了,CPU的使用變高(將 MoE 權重卸載到 CPU)

image.png


我發現這個模型有一個特點,就是無論文本數長度多少(但沒測試過超長文本),速度幾乎不會降,保持在17 tokens/s 。而GPT OSS 20B 文本越多,每秒tokens就會明顯下降越多了。

但很奇怪的是,NV的模型不是應該要更有效使用GPU,怎麼在GPU上反而不快,卸載到CPU反而快了。

不過這個模型預設開的專家數是6,GPT OSS 20B是4。假如將專家數改成4,輸出可以達到24 tokens/s


兩個模型回應的內容,我目前都能接受,但目前比較下來我會選nemotron-3-nano 

因為nemotron-3-nano  的上下文長度有1M,且幾乎不會隨著對話字數而影響輸出速度。

但GPT OSS會,簡單一句話能54 tokens/s,輸入約1K,輸出1.5K,速度就掉到剩27tokens/s,但繼續再對話就掉到剩下9 tokens/s,剩至更低。


不過根據這兩個模型的特性,我們可以根據不同場合來選模型。像是聊天/對話就選nemotron-3-nano。一次性的小任務就選GPT OSS 20B。

但我始終覺得,我目前的設定還沒達到最佳化,再研究看看。實在沒道理RTX5060 Ti 16GB只比3060快 4 token/s。


按照之前使用comfyUI算圖,5060ti 的性能應該有3060的兩倍。




Q6版的話,也跑得動,每秒約19.37 tokens

image.png



文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)

原文連結:
https://blog.aidec.tw/post/nemotron-3-nano
若有業務合作需求,可寫信至: [email protected]
創業、網站經營相關內容未來將發布在 小易創業筆記