看板 AI_Art
轉載,但這人的測試結果有意思 https://reurl.cc/qpLxjn 他的命題是"開源小模型,到底能不能真正自主工作?當 OpenClaw 的 LLM 夠嗎?" 這v4結果當小幫手我覺得沒問題,但他的實驗結果讓我覺得還是太難落實到一人公司 或者創業團隊 用了一台128G共通記憶體的機器跑,卻只能跑NVFP4量化的版本才能搾出50Tok/s的 推理速度?看他活躍參數4B=就是只有一個專家在活躍,那不是應該多測幾個嗎? 拋開實驗失誤,gemma4的表定需求似乎也不樂觀 https://myppt.cc/WdiZD 代表還是要128GB起跳才能跑便宜推理,那gemma4對目前上限只有64GB的mac mini就 得等了。超過10萬的Ai agent主機很難變成基礎共識 不過還是比千問好一點吧,Qwen 3.5 35B沒事會吐出簡體中文,不能放心給agent自己 做事那還叫什麼自動化 -- 弟子「先生、処女を貴重だと思う男は多いです?」 孔明「..その通りだ 」 弟子「しかし逆に童貞は女に気持ち悪がられます? 」孔明「....確かに 」 弟子「おかしいじゃないですか、何故このような意識の違いが生まれるのですか 」 孔明「それは一度も侵入を許していない砦は頼もしく 一度も侵入に成功しない兵士は頼りないからだ! 」 原出:「孔明の罠だ!」(民明書房新刊) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.88.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775551829.A.6E4.html
error405: https://i.meee.com.tw/H6wLjnV.png 04/07 17:11
error405: 據說Hermes跑起來效果會更好點 04/07 17:12
Supasizeit: 簡體跑個檢查重出不就好了 04/07 17:56
Supasizeit: 完全靠LLM不用tool 叫什麼agent 04/07 17:56
yymeow: NV DGX Spark記憶體頻寬273GB/s,相較mac mini m4的546GBs 04/07 18:10
Kroner: UC2對膝蓋特別有用嗎?有人能證實嗎? 04/07 18:10
yymeow: 可能就是造成瓶頸的原因 04/07 18:10
yymeow: 實際跑35B模型,前者38token/s,後者是兩倍 04/07 18:11
stlinman: 我覺得目前起碼要100B以上的模型跑Agent才夠智能。 04/07 20:54
stlinman: nvidia/nemotron-3-super-120b-a12b GGUF(Q4)版 64G免強 04/07 20:55
Kroner: 我有在用UC2,感覺效果還不錯欸! 04/07 20:55
stlinman: 夠用吧! 勉強 04/07 20:56
Supasizeit: Gemma vision token有問題 目前圖像辨識是廢掉的 04/13 19:12