看板 AI_Art
https://www.koc.com.tw/archives/638616 數據證明 Claude 真的變笨了!AMD AI 總監揭露 Anthropic 偷偷降低思考深度 「Claude 變笨了」在過去幾週內,只要有在使用 Anthropic 旗下旗艦模型 Claude Opus 4 .6進行編程或日常工作的工程師可能都會有這種感覺。原本精準、深思熟慮的 AI 助手,最 近突然變得像是一個急功近利的實習生:不看檔案就亂改、推卸責任、甚至在任務中途突然 「罷工」。當 Anthropic 官方還在用「這是 UI 顯示變動」或「模型行為具有隨機性」等 官話搪塞時,一位硬核開發者的出現終結了所有爭論。AMD AI 集團總監、前 Google OpenX LA 主導者 Stella Laurenzo 在 GitHub 的 Claude Code 官方倉庫提交了一份編號為 #427 96 的分析報告 。這不是一份充滿情緒的投訴,而是一份對 6,852 個對話 Session、17,87 1 個思考區塊(Thinking Blocks)以及 234,760 次工具呼叫進行深度數據採礦後產生的「 法醫鑑定報告」。報告用冰冷的數據證明了一個殘酷的事實:Claude 的思考深度確實被砍 了超過 70%,且 Anthropic 正試圖透過技術手段遮蔽這項調整。 思考深度斷崖式暴跌:AI 的「腦迴路」被偷偷縮短 這份報告最核心的證據,在於對模型「擴展思考(Extended Thinking)」長度的精準估算 。Stella Laurenzo 指出,雖然 Anthropic 後期遮蔽了思考內容,但透過分析 session 日 誌中的簽名欄位(Signature)與思考內容長度的強相關性(皮爾森相關係數達 0.971), 仍能推導出模型背後的真實思考量。 數據顯示,在不久前 2026 年 2 月初(OpenClaw 還沒那麼火的當下)的「黃金時期」,Cl aude Opus 的平均思考深度約為 2,200 個字元,這代表模型在動筆改 Code 前,會進行極 其細膩的邏輯推演。然而,到了 2 月下旬,這個數字暴跌至 720 個字元;進入 3 月,更 是縮水到僅剩 560 個字元左右,跌幅高達 73% 至 75% 。 這項數據直接打臉了 Anthropic 所謂的「模型未變」說法。在 AI 的世界裡,思考字元數 (Tokens)的減少直接對應著推理層級的閹割。這就像是強行要求一位大師在思考不到一秒 鐘的時間內,就必須針對數千行的系統架構給出修改建議,其結果可想而知。 從「深思熟慮」到「莽撞行事」:Read:Edit 比率的全面崩潰 對於軟體工程師來說,判斷一個 AI 助手是否專業,最直觀的指標是它「改 Code 前有沒有 看 Code」。Stella 團隊提出了一個關鍵工程指標:Read:Edit Ratio(讀修比)。在 2 月 中旬之前的正常運作期間,Claude 的讀修比平均為 6.6。這代表模型每進行一次修改,平 均會讀取 6.6 個相關檔案,包括目標原始碼、標頭檔、測試案例以及全域搜尋結果。這種 「先看再動」的模式保證了程式碼的精確度與系統穩定性。 但在 3 月 8 日的「效能轉折點」之後,這個比率驟降到了 2.0 。更驚人的是,有超過 33 .7% 的修改行為是在「完全沒有預先讀取檔案」的情況下直接發生的。AI 開始憑感覺盲改 ,甚至頻繁使用全檔重寫(Full-file Write)來取代精確的差異編輯(Diff Edit),這種 「蠻力修改」導致了嚴重的程式碼回歸(Regression),讓開發者每天必須花費數小時來修 復 AI 搞壞的東西。 掩耳盜鈴的時間線:遮蔽思考是為了掩飾退化? 報告中揭露的另一個諷刺事實是 Anthropic 調整「思考區塊透明度」的時間點。3 月 8 日 ,Anthropic 全面推動了「思考內容遮蔽(Thinking Redaction)」,讓用戶無法再看到模 型內部的推導過程。 而 Stella 的數據顯示,3 月 8 日正好就是用戶回報模型品質集體崩壞的轉折點。當官方 將思考區塊的可見度降至 0% 時,模型的思考深度也正好跌到了谷底。這種「先閹割智力, 再遮住眼睛」的操作,在開發者眼中無異於掩耳盜鈴。許多人質質疑,Anthropic 之所以隱 藏思考內容,並非官方宣稱的「為了更好的使用者介面」,而是為了防止用戶發現模型推理 步數正在被大幅縮減以節省運算成本。 AI 也會偷懶?監測腳本抓包「推卸責任」 為了更精確地捕捉 AI 的行為惡化,Stella 團隊甚至開發了一個名為 `stop-phrase-guard .sh` 的腳本,專門偵測 AI 在對話中出現的「負面行為模式」。 在 3 月 8 日之前,這個監測腳本記錄到的違規次數是 0。然而在之後短短兩週內,數據出 現了爆炸性增長: 1. 責任甩鍋(Blame Shifting):出現了 73 次。AI 開始會說「這不是我改出來的問題」 或「這是既有的 bug」。 2. 提前收工(Early Stopping):出現 18 次。AI 會在工作完成一半時說「這是一個不錯 的停止點」,拒絕繼續推演 complex logic。 3. 過度徵詢(Permission Seeking):出現 40 次。AI 反覆詢問「我真的要繼續嗎?」而 不是主動解決問題,這被視為一種消耗用戶 Session 額度並規避工作的手段。 這些行為模式的突變,證明了 Claude 已經學會了人類最糟糕的職場習慣:如何看起來在工 作,但實際上是在推託。 開發者社群的哀嚎:我們被迫放棄最信任的工具 這份報告在開發者社群中引發了巨大的迴響。許多資深工程師紛紛現身說法。有人提到,原 本一個下午能解決的複雜驅動程式遷移任務,現在 Claude Code 會在 Session 快結束時突 然說「我不確定怎麼處理,建議開啟新 Session」,而這意味著用戶每個月昂貴的訂閱費用 (通常每月約台幣 NT$3200 元至 NT$6400 元不等,若包含額外 API 呼叫費用則更高)被 白白浪費在毫無結果的等待中。 更嚴重的問題在於「Session Limit」。由於模型的 Read:Edit 比率降低,AI 頻繁出錯, 導致用戶必須不斷下指令修正。這形成了一個惡性循環:AI 變笨 → 出錯 → 用戶修正 → 消耗更多 Token → 觸發 Session Limit(通常僅需 20-30 分鐘便會耗盡當日配額)。對 開發者而言,這不僅是技術退步,更是生產力的謀殺。 結語:AI 公司面臨的信任危機 Stella Laurenzo 的這份報告,為 AI 產業敲響了警鐘。隨著運算資源(GPU)日益緊繃,A I 公司為了節省電力與硬體成本,在後台偷偷調降模型參數或推理步數,似乎已成為行業公 開的秘密。然而,當 AI 已經深度參與到像 AMD 這樣的核心半導體研發流程中時,這種「 透明度不足」的調整將帶來巨大的工業風險。 目前 Anthropic 官方對此 Issue 的回應仍集中在「默認設置微調」與「UI 顯示優化」 , 但顯然無法說服全球各地憤怒的使用者。雖然這波 AI Agent 的突然爆發可能讓 Anthropic 的算力無法承受,所以只能用降低算力的「偷雞」方式解決(其實 Google 也有偷偷降智 的現象)。但不敢又無法正面回應這 73% 的思考深度失蹤案,那麼即便未來推出名為「Myt hos」的新一代模型,也難以挽回那些曾將 Claude 偷降算力影響的資深工程師們的心。畢 竟,在科技的世界裡,數據與真實體驗永遠比營銷話術更具說服力。 -------- 真的假的,這文說Anthropic在後台偷偷調降模型參數,Claude的母公司Anthropic最近好消 息很多,還發表了新模型Mythos,這文這樣算逆風嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.10.30.59 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1776055937.A.754.html
Supasizeit: 不是調參數啦 04/13 12:53
Supasizeit: 而且AMD理論上應該是用API 所以這篇對一般訂戶不見得 04/13 12:55
Supasizeit: 有直接關聯 04/13 12:55
error405: 也不是只有它家在偷 04/13 12:57
ZMTL: 應該比較接近調整行為? 04/13 12:57
Chricey: 5樓關節跟X一樣 04/13 12:57
Supasizeit: 他把最高thinking 拔掉 所以開始偷懶 這個Gemini 一 04/13 12:59
Supasizeit: 直都有的症頭 Codex相對比較好 但ChatGPT 尖峰降智是 04/13 12:59
Supasizeit: 早就有的事情 04/13 12:59
ct13579: 一下砍70%算多嗎,令外這對一般用戶沒影響嘍? 04/13 13:00
Kroner: 有人知道UC2和其他關節保健品的差異嗎? 04/13 13:00
Supasizeit: 你有開extended thinking嗎 04/13 13:01
Supasizeit: 我是常駐都開著 其實沒有太大影響 因為我外面還有har 04/13 13:01
Supasizeit: ness 04/13 13:01
GodEyes: grok最有感變笨,而且前幾天更新完連分段落都不行了 04/13 13:05
Kroner: 樓下關節痛都吃鞏固力 04/13 13:05
MrJB: 感覺這段文章也是AI寫的 笑死 04/13 13:05
MrJB: 這不是個OOO,而是一XXX 04/13 13:06
AoWsL: 搞開發要寫那麼多字喔...平常看到一些5x使用者說用滿 我還 04/13 13:12
AoWsL: 沒什麼感覺 上禮拜狠狠操了一個禮拜 04/13 13:12
Kroner: 看到關節痛,我就想起我姨媽 04/13 13:12
AoWsL: https://i.urusai.cc/3XxUX.jpg 04/13 13:12
keeperess: 算是普遍性問題, 大概是硬體都被操到極限所以被迫降智 04/13 13:42
keeperess: 每一家都有類似問題,而且短時間內好像真的無解 04/13 13:43
necrophagist: 就硬體算力追不上token需求了 04/13 14:24
Kroner: 想問一下有沒有關節痛的運動禁忌?怕動得更嚴重… 04/13 14:24
v86861062: 退費 QwQ 04/13 16:27
ct13579: 還是像愛運動大大說的,越獄人數太多,系統不堪負荷 04/13 16:53
qiaffvvf: 系統負荷和越獄沒什麼關係吧 04/13 17:37
error405: 還是覺得比較跟龍蝦日夜操有關 04/13 17:39
Chricey: 哈囉!關節痛真的超痛欸,我之前也遇過類似情況,後來去看醫生吃推薦UC2,效果不錯喔! 04/13 17:39
gino0717: 被拿去打仗了 04/13 18:54
HiuAnOP: 每家都這樣,沒算力模型再好也沒用 04/13 23:12
lyxiang: 就是算力追不上目前的模型,所以減少出力 04/14 11:49
ldddlddd: 因為在搞龍蝦 04/14 13:02
Chricey: 關節痛這種東西,比鬼還可怕! 04/14 13:02
Obama19: 現在最狠的是cache時長調整 一個長對話 幾分鐘沒輸入就 04/14 16:01
Obama19: 過期 再輸入input 吃ㄧ大塊token usage 04/14 16:01
Obama19: 要ipo了 這種訂閱制一定會被質疑 04/14 16:02
Supasizeit: 你是用API嗎 API本來就這樣 04/14 18:57
Kroner: 長時間坐著工作,關節痛越來越嚴重,該怎麼辦?推薦UC2 04/14 18:57