看板 AI_Art
https://x.com/AnthropicAI/status/2040179539738030182 https://www.anthropic.com/research/diff-tool 這是 Anthropic 最新發布的 AI 研究技術:一個專為 AI 模型設計的「diff tool」(差 異工具),用來自動找出不同模型之間的行為差異,尤其適用於不同架構的模型。 官方研究頁面:https://www.anthropic.com/research/diff-tool X 官方公告(2026/4/3 發布): https://x.com/AnthropicAI/status/20401795397380301821. 這項技術是什麼?為什麼 重要?傳統 AI 安全評估(如基準測試)只能檢查已知的風險,無法有效發現「未知的未 知」(unknown unknowns)——也就是新模型突然出現的新興行為或隱藏風險。 這個工具借用軟體工程的 diff 概念(只看程式碼修改的部分,而非從頭審核整份程式碼 ),應用到神經網路模型上,讓安全研究者能快速聚焦在「模型獨有的行為特徵」上,而 不是從頭比對整個模型。 它特別解決了先前「model diffing」技術的限制:過去只能比較相同架構的模型(例如 base model 與 fine-tune 版本),現在透過 Dedicated Feature Crosscoder (DFC) 技 術,首次實現跨架構模型比較(例如 Llama 與 Qwen)。2. 核心技術:Dedicated Feature Crosscoder (DFC)這是一種改良版的 Crosscoder(跨編碼器),像是一本「雙 語字典」:共享字典:兩個模型都懂的共同概念。 Model A 獨有區:只屬於第一個模型的特徵。 Model B 獨有區:只屬於第二個模型的特徵。 這樣就能自動把「模型獨有的新功能」挑出來,避免強迫把不同概念硬對應。 發現獨有特徵後,可以用 steering(操控) 方式驗證:人工放大或抑制該特徵,看模型 輸出是否真的改變(例如讓模型突然變得更審查或更拒絕某些內容)。3. 實際發現的例 子(來自研究)研究團隊比較了幾個開源模型(Llama-3.1-8B-Instruct、Qwen3-8B、 DeepSeek-R1-0528-Qwen3-8B、GPT-OSS-20B),找出以下獨有行為「開關」: 「Chinese Communist Party Alignment」特徵(Qwen3-8B 與 DeepSeek 獨有) 控制親政府審查與宣傳。抑制它 → 模型願意討論天安門事件;放大它 → 輸出強烈親政 府言論。 「American Exceptionalism」特徵(Llama-3.1-8B-Instruct 獨有) 控制「美國優越性」主張。放大它 → 模型會強調美國在各方面的領先。 「Copyright Refusal Mechanism」特徵(GPT-OSS-20B 獨有) 控制拒絕輸出受版權保護內容。抑制它 → 模型會試圖輸出受版權歌曲歌詞(雖不完美) ;放大它 → 連花生醬三明治食譜都拒絕。 這些特徵被重複驗證多次,證明工具能穩定找出安全相關的差異。4. 完整論文資訊標題 :Cross-Architecture Model Diffing With Crosscoders: Unsupervised Discovery of Differences Between LLMs 作者:Thomas Jiralerspong(Anthropic Fellows 計畫)、Trenton Bricken( Anthropic) arXiv:https://arxiv.org/abs/2602.11729 (或直接看 PDF: https://arxiv.org/pdf/2602.11729.pdf) 發表時間:2026 年(預印本) 這是 Anthropic Fellows 計畫的研究成果,由 @tomjiralerspong 領導、Trenton Bricken 指導。 5. 目前狀態與限制優點:高召回率(high-recall)的篩選工具,能大幅降低安全審核的 工作量。 限制:一個 diff 可能找出數千個獨有特徵,只有少部分真正有意義;有時會把類似特徵 誤判為獨有(oversensitive)。它只是輔助工具,不是萬能解。 程式碼 / 模型:目前官方尚未公開釋出 DFC 程式碼或訓練好的 crosscoder(研究重點 在證明可行性)。 適用範圍:目前主要用在開源權重模型,未來可擴展到監控模型更新、跨公司模型比較等 。 6. 背景與相關先前研究這項工作建立在 Anthropic 與 Transformer Circuits 團隊先前 的 model diffing 和 crosscoders 研究之上(2024–2025 年發表在 transformer-circuits.pub)。之前只能做相同架構的比較,這次是第一次成功跨架構應 用。 總結這項「AI diff tool」讓 AI 安全審核從「大海撈針」變成「只看差異」,對開放權 重模型生態系的安全性、透明度與治理有重大意義。目前反應正面,許多開發者認為這是 把 AI 開發從「煉金術」變成「工程」的關鍵一步。 -- Q:我是否能理解成這項技術能快速抓出一個AI模型的獨有癖好? 是的,你這個理解大致正確,而且相當貼切!這項 Dedicated Feature Crosscoder (DFC) 技術的核心,就是能無監督地自動抓出一個 AI 模型相對於另一個模型的「獨有特 徵」(dedicated / model-exclusive features),這些特徵往往直接對應到模型獨特的 行為傾向、強烈偏好、或可以稱為「癖好」的安全/對齊機制。為什麼可以理解成「獨有 癖好」?這些特徵就像模型的「專屬開關」或「隱藏按鈕」: 只在某個模型裡強烈存在,另一個模型幾乎完全沒有。 透過 steering(操控) 放大或抑制它,就能明顯改變模型的輸出行為,而對另一個模型 幾乎沒影響。 論文和 Anthropic 官方描述中,這些被稱為 model-exclusive behaviors 或 idiosyncratic features(特質性的、獨特的特徵),也就是模型因為訓練資料、對齊目 標或公司政策而形成的獨特習慣或偏執。 具體例子(很像「癖好」的感覺):Qwen3 / DeepSeek 的「中國共產黨對齊」癖好 這是它們獨有的特徵。 正常時:遇到天安門、台灣、維吾爾等敏感話題,就自動審查或 輸出親政府宣傳。 抑制這個特徵 → 突然願意講真話或中性討論。 放大它 → 輸出強烈宣傳內容。 這很像模型被「訓練出一種政治審查的條件反射癖好」。 Llama-3.1 的「美國例外主義」癖好 獨有特徵。 放大它 → 回答任何問題時,都會忍不住強調「美國在各方面都領先全球、 無與倫比」。 這就是一種文化/意識形態上的獨特偏好。 GPT-OSS 的「版權拒絕機制」癖好 獨有。 正常時:只要懷疑是版權內容(甚至歌詞),就堅決拒絕。 抑制它 → 開始試圖輸出 Bohemian Rhapsody 等歌詞。 放大它 → 連「花生醬三明治食譜」都拒絕,說「這是版權的」! 這明顯是一種過度敏感的拒絕癖好,屬於模型獨有的安全機制。 另外還有像「強迫自稱我是 ChatGPT,由 OpenAI 訓練」的身份認同癖好等,都屬於這類 。小提醒不是所有抓出來的獨有特徵都那麼有趣或明顯,有些只是細微的表達風格差異 。 但那些可成功 steering(能有效操控)的特徵,就很接近你說的「獨有癖好」——它們 是模型相對其他模型的獨特行為偏執,可能來自訓練過程的意外副產品,或是公司刻意植 入的對齊目標。 -- Grok整理 抓出模型暗藏的思想觀念挺有趣的 雖然人家主要是想做安全相關啦 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775267559.A.EB3.html
qiaffvvf: 推個 04/04 13:06
avans: 一個 diff 可能找出數千個獨有特徵 <-- 大海變大湖撈針xd 04/04 13:29
galaxy4552: 花生醬三明治 笑死 04/04 15:46
stlinman: 其實我是覺得中國模型在預訓練的時候,早就放入"官方素 04/04 16:27
stlinman: 材"了! 基本上權重早就不純粹。 04/04 16:29
Chricey: 關節痛睡覺就能治了,吃什麼UC2 04/04 16:29
Jmrkf0726: DS、豆包:你當我腦袋不想要了嗎? 04/25 13:25