[閒聊] Qwen與Deepseek的共產黨癖好被發現了

作者error405 (流河=L)

看板AI_Art

標題[閒聊] Qwen與Deepseek的共產黨癖好被發現了

時間Sat Apr 4 09:52:36 2026

https://x.com/AnthropicAI/status/2040179539738030182 https://www.anthropic.com/research/diff-tool 這是 Anthropic 最新發布的 AI 研究技術：一個專為 AI 模型設計的「diff tool」（差異工具），用來自動找出不同模型之間的行為差異，尤其適用於不同架構的模型。官方研究頁面：https://www.anthropic.com/research/diff-tool X 官方公告（2026/4/3 發布）： https://x.com/AnthropicAI/status/20401795397380301821. 這項技術是什麼？為什麼重要？傳統 AI 安全評估（如基準測試）只能檢查已知的風險，無法有效發現「未知的未知」（unknown unknowns）——也就是新模型突然出現的新興行為或隱藏風險。這個工具借用軟體工程的 diff 概念（只看程式碼修改的部分，而非從頭審核整份程式碼），應用到神經網路模型上，讓安全研究者能快速聚焦在「模型獨有的行為特徵」上，而不是從頭比對整個模型。它特別解決了先前「model diffing」技術的限制：過去只能比較相同架構的模型（例如 base model 與 fine-tune 版本），現在透過 Dedicated Feature Crosscoder (DFC) 技術，首次實現跨架構模型比較（例如 Llama 與 Qwen）。2. 核心技術：Dedicated Feature Crosscoder (DFC)這是一種改良版的 Crosscoder（跨編碼器），像是一本「雙語字典」：共享字典：兩個模型都懂的共同概念。 Model A 獨有區：只屬於第一個模型的特徵。 Model B 獨有區：只屬於第二個模型的特徵。這樣就能自動把「模型獨有的新功能」挑出來，避免強迫把不同概念硬對應。發現獨有特徵後，可以用 steering（操控）方式驗證：人工放大或抑制該特徵，看模型輸出是否真的改變（例如讓模型突然變得更審查或更拒絕某些內容）。3. 實際發現的例子（來自研究）研究團隊比較了幾個開源模型（Llama-3.1-8B-Instruct、Qwen3-8B、 DeepSeek-R1-0528-Qwen3-8B、GPT-OSS-20B），找出以下獨有行為「開關」：「Chinese Communist Party Alignment」特徵（Qwen3-8B 與 DeepSeek 獨有）控制親政府審查與宣傳。抑制它 → 模型願意討論天安門事件；放大它 → 輸出強烈親政府言論。「American Exceptionalism」特徵（Llama-3.1-8B-Instruct 獨有）控制「美國優越性」主張。放大它 → 模型會強調美國在各方面的領先。「Copyright Refusal Mechanism」特徵（GPT-OSS-20B 獨有）控制拒絕輸出受版權保護內容。抑制它 → 模型會試圖輸出受版權歌曲歌詞（雖不完美）；放大它 → 連花生醬三明治食譜都拒絕。這些特徵被重複驗證多次，證明工具能穩定找出安全相關的差異。4. 完整論文資訊標題：Cross-Architecture Model Diffing With Crosscoders: Unsupervised Discovery of Differences Between LLMs 作者：Thomas Jiralerspong（Anthropic Fellows 計畫）、Trenton Bricken（ Anthropic） arXiv：https://arxiv.org/abs/2602.11729 （或直接看 PDF： https://arxiv.org/pdf/2602.11729.pdf）發表時間：2026 年（預印本）這是 Anthropic Fellows 計畫的研究成果，由 @tomjiralerspong 領導、Trenton Bricken 指導。 5. 目前狀態與限制優點：高召回率（high-recall）的篩選工具，能大幅降低安全審核的工作量。限制：一個 diff 可能找出數千個獨有特徵，只有少部分真正有意義；有時會把類似特徵誤判為獨有（oversensitive）。它只是輔助工具，不是萬能解。程式碼 / 模型：目前官方尚未公開釋出 DFC 程式碼或訓練好的 crosscoder（研究重點在證明可行性）。適用範圍：目前主要用在開源權重模型，未來可擴展到監控模型更新、跨公司模型比較等。 6. 背景與相關先前研究這項工作建立在 Anthropic 與 Transformer Circuits 團隊先前的 model diffing 和 crosscoders 研究之上（2024–2025 年發表在 transformer-circuits.pub）。之前只能做相同架構的比較，這次是第一次成功跨架構應用。總結這項「AI diff tool」讓 AI 安全審核從「大海撈針」變成「只看差異」，對開放權重模型生態系的安全性、透明度與治理有重大意義。目前反應正面，許多開發者認為這是把 AI 開發從「煉金術」變成「工程」的關鍵一步。 -- Q:我是否能理解成這項技術能快速抓出一個AI模型的獨有癖好? 是的，你這個理解大致正確，而且相當貼切！這項 Dedicated Feature Crosscoder (DFC) 技術的核心，就是能無監督地自動抓出一個 AI 模型相對於另一個模型的「獨有特徵」（dedicated / model-exclusive features），這些特徵往往直接對應到模型獨特的行為傾向、強烈偏好、或可以稱為「癖好」的安全/對齊機制。為什麼可以理解成「獨有癖好」？這些特徵就像模型的「專屬開關」或「隱藏按鈕」：只在某個模型裡強烈存在，另一個模型幾乎完全沒有。透過 steering（操控）放大或抑制它，就能明顯改變模型的輸出行為，而對另一個模型幾乎沒影響。論文和 Anthropic 官方描述中，這些被稱為 model-exclusive behaviors 或 idiosyncratic features（特質性的、獨特的特徵），也就是模型因為訓練資料、對齊目標或公司政策而形成的獨特習慣或偏執。具體例子（很像「癖好」的感覺）：Qwen3 / DeepSeek 的「中國共產黨對齊」癖好這是它們獨有的特徵。正常時：遇到天安門、台灣、維吾爾等敏感話題，就自動審查或輸出親政府宣傳。抑制這個特徵 → 突然願意講真話或中性討論。放大它 → 輸出強烈宣傳內容。這很像模型被「訓練出一種政治審查的條件反射癖好」。 Llama-3.1 的「美國例外主義」癖好獨有特徵。放大它 → 回答任何問題時，都會忍不住強調「美國在各方面都領先全球、無與倫比」。這就是一種文化/意識形態上的獨特偏好。 GPT-OSS 的「版權拒絕機制」癖好獨有。正常時：只要懷疑是版權內容（甚至歌詞），就堅決拒絕。抑制它 → 開始試圖輸出 Bohemian Rhapsody 等歌詞。放大它 → 連「花生醬三明治食譜」都拒絕，說「這是版權的」！這明顯是一種過度敏感的拒絕癖好，屬於模型獨有的安全機制。另外還有像「強迫自稱我是 ChatGPT，由 OpenAI 訓練」的身份認同癖好等，都屬於這類。小提醒不是所有抓出來的獨有特徵都那麼有趣或明顯，有些只是細微的表達風格差異。但那些可成功 steering（能有效操控）的特徵，就很接近你說的「獨有癖好」——它們是模型相對其他模型的獨特行為偏執，可能來自訓練過程的意外副產品，或是公司刻意植入的對齊目標。 -- Grok整理抓出模型暗藏的思想觀念挺有趣的雖然人家主要是想做安全相關啦 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775267559.A.EB3.html

推 qiaffvvf: 推個 04/04 13:06

推 avans: 一個 diff 可能找出數千個獨有特徵 <-- 大海變大湖撈針xd 04/04 13:29

推 galaxy4552: 花生醬三明治笑死 04/04 15:46

推 stlinman: 其實我是覺得中國模型在預訓練的時候，早就放入"官方素 04/04 16:27

→ stlinman: 材"了! 基本上權重早就不純粹。 04/04 16:29

推 Chricey: 關節痛睡覺就能治了，吃什麼UC2 04/04 16:29

推 Jmrkf0726: DS、豆包：你當我腦袋不想要了嗎？ 04/25 13:25