[閒聊] 辜狗開源AI ClaudeCode洩漏..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 辜狗開源AI ClaudeCode洩漏..本週AI新聞

時間Sun Apr 5 11:53:03 2026

https://www.youtube.com/watch?v=o5rGuknRw2A

1. Google Gemma 4：開源模型的新標竿 [00:55] Google 發布了最新的開源模型家族 Gemma 4，其核心技術源自 Gemini 3，但在體積上進行了極致優化，使其能在消費級硬體（如手機、筆電甚至 Raspberry Pi）上順暢運行。多種尺寸選擇：包含 2B 與 4B 的輕量化模型，以及性能強大的 24B（MoE 架構）與 31B（稠密模型）版本。混合專家架構 (MoE)：24B 模型在執行時僅需激活約 3.8B 參數，極大地提升了運行效率 [01:47]。原生多模態：支持文本、圖像與音頻的輸入，並具備 128K 至 256K 的超長上下文視窗。 2. Netflix Void：影片物體刪除技術 [04:50] Netflix 釋出了首個開源模型 Void (Video Object and Interaction Deletion)，專門用於影片後期製作。精準消除：使用者只需透過文字指令，即可將影片中的特定角色或物體移除。物理擬真填充：模型不僅能刪除物體，還會自動修補背景，確保光影與物理邏輯（如保齡球瓶在球消失後依然直立）保持自然 [05:11]。 3. Generative World Renderer：遊戲場景重構 [06:05] 這是一項針對遊戲設計的 AI 技術，能從 AAA 大作中提取 G-Buffer（包含深度、法線、反照率等圖形數據）進行二次創作。即時換膚：開發者能透過提示詞將原本的遊戲場景（如《黑神話：悟空》）瞬間轉換為賽博龐克或沙漠風格 [06:28]。環境控制：支持對光影、幾何結構及霧氣等特效的精細調整。 4. GenSearcher：具備搜尋能力的影像生成 [08:08] GenSearcher 解決了影像生成模型「幻覺」的問題。它在生成前會先透過搜尋代理 (Search Agent) 在網路上尋找參考資料。事實準確性：例如生成特定建築物或動漫角色時，它會先抓取官方資料與實景照片，確保生成的細節（如建築年份、角色特徵）百分之百正確 [10:04]。 5. TokenDial：影片生成的精細控制器 [10:48] TokenDial 提供了一種「滑桿式」的控制介面，讓使用者能精確調整影片中的特定元素。強度可調：不再僅依賴文字提示，使用者可以直接調整滑桿來控制爆炸煙霧的濃度、人物老化的程度或賽車的速度 [11:32]。 6. LongCat Audio：極致的語音克隆 [12:29] 由美團（Meituan）開發的文字轉語音（TTS）模型。短樣本克隆：僅需幾秒鐘的錄音即可完美復刻任何人的音色與情感表達 [12:40]。高效運行：提供 3.5B 與更輕量的版本，可在一般家用顯卡上流暢運行。 7. Seethrough：動漫影像圖層分解 [15:00] 這是一款專為二次元影像設計的工具，能將單張動漫圖片分解為透明圖層（如頭髮、服飾、背景物件）。自動補全：它能推測並繪製被遮擋的部分，方便創作者直接導入 Photoshop 進行編輯或製作角色動畫 [15:43]。 8. Hybrid Memory：影片一致性框架 [16:35] 這項技術為「世界模型」增加了記憶功能，解決了攝影機轉向後物體消失或變形的痛點。持久記憶：透過壓縮的「記憶 Token」，AI 能記住視野外的物體特徵，確保攝影機轉回來時場景保持完全一致 [17:42]。 9. ByteDance DreamLite：手機端即時生成 [18:05] 字節跳動推出的超小型影像生成模型（僅 0.39B 參數）。離線運行：在 iPhone 17 Pro 上僅需約 3 秒即可生成 1024x1024 的高品質圖像，並支持影像編輯功能 [18:34]。 10. Higgsfield Seedance 2：電影級影片生成 [20:17] Seedance 2.0 被譽為當前最強的創作平台，能處理複雜的物理運動與角色一致性。原生音畫同步：模型在生成影片的同時會同步生成環境音效與語音，且嘴型對位精準 [21:29]。 11. Claude Code 原始碼洩漏事件 [22:03] Anthropic 的 AI 編碼助手 Claude Code 因包裝錯誤導致超過 50 萬行原始碼意外流出。隱藏功能曝光：洩漏的代碼中揭示了如「Buddy」虛擬寵物助手、能在背景自動處理 GitHub 通知與 Slack 訊息的「Chyros」主動代理模式，以及模仿人類開發者提交代碼的「臥底模式 (Undercover Mode)」 [24:06]。 12. PSDesigner：自動化海報設計 agent 這不只是單純的影像生成，而是一個能產出完整 Photoshop (.psd) 檔案的 Agent 框架。多層結構：生成的圖像包含圖層與結構，方便設計師後續微調。 Agent 協作：透過「素材收集 Agent」獲取資源，「視覺規劃器」設計佈局，「工具執行器」實作，並不斷循環優化直到視覺效果達標。 13. Qwen 3.5 Omni：全能多模態之王 Alibaba 推出的真正「全模態」模型，能同時理解文本、圖像、音頻與影片。性能強悍：在多項視聽指標上超越了 Google 的 Gemini 3.1 Pro。零提示詞開發：影片展示了僅需餵入一段《貪食蛇》遊戲影片，Qwen 3.5 Omni 就能分析邏輯並寫出完全相同的遊戲代碼。版本區分：提供高效能的 Plus 版與極低延遲的 Real-time 版。 14. Qwen 3.6：長文本與 Agent 優化針對專業開發者與長文件分析設計的升級版。 100 萬 Token 上下文：能一次處理超過 70 萬字的資訊。 Agent 編碼強化：大幅提升了在 OpenClaw 或 Claude Code 等編碼框架下的邏輯推理能力。 15. OmniVoice：多語言與情感克隆 TTS 這是一款支援超過 600 種語言的語音合成模型，極致微小的體積（約 3GB）卻有強大的表現力。跨語言克隆：你可以讓一個中文男聲說出地道的日語或英語，同時完美保留原主人的口音特色與情緒。情緒標籤控制：支援在提示詞中加入 [laughter]、[dissatisfaction] 等標籤，精確控制聲音中的笑聲、不滿或驚訝。 16. LGTM：4K 高畫質 3D 場景重建全稱為 Less Gaussian Texture More。效率革命：傳統技術在高解析度下運算極重，LGTM 改用較少的塊（Blocks）並在每個塊上附加紋理（Texture），成功在不爆炸增加算力的前提下實現 4K 等級的 3D 場景還原。 17. HandX：機器人靈巧手訓練集這是一個大規模的 3D 手部動作數據集，旨在解決機器人開發中最難的部分：手部動作。精細標註：包含極其細緻的指令（如「食指伸展、拇指彎曲」），可用於在 NVIDIA Isaac Gym 模擬環境中訓練機器人，隨後應用到如 Unitree G1 等硬體上。 18. GLM-5V Turbo：視覺編碼專家智譜 AI (ZAI) 的最新力作，將「視覺理解」與「代碼生成」深度結合。草圖轉 App：只需上傳一張畫在紙上的醜陋草圖，模型就能寫出佈局一致的 Functional App 代碼。網頁克隆：甚至能上傳一段網頁錄影，讓它復刻出包含動畫效果在內的完整前端代碼。 19. Wan 2.7：影片與影像的雙重升級 Alibaba 同步更新了影片與影像生成模型。 Wan 2.7 Video：原生支持音效生成，並允許上傳最多 5 張圖片來「定義」特定角色，確保長影片中的角色不走樣。 Wan 2.7 Image：特別強化了臉部真實感（不再是完美的 AI 臉，而是有瑕疵、骨骼感強的真臉）[46:00]。此外支持輸入 16 進制色碼 (Hex codes) 來精確控制畫面色調，非常適合電商與行銷素材設計。 20. VGGPO：解決 AI 影片「崩壞」的 Google 新技術這是一項能讓現有影片模型變得更穩定的插件技術。潛在幾何模型 (Latent Geometry Model)：它教會 AI 具備「3D 幾何感」，讓攝影機移動時，牆壁、物體不會像液體一樣晃動或變形，確保物理世界的一致性。 -- Gemini整理分兩部分生成簡介希望錯誤會少點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775361185.A.D78.html

推 ct13579: Gemma 4 目前最強開源模型？ 04/05 13:59

→ error405: 能力有開源前三大小卻是別人1/10 很猛 04/05 14:06

推 newyorker54: gemma4真的很猛，終於跑起來31B, bf16不輸minimax m2 04/05 14:37

→ newyorker54: .5, 和qwen3.5-122b 04/05 14:37

→ newyorker54: 美國AI模型還是領先中國兩代，一代四到六個月，行家 04/05 14:39

推 Chricey: 求推薦靠譜的復健診所，小弟關節治好再來跪謝！ 04/05 14:39

→ newyorker54: 一出手就知有沒有 04/05 14:39

推 Bustycat: 沒有到領先兩代那麼誇張，實測就是有來有回 04/05 19:41

推 jhjhs33504: LGTM 04/05 21:16

推 v86861062: 推推 04/05 23:42

推 Kroner: 5樓關節跟Ｘ一樣 04/05 23:42

→ error405: https://www.youtube.com/watch?v=9PiWPeROmZw 04/06 17:11

→ error405: 據說qwen3.6在免費然後把使用資料再拿來訓練 04/06 17:12

→ error405: 使用流量衝到第一了 04/06 17:14