[閒聊] Claude Mythos,Meta新模型..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] Claude Mythos,Meta新模型..本週AI新聞

時間Sun Apr 12 13:21:26 2026

https://www.youtube.com/watch?v=1_5sSJK2rU0

1. AI 新聞簡介 (0:00 - 0:58) 影片開頭簡述了近期 AI 領域的快速變革，強調了新興模型在多模態處理與推理能力上的突破。這段時間主要作為序言，引出接下來要討論的各項重大技術更新。 2. Mythos (0:58 - 10:50) Mythos 是本段的重點，這是一個主打「極致性能」與「長文本理解」的大型語言模型。技術核心：影片提到 Mythos 在架構上優化了 Attention 機制，使其能處理極長的上下文而不損失精度。基準測試：展示了其在程式碼生成（Coding）與複雜邏輯推理（Reasoning）方面的表現，甚至在某些指標上超越了當前的領先模型。應用場景：強調了它在創意寫作與角色扮演（Roleplay）中的出色表現，能更好地維持角色的連貫性與深度。 3. GLM 5.1 (10:50 - 13:00) 由智譜 AI（Zhipu AI）推出的 GLM 5.1 更新。性能提升：相比於前代，5.1 版本在響應速度與推理效率上有了顯著優化。多模態能力：增強了對視覺資訊的理解，能夠更精準地解析圖像中的細節並進行關聯性問答。開源貢獻：影片提到該系列模型對開發者社群的友好度，提供了更靈活的微調（ Fine-tuning）方案。 4. Inspatio World (13:00 - 14:51) Inspatio World 是一個專注於「生成式世界模型」或虛擬環境構建的 AI 工具。動態生成：它能夠根據簡單的文字描述或圖像輸入，生成具有物理一致性的 3D 場景或短影片。互動性：強調了生成環境的可交互性，這對於遊戲開發與模擬訓練（Simulation）具有重要意義。 5. Deepseek V4 lite (14:51 - 15:42) Deepseek 推出的輕量化版本 V4 lite。高性價比：在保持 V4 核心推理能力的同時，大幅降低了參數量與計算資源的需求。移動端優化：該版本特別適合部署在邊緣設備或對延遲要求極高的即時應用中。 6. HappyHorse (15:42 - 17:20) 一款主打動態視覺美學的 AI 影片工具，擅長捕捉動作細節並將其轉化為高質感的流暢動畫。影片生成：專注於高品質的動畫生成，特別是在動作流暢度與藝術風格的保持上表現亮眼。社群驅動：影片展示了用戶如何透過此工具快速創作出具有高度表現力的動畫短片。 (影片生成排行取得第一) 7. Waypoint 1.5 (17:20 - 18:36) 技術定位：實時生成式虛擬世界核心功能：由 Overworld 團隊推出的最新版本，專為在一般消費級硬體（如 Mac 與 Windows PC）上實現「實時生成、可交互的 AI 虛擬環境」。技術亮點：相較於前代，Waypoint 1.5 使用了 100 倍以上的數據量進行訓練，能以 720p 60fps 的高幀率在本地端運行生成式場景。它打破了以往高階 AI 模擬需依賴伺服器集群的限制，讓用戶能實時探索具備物理連貫性的動態 AI 世界。 8. Muse Spark (18:36 - 20:55) Meta 於 2026 年 4 月剛發布的頂尖大語言模型。這是 Meta Superintelligence Labs (MSL) 的首個原生多模態模型（取代 Llama 系列），採用「思維壓縮」（Thought Compression）技術，在科學、數學與醫療推理指標上超越了 GPT-5.4，是目前的 SOTA 級別模型。 9. Skywork (20:55 - 22:00) (業配網站) 10. Acestep XL (22:44 - 23:35) 專業級 AI 歌曲生成模型。它突破了以往 AI 音樂常見的機械感，能根據歌詞與風格指令生成具備豐富情感細節、高品質人聲與專業編曲結構的完整歌曲。 11. Numina (23:35 - 24:56) 技術定位：精確數值對齊的影片生成技術核心功能：針對文本轉影片（T2V）模型中常見的「數量失真」問題（例如要求生成 3 隻貓卻出現 2 隻或 4 隻）而設計的框架。技術亮點：這是一個免訓練（Training-free）的解決方案，透過分析模型內部的注意力機制，修正語義中的「數值」與視覺實例之間的對齊錯誤。它能顯著提升影片中物件數量的準確性，同時維持自然的布局與時空一致性。 12. Rotorquant (24:56 - 27:06) Rotorquant 是一項針對大型語言模型（LLM）的全新「量化技術」。解決問題：傳統量化在將模型壓縮（如 4-bit）時常因「離群值」（Outliers）導致精度大幅下降。原理：Rotorquant 透過旋轉變換（Orthogonal Rotations）重新分佈權重，平衡激活值，從而在大幅縮小模型體積的同時，幾乎不損失推理精度。這對於將強大模型部署到手機等設備至關重要。 (turboquant升級改良版速度更快) 13. MMPhysVideo (27:06 - 28:22) MMPhysVideo（Multi-Modal Physical Video）是一個結合「多模態」與「物理規律」的視訊學習框架。技術核心：它旨在讓 AI 透過觀察影片來學習現實世界的物理法則（如重力、碰撞、流體力學）。功能：不同於僅僅是「看起來真實」的 AI 影片，該技術試圖讓生成內容符合物理一致性，這對自動駕駛與機器人模擬具有深遠影響。 14. Vanast (28:22 - 29:22) 技術定位：人物虛擬試穿與動作生成核心功能：一個統一的人體動畫框架，能僅憑「一張人物照片」、「一件服裝圖像」以及「一段動作參考影片」，直接生成高品質的人像換裝動畫。技術亮點：Vanast 解決了傳統兩階段流程（先試穿後動畫）中容易出現的身份漂移（Identity Drift）與服裝變形問題。它透過大規模三元組監督學習，確保人物在進行複雜動作時，服裝細節與人物特徵能保持高度穩定。 15. Anima v3 (29:22 - 30:26) 頂尖的動漫風格圖片/生成模型。第三代版本大幅強化了對特定藝術畫風的還原度，是目前二次元內容創作的首選工具。 16. Kimodo (30:26 - 32:34) 技術定位：高可控人體/機器人動作生成核心功能：NVIDIA SIL 實驗室開發的「運動擴散模型」，專注於透過文字指令與運動約束（Kinematic Constraints）精準控制人物動作。技術亮點：Kimodo 採用兩階段擴散架構，將重心位移與肢體動作拆解，有效解決了 AI 動畫中常見的「滑步」與「漂浮」現象。除了人體，它也能直接驅動 G1 等 humanoid 機器人，生成具備物理合理性的專業級運動數據。 17. SpatialEdit (32:34 - 34:02) SpatialEdit 是一項突破性的「空間感意識編輯」技術。技術創新：傳統編輯往往會破壞原圖的空間結構，而 SpatialEdit 允許用戶在保持 3D 空間邏輯的前提下，移動、旋轉或縮放影片/圖像中的特定物件。應用：這讓影片後製變得像操作 3D 軟體一樣直觀，AI 會自動補全物件移動後留下的背景空隙。 18. LPM (34:02 - 39:00) 技術定位：實時數位替身與角色演出模型核心功能：專為交互式數位人（Digital Doubles）設計的視覺引擎，支援全雙工（ Full-duplex）實時對話。技術亮點：LPM 1.0 能將單張照片轉化為具備「聽覺反應」與「語言表達」的連續演出影片。它能自動生成角色在傾聽時的細微表情，並在說話時保持身份特徵的無限期穩定（Identity-consistent），適用於直播、遊戲 NPC 與 AI 虛擬助手。 19. FML (39:00 - 影片結束) 技術定位：室內布局與戶型圖生成核心功能：提出了一種名為「樓層平面標記語言」的結構化語法，將室內布局設計轉化為類似大型語言模型的「下一個標記預測」任務。技術亮點：基於 FML 的生成模型（FMLM）能一次性生成功能完整、具備向量結構的戶型平面圖。它比傳統方法更能理解房間之間的邏輯聯繫與功能性，能根據多樣化條件快速產出高品質的建築室內布局。 -- Gemini整理本週沒字幕亂答一通花一堆時間校對下禮拜乾脆在提詞塞網址= = Mythos跟Muse之前發文了 AnimaV3不知有illu程度沒 Rotorquant又贏過google出沒多久的turboquant了恐怖的AI迭代速度 https://youtu.be/wSxsYjScRr0

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.245.86 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775971288.A.ED8.html

→ sudekoma: (′・ω・`)所以窩都只讀你最後的感想惹 04/12 14:03

推 mamorui: 謝謝感想 04/12 16:13

推 zero790425: Gemini最近流量問題正在燒 04/12 16:32

→ error405: 在tensor試了下anima preview3 結論是要靠lora比較能看 04/12 17:32

→ error405: 白板模型去生就算score masterpiece都加也有點勉強 04/12 17:33

推 Kroner: 關節痛這種東西靠UC2就對了 04/12 17:33

→ necrophagist: Anima base沒有風格偏好沒加繪師tag會差很多 04/12 18:59

→ error405: 試著照illu提詞方式加繪師/作品名貌似沒用 04/12 19:11

→ necrophagist: 它的繪師tag方式要加@前綴 04/12 19:15

→ necrophagist: https://thetacursed.github.io/Anima-Style-Explo 04/12 19:17

推 Chricey: UC2是天然成分嗎？還是有添加物啊？ 04/12 19:17

→ necrophagist: rer/ 04/12 19:17

https://thetacursed.github.io/Anima-Style-Explorer/ 正想貼 ※ 編輯: error405 (114.36.245.86 臺灣), 04/12/2026 19:19:43

推 gino0717: 我好期待看到mythos上線引發的大波蘭 04/12 19:22

→ error405: @有影響但感覺效果沒那麼明顯 04/12 19:32

→ error405: mythos之前GPT家的新模型也許更早? 04/12 19:33

推 Kroner: 5樓關節跟Ｘ一樣 04/12 19:33

推 Bustycat: Spud、Image 2、超級app，最近GPT壓的東西有點多 04/12 19:41

→ error405: 影片有字幕了剛看到 04/12 20:23

推 newyorker54: 這樣mythos 會輕易摧毀中國的網路防護，最害怕的是俄 04/12 20:28

→ newyorker54: 羅斯和中國吧 04/12 20:28

推 Chricey: 剛開始吃UC2，期待 04/12 20:28

→ error405: AnimaYume+lora step40 看起來不錯只是免費用不了 04/12 21:07

→ error405: 免費step開到40就彈窗要付費了 04/12 21:08

→ error405: https://civitai.com/models/2544636/wai-anima 04/15 22:01

→ error405: wai牌出了先記下 04/15 22:01

推 Kroner: 求推薦靠譜的復健診所，小弟關節治好再來跪謝！ 04/15 22:01

→ error405: https://www.illustrious-xl.ai/blog/17 明天來研究 04/15 22:08

→ error405: https://github.com/UNfukashigi/Anima-LoRA-Factory 04/20 08:43