作者error405 (流河=L)
看板AI_Art
標題[閒聊] ClaudeOpus4.7 Qwen3.6 ..本週AI新聞
時間Sun Apr 19 12:41:33 2026
https://www.youtube.com/watch?v=G8fqduzB5lc
1. AI 新聞概覽 (0:00)
影片開頭簡述了當前 AI 模型的激戰,特別是 Opus 4.7 與 Qwen 3.6 等新一代模型的發
佈,展示了大型語言模型在推理能力與效率上的持續攀升。
2. Prompt Relay:精確控制多事件影片生成 (1:00)
由南洋理工大學 S-Lab 開發的技術,解決了過去影片生成模型難以在「長影片」中精確
控制不同時間點發生不同事件的問題。
技術核心:採用「推理時間時間提示路由」(Inference-Time Temporal Prompt
Routing)。
特點:無需額外訓練(Training-free),是一種「即插即用」的插件。透過「時間
交叉注意力路由」機制,確保每個提示詞只影響特定的時間段,防止語義洩漏。
效果:能讓模型在單一長鏡頭中完成複雜的情節切換,例如從一個男孩跳床無縫轉場
到他在角落玩飛機。
3. Ternary Bonsai:1.58 位元的極致高效模型 (2:45)
PrismML 推出的三進位權重(Ternary Weights)語言模型系列,旨在極端記憶體限制下
維持高精度。
技術原理:模型權重僅使用 {-1, 0, +1} 三種狀態(1.58-bit),相比標準
16-bit 模型,記憶體佔用縮小了約 9 倍。
性能:8B 版本的模型大小僅約 1.75 GB,但在 MMLU 等基準測試上優於許多體積大
其 10 倍的對手。
硬體適配:在 iPhone 17 Pro Max 上可達每秒 27 個 token 的處理速度,能源效率
提升 3-4 倍。
4. GPT Rosalind:生命科學專用推理模型 (5:35)
OpenAI 推出的前沿推理模型,專為加速生物學、藥物研發與轉譯醫學研究而設計。
致敬與定位:以 DNA 結構發現者 Rosalind Franklin 命名。該模型在蛋白質工程、
基因組學與化學反應機制方面進行了深度優化。
實戰能力:在預測 RNA 序列功能等任務中,其表現可排在人類專家的前 5%。
應用:目前已與 Amgen、Moderna 等藥廠合作,協助設計實驗方案與自動化文獻綜述
。
5. WildDet3D:全場景 3D 物體檢測 (7:39)
由艾倫人工智慧研究所(Allen Institute for AI)開發,將單目 3D 檢測推向了「通用
化」階段。
多模態輸入:支援文字、點擊或 2D 框作為提示詞(Promptable)。
數據規模:擁有涵蓋 1.35 萬個類別、超過 100 萬張圖片的訓練集。
行動端應用:支援在 iPhone 上運行,結合 ARKit 與 LiDAR,可即時在實景中框選
並測量物體的 3D 尺寸(長、寬、高與 6-DoF 姿態)。
6. MotifVideo:輕量化影片生成器 (9:09)
Motif Tech 推出的 2B 參數影片生成模型,強調在維持高品質生成效果的同時,大幅降
低計算資源需求,適合快速迭代。
7. HubSpot AI 內容團隊工具 (10:54)
這是一個專為內容行銷團隊設計的整合方案,旨在利用 AI 自動化內容創作流程,從策略
規劃到成品產出,提高團隊效率。
8. AniGen:單圖生成可動 3D 資產 (12:06)
由香港大學與 VAST 團隊開發的統一框架,能從一張圖片直接生成帶有骨架(Skeleton)
與蒙皮權重(Skinning weights)的 3D 模型。
創新點:提出 S3 Fields 技術,將形狀、骨架與皮膚一體化建模。
優勢:生成的模型不再是「靜態雕塑」,而是「現成可用的動畫資源」,支援動物、
人類與機械手臂等各類複雜結構。
9. Happy Oyster:開放式世界模型 (13:48)
阿里巴巴 ATH 實驗室的研究項目,專注於構建具備互動性與自我生成能力的「世界模型
」,讓 AI 學習模擬物理世界的運行規律。
10. Lyra 2:一致性 3D 世界生成 (15:05)
NVIDIA SIL 實驗室推出的項目,專注於生成具備高度空間一致性的 3D 場景,確保從不
同角度觀察時,紋理與幾何細節保持穩定。
11. HY World 2.0:騰訊混元多模態世界模型 (16:40)
這是騰訊混元團隊的重大更新,將「世界模型」從像素影片轉向了真正的 3D 資產。
範式轉移:過去的模型是「拍電影」(看完就沒了),HY World 2.0 是「造遊戲」
。
產出內容:直接生成可編輯、永久存在的 3D 高斯潑濺(3DGS)或網格(Mesh)資產
,可直接導入 Unreal Engine 或 Unity。
互動性:支援第一人稱導航與角色探索,並具備基於物理的碰撞偵測。
12. OmniShow:行銷內容 UGC AI (18:03)
字節跳動開發的工具,專為電商與廣告營銷設計,能根據產品圖片自動生成高品質的行銷
短片或用戶原創內容(UGC)風格的展示影片。
13. Anthropic Claude Opus 4.7:智慧的極限(20:22)
Anthropic 再次推升了大型語言模型的上限。Opus 4.7 在推理深度、複雜代碼編寫與視
覺理解上取得了突破性進展。相比前代,它在處理長文本時的邏輯一致性大幅提升,是目
前追求「極致智慧」的首選工具。
(*某些項目相對4.6則有所弱化)
14. Alibaba Qwen 3.6:MoE 效率之王(24:38)
阿里巴巴推出的 Qwen 3.6 (35B-A3B) 展示了混合專家模型(MoE)的極致效率。憑藉其
強大的 35B 總參數與僅 3B 的激活參數,Qwen 3.6 在多語言處理與數學推理上展現了驚
人的性價比,為開源社群提供了性能強悍且部署靈活的新選擇。
15. Unitree Sprinter:速度與激情的演繹(26:14)
宇樹科技(Unitree)再次刷新我們對四足機器人的認知。Sprinter 專注於極速移動與地
形適應,展現了卓越的動力學控制,讓機器狗在複雜環境下的奔跑更趨近於生物本能。
16. Humanoid Marathon:人形機器人的耐力賽(26:57)
人形機器人不再只是會走路,現在它們開始挑戰「馬拉松」。這部分展示了機器人在長距
離行走中的能量管理與結構穩定性,標誌著人形機器人正朝著具備長時間作業能力的目標
邁進。
17. Automated Humanoid Factory:機器人生產機器人(27:51 )
這不僅是工業自動化,更是未來的縮影。全自動化的人形機器人工廠實現了「自我複製」
的第一步。透過 AI 驅動的機械手臂與自動化組裝線,人形機器人的生產規模與精準度正
以指數級速度增長。
18. TokenLight:重新定義環境光照(29:17)
TokenLight 透過創新的神經網絡技術,能僅從單張影像中準確估計環境光照。這對 AR
和 VR 領域至關重要,讓虛擬物體能更完美地融合進現實光影中,消除「違和感」。
19. GameWorld:多模態 AI Agent 的競技場(31:30 )
項目的本質:由新加坡國立大學(NUS)團隊開發,旨在解決過去 AI 玩遊戲時缺乏
統一操作標準、難以自動驗證成效的問題。
龐大的測試庫:包含了 34 款瀏覽器遊戲(如《神廟逃亡》、《吃豆人》、《2048》
等),涵蓋了跑酷、街機、平台跳躍、益智解謎及模擬等五大類別,總共設有 170 個具
體任務。
兩種操作模式:
Computer-Use Agent:像人類一樣直接輸出鍵盤和鼠標指令。
Generalist Agent:透過語義動作(Semantic Action)進行邏輯化控制。
核心目標:測試 AI 在視覺感知、長程規劃、實時反應以及物理規則理解方面的表現
。
20.Gemini 3.1 Flash TTS:毫秒級的真實人聲(33:09)
Google 帶來的 Gemini 3.1 Flash TTS(文字轉語音)將延遲降到了極致,且音色更加富
有情感與自然韻律。這項技術讓 AI 語音助手不再生硬,而是能像真人一樣進行流暢、即
時且具備情緒起伏的對話。
--
Gemini整理
騰訊阿里巴巴Nvidia紛紛參戰世界模型 捲爆
MotifVideo看起來像是更輕量的wan2.2? 可能有點用
AniGen看起來像騰訊混元3D之類 有給線上測試
https://huggingface.co/spaces/VAST-AI/AniGen
出來不怎樣 可能受限於免費仔品質
Gemini出語音外其實Grok也出了
https://www.techritual.com/2026/04/18/509864/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.243.215 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1776573696.A.F9A.html
推 ct13579: Grok 4.3 beta 開放 Heavy 訂閱用戶 04/19 16:52
→ error405: Claude Opus 4.7 上線 48 小時評價兩極 04/19 19:02
→ AoWsL: 不知道...我把.py做成一個工具...目前是覺得還算不錯 /effo 04/19 19:20
→ AoWsL: rt直接開滿Max會實際一點... 04/19 19:20
推 Chricey: 關節痛按摩有效嗎? 04/19 19:20 → AoWsL: 特別是寫超長文本.. 04/19 19:21
推 ct13579: 號稱最強模型的Claude Mythos不知之後會不會開放 04/19 19:21
推 Supasizeit: 我手動改回4.6了 token燒很兇 04/19 19:55
→ Supasizeit: Adaptive thinking 很爛 跟gpt5 那個auto一樣廢 04/19 19:56
推 Kroner: 關節痛按摩有效嗎? 04/19 19:56 推 ct13579: 看了上面影片,越覺Anthropic噁心,4.6是真被降智? 04/20 12:48
推 simon0529: 我不是heavy也可以用4.3唉 04/20 13:02
→ AoWsL: 4.6 上上禮拜用的很不開心..我一半的鍋是它砸出來的 真的有 04/20 14:04
推 Kroner: 求推薦UC2,樓下請提供三家 04/20 14:04 → AoWsL: 這麼好用? 04/20 14:04