看板 AI_Art
https://www.youtube.com/watch?v=G8fqduzB5lc
1. AI 新聞概覽 (0:00) 影片開頭簡述了當前 AI 模型的激戰,特別是 Opus 4.7 與 Qwen 3.6 等新一代模型的發 佈,展示了大型語言模型在推理能力與效率上的持續攀升。 2. Prompt Relay:精確控制多事件影片生成 (1:00) 由南洋理工大學 S-Lab 開發的技術,解決了過去影片生成模型難以在「長影片」中精確 控制不同時間點發生不同事件的問題。 技術核心:採用「推理時間時間提示路由」(Inference-Time Temporal Prompt Routing)。 特點:無需額外訓練(Training-free),是一種「即插即用」的插件。透過「時間 交叉注意力路由」機制,確保每個提示詞只影響特定的時間段,防止語義洩漏。 效果:能讓模型在單一長鏡頭中完成複雜的情節切換,例如從一個男孩跳床無縫轉場 到他在角落玩飛機。 3. Ternary Bonsai:1.58 位元的極致高效模型 (2:45) PrismML 推出的三進位權重(Ternary Weights)語言模型系列,旨在極端記憶體限制下 維持高精度。 技術原理:模型權重僅使用 {-1, 0, +1} 三種狀態(1.58-bit),相比標準 16-bit 模型,記憶體佔用縮小了約 9 倍。 性能:8B 版本的模型大小僅約 1.75 GB,但在 MMLU 等基準測試上優於許多體積大 其 10 倍的對手。 硬體適配:在 iPhone 17 Pro Max 上可達每秒 27 個 token 的處理速度,能源效率 提升 3-4 倍。 4. GPT Rosalind:生命科學專用推理模型 (5:35) OpenAI 推出的前沿推理模型,專為加速生物學、藥物研發與轉譯醫學研究而設計。 致敬與定位:以 DNA 結構發現者 Rosalind Franklin 命名。該模型在蛋白質工程、 基因組學與化學反應機制方面進行了深度優化。 實戰能力:在預測 RNA 序列功能等任務中,其表現可排在人類專家的前 5%。 應用:目前已與 Amgen、Moderna 等藥廠合作,協助設計實驗方案與自動化文獻綜述 。 5. WildDet3D:全場景 3D 物體檢測 (7:39) 由艾倫人工智慧研究所(Allen Institute for AI)開發,將單目 3D 檢測推向了「通用 化」階段。 多模態輸入:支援文字、點擊或 2D 框作為提示詞(Promptable)。 數據規模:擁有涵蓋 1.35 萬個類別、超過 100 萬張圖片的訓練集。 行動端應用:支援在 iPhone 上運行,結合 ARKit 與 LiDAR,可即時在實景中框選 並測量物體的 3D 尺寸(長、寬、高與 6-DoF 姿態)。 6. MotifVideo:輕量化影片生成器 (9:09) Motif Tech 推出的 2B 參數影片生成模型,強調在維持高品質生成效果的同時,大幅降 低計算資源需求,適合快速迭代。 7. HubSpot AI 內容團隊工具 (10:54) 這是一個專為內容行銷團隊設計的整合方案,旨在利用 AI 自動化內容創作流程,從策略 規劃到成品產出,提高團隊效率。 8. AniGen:單圖生成可動 3D 資產 (12:06) 由香港大學與 VAST 團隊開發的統一框架,能從一張圖片直接生成帶有骨架(Skeleton) 與蒙皮權重(Skinning weights)的 3D 模型。 創新點:提出 S3 Fields 技術,將形狀、骨架與皮膚一體化建模。 優勢:生成的模型不再是「靜態雕塑」,而是「現成可用的動畫資源」,支援動物、 人類與機械手臂等各類複雜結構。 9. Happy Oyster:開放式世界模型 (13:48) 阿里巴巴 ATH 實驗室的研究項目,專注於構建具備互動性與自我生成能力的「世界模型 」,讓 AI 學習模擬物理世界的運行規律。 10. Lyra 2:一致性 3D 世界生成 (15:05) NVIDIA SIL 實驗室推出的項目,專注於生成具備高度空間一致性的 3D 場景,確保從不 同角度觀察時,紋理與幾何細節保持穩定。 11. HY World 2.0:騰訊混元多模態世界模型 (16:40) 這是騰訊混元團隊的重大更新,將「世界模型」從像素影片轉向了真正的 3D 資產。 範式轉移:過去的模型是「拍電影」(看完就沒了),HY World 2.0 是「造遊戲」 。 產出內容:直接生成可編輯、永久存在的 3D 高斯潑濺(3DGS)或網格(Mesh)資產 ,可直接導入 Unreal Engine 或 Unity。 互動性:支援第一人稱導航與角色探索,並具備基於物理的碰撞偵測。 12. OmniShow:行銷內容 UGC AI (18:03) 字節跳動開發的工具,專為電商與廣告營銷設計,能根據產品圖片自動生成高品質的行銷 短片或用戶原創內容(UGC)風格的展示影片。 13. Anthropic Claude Opus 4.7:智慧的極限(20:22) Anthropic 再次推升了大型語言模型的上限。Opus 4.7 在推理深度、複雜代碼編寫與視 覺理解上取得了突破性進展。相比前代,它在處理長文本時的邏輯一致性大幅提升,是目 前追求「極致智慧」的首選工具。 (*某些項目相對4.6則有所弱化) 14. Alibaba Qwen 3.6:MoE 效率之王(24:38) 阿里巴巴推出的 Qwen 3.6 (35B-A3B) 展示了混合專家模型(MoE)的極致效率。憑藉其 強大的 35B 總參數與僅 3B 的激活參數,Qwen 3.6 在多語言處理與數學推理上展現了驚 人的性價比,為開源社群提供了性能強悍且部署靈活的新選擇。 15. Unitree Sprinter:速度與激情的演繹(26:14) 宇樹科技(Unitree)再次刷新我們對四足機器人的認知。Sprinter 專注於極速移動與地 形適應,展現了卓越的動力學控制,讓機器狗在複雜環境下的奔跑更趨近於生物本能。 16. Humanoid Marathon:人形機器人的耐力賽(26:57) 人形機器人不再只是會走路,現在它們開始挑戰「馬拉松」。這部分展示了機器人在長距 離行走中的能量管理與結構穩定性,標誌著人形機器人正朝著具備長時間作業能力的目標 邁進。 17. Automated Humanoid Factory:機器人生產機器人(27:51 ) 這不僅是工業自動化,更是未來的縮影。全自動化的人形機器人工廠實現了「自我複製」 的第一步。透過 AI 驅動的機械手臂與自動化組裝線,人形機器人的生產規模與精準度正 以指數級速度增長。 18. TokenLight:重新定義環境光照(29:17) TokenLight 透過創新的神經網絡技術,能僅從單張影像中準確估計環境光照。這對 AR 和 VR 領域至關重要,讓虛擬物體能更完美地融合進現實光影中,消除「違和感」。 19. GameWorld:多模態 AI Agent 的競技場(31:30 ) 項目的本質:由新加坡國立大學(NUS)團隊開發,旨在解決過去 AI 玩遊戲時缺乏 統一操作標準、難以自動驗證成效的問題。 龐大的測試庫:包含了 34 款瀏覽器遊戲(如《神廟逃亡》、《吃豆人》、《2048》 等),涵蓋了跑酷、街機、平台跳躍、益智解謎及模擬等五大類別,總共設有 170 個具 體任務。 兩種操作模式: Computer-Use Agent:像人類一樣直接輸出鍵盤和鼠標指令。 Generalist Agent:透過語義動作(Semantic Action)進行邏輯化控制。 核心目標:測試 AI 在視覺感知、長程規劃、實時反應以及物理規則理解方面的表現 。 20.Gemini 3.1 Flash TTS:毫秒級的真實人聲(33:09) Google 帶來的 Gemini 3.1 Flash TTS(文字轉語音)將延遲降到了極致,且音色更加富 有情感與自然韻律。這項技術讓 AI 語音助手不再生硬,而是能像真人一樣進行流暢、即 時且具備情緒起伏的對話。 -- Gemini整理 騰訊阿里巴巴Nvidia紛紛參戰世界模型 捲爆 MotifVideo看起來像是更輕量的wan2.2? 可能有點用 AniGen看起來像騰訊混元3D之類 有給線上測試 https://huggingface.co/spaces/VAST-AI/AniGen 出來不怎樣 可能受限於免費仔品質 Gemini出語音外其實Grok也出了 https://www.techritual.com/2026/04/18/509864/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.243.215 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1776573696.A.F9A.html
ct13579: Grok 4.3 beta 開放 Heavy 訂閱用戶 04/19 16:52
error405: https://www.koc.com.tw/archives/639703 04/19 19:02
error405: Claude Opus 4.7 上線 48 小時評價兩極 04/19 19:02
AoWsL: 不知道...我把.py做成一個工具...目前是覺得還算不錯 /effo 04/19 19:20
AoWsL: rt直接開滿Max會實際一點... 04/19 19:20
Chricey: 關節痛按摩有效嗎? 04/19 19:20
AoWsL: 特別是寫超長文本.. 04/19 19:21
ct13579: 號稱最強模型的Claude Mythos不知之後會不會開放 04/19 19:21
Supasizeit: 我手動改回4.6了 token燒很兇 04/19 19:55
Supasizeit: Adaptive thinking 很爛 跟gpt5 那個auto一樣廢 04/19 19:56
Kroner: 關節痛按摩有效嗎? 04/19 19:56
ct13579: 看了上面影片,越覺Anthropic噁心,4.6是真被降智? 04/20 12:48
simon0529: 我不是heavy也可以用4.3唉 04/20 13:02
AoWsL: 4.6 上上禮拜用的很不開心..我一半的鍋是它砸出來的 真的有 04/20 14:04
Kroner: 求推薦UC2,樓下請提供三家 04/20 14:04
AoWsL: 這麼好用? 04/20 14:04