作者error405 (流河=L)
看板AI_Art
標題[閒聊] 新Deepseek/GPT 做遊戲Agent..本週AI新聞
時間Sun Apr 26 12:49:00 2026
https://www.youtube.com/watch?v=ZKfd9S9lOtc
00:48 | Multiworld:大規模多代理多視角影片世界模型
技術核心:由香港大學與 Sreal AI 合作開發。這是一個可擴展的世界模型,能
生成動作可控且多視角一致的影片。
關鍵機制:引入了 多代理條件模組 (MACM) 來精確控制多個個體,以及 全局狀
態編碼器 (GSE) 確保不同視角間的觀測連貫性。
應用場景:適用於多人遊戲模擬與多機器人協作任務,支援代理數量與視角的靈
活擴展。
02:46 | OpenGame:開放式遊戲代理編程框架
技術核心:中大 MMLab 推出的首個開源代理框架,能將自然語言直接轉化為可
運行的網頁遊戲。
模型驅動:搭載了專為遊戲引擎設計的 GameCoder-27B 模型。
創新點:具備「遊戲技能」進化機制,包含模板技能(積累項目骨架)與偵錯技
能(建立驗證修復協議),解決了傳統 LLM 在生成複雜遊戲時常見的跨文件不一致問題
。
04:25 | UniGenDet:圖像生成與偵測的協同演化
技術核心:清華大學提出的統一框架,將「圖像生成」與「偽造偵測」結合在一
個閉環中。
協同效應:利用生成知識來縮小偵測器的分布差距,同時透過偵測器的反饋來提
升生成圖像的真實度。
解決痛點:有效緩解了偵測器開發總是落後於生成技術進步的「偵測滯後」問題
。
06:16 | Kimi K2.6:開源編碼與代理群體技術
技術核心:月之暗面 (Moonshot AI) 的最新旗艦模型。主打長程執行能力(能
處理超過 1000 次工具調用)與 代理群體 (Agent Swarm)。
群體智慧:架構可水平擴展至 300 個子代理 同步執行,並能處理高達 4000 個
協調步驟。
實測表現:能自主完成極其複雜的任務,例如在 13 小時內優化八年前的金融撮
合引擎,程式碼修改量達 4000 行。
09:35 | Open CoDesign:開源 AI 設計工具
定位:Claude Design 的開源替代方案,強調「自備模型 (BYO Model)」與「本
地優先」。
功能特色:提供 12 種內建設計技能模組(如儀表板、登陸頁等),具備 AI 調
校滑桿(AI-tuned sliders),讓使用者能直接調整參數而無需重複輸入指令。
10:30 | Mimo v2.5:小米的最強 AI 代理模型
技術核心:顯著提升了長程相干性(Long-horizon coherence)與軟體工程能力
。
效率優勢:在相同任務表現下,其 Token 消耗比 GPT-5.4 或 Claude 4.6 減少
了 40-60%。
案例證明:能自主在 4.3 小時內從零開始用 Rust 語言寫出一個完整的 SysY
編譯器。
12:55 | ML Intern:Hugging Face 的機器學習實習代理
技術核心:基於 smolagents 框架,旨在自動化 LLM 的後訓練工作流。
自動化流程:能自動閱讀 arXiv 論文、尋找數據集、編寫代碼並在本地或雲端
GPU 上執行模型訓練任務。
戰績:在科學推理基準測試 (GPQA) 中,表現優於 Anthropic 的 Claude Code
。
14:39 | 人形機器人超越人類馬拉松紀錄
技術突破:榮耀 (Honor) 開發的人形機器人「Lightning」在北京半程馬拉松中
以 50 分 26 秒 奪冠,打破人類世界紀錄。
硬體創新:採用液冷系統處理高速運動產生的熱能,並模擬精英運動員的腿部長
度比例。
16:16 | Unitree 輪式人形機器人
技術突破:宇樹科技展示了具備輪足切換能力的機器人,能執行 360 度旋轉、
單腿旋轉,甚至完成 前空翻 等高難度特技動作,顯示出極強的平衡與動力控制能力。
18:14 | Higgsfield:電影級 AI 影片控制
技術核心:專為創作者設計的影片生成平台。提供「草圖轉影片」、「角色一鍵
替換」以及「虛擬語音唇形同步」等功能,賦予創作者精確控制攝影機運動與特效疊加的
能力。 (業配)
20:08 | GPT 5.5:OpenAI 的全自動化旗艦
最新動態:OpenAI 推出 GPT-5.5,分為「Thinking」與「Pro」版本。
核心強化:專注於端到端的複雜工作自動化,特別是在代理編碼、電腦模擬操作
以及早期科學研究方面有顯著提升,強調「多步規劃與自我驗證」能力。
20:42 | UniGeo:統一 3D 幾何推理與生成框架
UniGeo 提出了一個將 2D 視覺感知與 3D 幾何結構統一起來的創新模型。它不僅能理解
複雜的空間幾何關係,還能根據幾何約束生成精確的 3D 內容,顯著提升了生成模型在空
間一致性與幾何精度上的表現。
22:15 | EditCrafter:高保真圖像編輯與內容遷移技術
EditCrafter 專注於提供極高精確度的圖像編輯功能。它能夠根據使用者提供的指令,對
圖片中的局部細節進行無痕修改或風格遷移,同時確保圖片整體的結構完整性與光影真實
感,是創作者進行高品質影像後製的強力工具。
23:40 | GPT Image 2:影像生成理解力再進化
此部分介紹了 GPT Image 2 在複雜構圖理解上的突破。相較於前代,它在執行長文本指
令與處理細節特徵(如圖像中的文字嵌入)方面有更強的邏輯性,讓生成結果更符合使用
者的預期。
24:41 | LTX HDR:高動態範圍視訊生成方案
LTX HDR 針對視訊生成的視覺品質進行了大幅優化。其核心技術在於生成具備高動態範圍
(HDR)效果的影像,在光影過渡、色彩飽和度及暗部細節上展現出影視級別的質感。
25:43 | VisionBanana:前沿視覺辨識與多模態理解基準
VisionBanana 是一項專為提升圖像辨識與理解能力而設計的技術(名稱趣味地呼應了
NanoBanana)。它透過更精細的特徵提取算法,加強了模型對圖像中複雜物件與背景關係
的辨別度,是目前衡量視覺語言模型(VLM)性能的重要技術指標。
28:41 | HY3:騰訊混元大語言模型最新進化版
HY3 是騰訊混元(Hunyuan)系列中新一代的大語言模型。此版本在邏輯推理、長文本理
解以及中文語境的處理能力上進行了全面優化,能提供更自然、更具深度的人機對話體驗
,並支援更複雜的創意寫作與專業分析任務。
30:53 | DeepSeek V4:深度求索模型全面升級
DeepSeek V4 正式發布,重點提升了邏輯推理、複雜代碼編寫及數學問題解決能力。作為
最新一代模型,它在多語言對話的自然度與知識儲備的深度上皆有顯著進步。
33:35 | CoInteract:人物與物品互動(電商銷售)影片生成技術
CoInteract 專攻於生成極其自然的人物與物品互動影片。該技術特別適用於電商與銷售
場景,能精確模擬人物展示商品、操作物品的動態過程,解決了以往生成影片中人物手部
動作與物體接觸不自然的痛點。
35:01 | Qwen 3.6 27B:通義千問高效能平衡版
阿里巴巴 Qwen 3.6 系列中的 27B 參數模型。該版本在模型體積與運算效率間取得了絕
佳平衡,在多項第三方評測中,其邏輯處理能力展現出挑戰更大型模型的實力。
36:42 | UniMesh:統一 3D 網格生成與重建技術
UniMesh 旨在簡化 3D 建模流程,能從多樣化的輸入(如單張影像或點雲資料)直接生成
高品質、具備拓撲結構的 3D 網格。這對於遊戲開發與自動化工業建模具有極大的應用價
值。
--
Gemini整理
吹Deepseek的影片也看一些了 總覺得越做越強就更危險 像是學Mythos搞網攻什麼的
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.196.138 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1777178942.A.6C9.html
※ 編輯: error405 (220.136.196.138 臺灣), 04/26/2026 12:51:11
推 gino0717: AI政變 04/26 13:06
→ error405: Qwen image2.0出pro版了 但排到第九去 04/26 15:06
→ error405: WAI-illustrious-SDXL 出v17版本了 04/26 15:10
推 Kroner: 樓下關節痛都吃鞏固力 04/26 19:38 → error405: Deepseek便宜歸便宜但文長會崩 配套不足 04/26 19:39
推 a159371153: 這邊怎沒人討論anima? 理論上anima應該比ill強很多 04/27 01:43
→ error405: wai牌Anima 04/27 09:59
推 Chricey: 吃過關節保健品,都沒什麼效果,有推薦的牌子嗎? 04/27 09:59 → error405: deepseek又以為自己是claude了 04/27 20:40