看板 AI_Art
https://www.youtube.com/watch?v=ZKfd9S9lOtc
00:48 | Multiworld:大規模多代理多視角影片世界模型 技術核心:由香港大學與 Sreal AI 合作開發。這是一個可擴展的世界模型,能 生成動作可控且多視角一致的影片。 關鍵機制:引入了 多代理條件模組 (MACM) 來精確控制多個個體,以及 全局狀 態編碼器 (GSE) 確保不同視角間的觀測連貫性。 應用場景:適用於多人遊戲模擬與多機器人協作任務,支援代理數量與視角的靈 活擴展。 02:46 | OpenGame:開放式遊戲代理編程框架 技術核心:中大 MMLab 推出的首個開源代理框架,能將自然語言直接轉化為可 運行的網頁遊戲。 模型驅動:搭載了專為遊戲引擎設計的 GameCoder-27B 模型。 創新點:具備「遊戲技能」進化機制,包含模板技能(積累項目骨架)與偵錯技 能(建立驗證修復協議),解決了傳統 LLM 在生成複雜遊戲時常見的跨文件不一致問題 。 04:25 | UniGenDet:圖像生成與偵測的協同演化 技術核心:清華大學提出的統一框架,將「圖像生成」與「偽造偵測」結合在一 個閉環中。 協同效應:利用生成知識來縮小偵測器的分布差距,同時透過偵測器的反饋來提 升生成圖像的真實度。 解決痛點:有效緩解了偵測器開發總是落後於生成技術進步的「偵測滯後」問題 。 06:16 | Kimi K2.6:開源編碼與代理群體技術 技術核心:月之暗面 (Moonshot AI) 的最新旗艦模型。主打長程執行能力(能 處理超過 1000 次工具調用)與 代理群體 (Agent Swarm)。 群體智慧:架構可水平擴展至 300 個子代理 同步執行,並能處理高達 4000 個 協調步驟。 實測表現:能自主完成極其複雜的任務,例如在 13 小時內優化八年前的金融撮 合引擎,程式碼修改量達 4000 行。 09:35 | Open CoDesign:開源 AI 設計工具 定位:Claude Design 的開源替代方案,強調「自備模型 (BYO Model)」與「本 地優先」。 功能特色:提供 12 種內建設計技能模組(如儀表板、登陸頁等),具備 AI 調 校滑桿(AI-tuned sliders),讓使用者能直接調整參數而無需重複輸入指令。 10:30 | Mimo v2.5:小米的最強 AI 代理模型 技術核心:顯著提升了長程相干性(Long-horizon coherence)與軟體工程能力 。 效率優勢:在相同任務表現下,其 Token 消耗比 GPT-5.4 或 Claude 4.6 減少 了 40-60%。 案例證明:能自主在 4.3 小時內從零開始用 Rust 語言寫出一個完整的 SysY 編譯器。 12:55 | ML Intern:Hugging Face 的機器學習實習代理 技術核心:基於 smolagents 框架,旨在自動化 LLM 的後訓練工作流。 自動化流程:能自動閱讀 arXiv 論文、尋找數據集、編寫代碼並在本地或雲端 GPU 上執行模型訓練任務。 戰績:在科學推理基準測試 (GPQA) 中,表現優於 Anthropic 的 Claude Code 。 14:39 | 人形機器人超越人類馬拉松紀錄 技術突破:榮耀 (Honor) 開發的人形機器人「Lightning」在北京半程馬拉松中 以 50 分 26 秒 奪冠,打破人類世界紀錄。 硬體創新:採用液冷系統處理高速運動產生的熱能,並模擬精英運動員的腿部長 度比例。 16:16 | Unitree 輪式人形機器人 技術突破:宇樹科技展示了具備輪足切換能力的機器人,能執行 360 度旋轉、 單腿旋轉,甚至完成 前空翻 等高難度特技動作,顯示出極強的平衡與動力控制能力。 18:14 | Higgsfield:電影級 AI 影片控制 技術核心:專為創作者設計的影片生成平台。提供「草圖轉影片」、「角色一鍵 替換」以及「虛擬語音唇形同步」等功能,賦予創作者精確控制攝影機運動與特效疊加的 能力。 (業配) 20:08 | GPT 5.5:OpenAI 的全自動化旗艦 最新動態:OpenAI 推出 GPT-5.5,分為「Thinking」與「Pro」版本。 核心強化:專注於端到端的複雜工作自動化,特別是在代理編碼、電腦模擬操作 以及早期科學研究方面有顯著提升,強調「多步規劃與自我驗證」能力。 20:42 | UniGeo:統一 3D 幾何推理與生成框架 UniGeo 提出了一個將 2D 視覺感知與 3D 幾何結構統一起來的創新模型。它不僅能理解 複雜的空間幾何關係,還能根據幾何約束生成精確的 3D 內容,顯著提升了生成模型在空 間一致性與幾何精度上的表現。 22:15 | EditCrafter:高保真圖像編輯與內容遷移技術 EditCrafter 專注於提供極高精確度的圖像編輯功能。它能夠根據使用者提供的指令,對 圖片中的局部細節進行無痕修改或風格遷移,同時確保圖片整體的結構完整性與光影真實 感,是創作者進行高品質影像後製的強力工具。 23:40 | GPT Image 2:影像生成理解力再進化 此部分介紹了 GPT Image 2 在複雜構圖理解上的突破。相較於前代,它在執行長文本指 令與處理細節特徵(如圖像中的文字嵌入)方面有更強的邏輯性,讓生成結果更符合使用 者的預期。 24:41 | LTX HDR:高動態範圍視訊生成方案 LTX HDR 針對視訊生成的視覺品質進行了大幅優化。其核心技術在於生成具備高動態範圍 (HDR)效果的影像,在光影過渡、色彩飽和度及暗部細節上展現出影視級別的質感。 25:43 | VisionBanana:前沿視覺辨識與多模態理解基準 VisionBanana 是一項專為提升圖像辨識與理解能力而設計的技術(名稱趣味地呼應了 NanoBanana)。它透過更精細的特徵提取算法,加強了模型對圖像中複雜物件與背景關係 的辨別度,是目前衡量視覺語言模型(VLM)性能的重要技術指標。 28:41 | HY3:騰訊混元大語言模型最新進化版 HY3 是騰訊混元(Hunyuan)系列中新一代的大語言模型。此版本在邏輯推理、長文本理 解以及中文語境的處理能力上進行了全面優化,能提供更自然、更具深度的人機對話體驗 ,並支援更複雜的創意寫作與專業分析任務。 30:53 | DeepSeek V4:深度求索模型全面升級 DeepSeek V4 正式發布,重點提升了邏輯推理、複雜代碼編寫及數學問題解決能力。作為 最新一代模型,它在多語言對話的自然度與知識儲備的深度上皆有顯著進步。 33:35 | CoInteract:人物與物品互動(電商銷售)影片生成技術 CoInteract 專攻於生成極其自然的人物與物品互動影片。該技術特別適用於電商與銷售 場景,能精確模擬人物展示商品、操作物品的動態過程,解決了以往生成影片中人物手部 動作與物體接觸不自然的痛點。 35:01 | Qwen 3.6 27B:通義千問高效能平衡版 阿里巴巴 Qwen 3.6 系列中的 27B 參數模型。該版本在模型體積與運算效率間取得了絕 佳平衡,在多項第三方評測中,其邏輯處理能力展現出挑戰更大型模型的實力。 36:42 | UniMesh:統一 3D 網格生成與重建技術 UniMesh 旨在簡化 3D 建模流程,能從多樣化的輸入(如單張影像或點雲資料)直接生成 高品質、具備拓撲結構的 3D 網格。這對於遊戲開發與自動化工業建模具有極大的應用價 值。 -- Gemini整理 吹Deepseek的影片也看一些了 總覺得越做越強就更危險 像是學Mythos搞網攻什麼的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.196.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1777178942.A.6C9.html ※ 編輯: error405 (220.136.196.138 臺灣), 04/26/2026 12:51:11
gino0717: AI政變 04/26 13:06
error405: Qwen image2.0出pro版了 但排到第九去 04/26 15:06
error405: WAI-illustrious-SDXL 出v17版本了 04/26 15:10
Kroner: 樓下關節痛都吃鞏固力 04/26 19:38
error405: Deepseek便宜歸便宜但文長會崩 配套不足 04/26 19:39
a159371153: 這邊怎沒人討論anima? 理論上anima應該比ill強很多 04/27 01:43
error405: wai牌Anima 04/27 09:59
Chricey: 吃過關節保健品,都沒什麼效果,有推薦的牌子嗎? 04/27 09:59
error405: deepseek又以為自己是claude了 04/27 20:40