看板 AI_Art
https://www.youtube.com/watch?v=o5rGuknRw2A
1. Google Gemma 4:開源模型的新標竿 [00:55] Google 發布了最新的開源模型家族 Gemma 4,其核心技術源自 Gemini 3,但在體積上進 行了極致優化,使其能在消費級硬體(如手機、筆電甚至 Raspberry Pi)上順暢運行。 多種尺寸選擇:包含 2B 與 4B 的輕量化模型,以及性能強大的 24B(MoE 架構) 與 31B(稠密模型)版本。 混合專家架構 (MoE):24B 模型在執行時僅需激活約 3.8B 參數,極大地提升了運行 效率 [01:47]。 原生多模態:支持文本、圖像與音頻的輸入,並具備 128K 至 256K 的超長上下文視 窗。 2. Netflix Void:影片物體刪除技術 [04:50] Netflix 釋出了首個開源模型 Void (Video Object and Interaction Deletion),專門 用於影片後期製作。 精準消除:使用者只需透過文字指令,即可將影片中的特定角色或物體移除。 物理擬真填充:模型不僅能刪除物體,還會自動修補背景,確保光影與物理邏輯(如 保齡球瓶在球消失後依然直立)保持自然 [05:11]。 3. Generative World Renderer:遊戲場景重構 [06:05] 這是一項針對遊戲設計的 AI 技術,能從 AAA 大作中提取 G-Buffer(包含深度、法線、 反照率等圖形數據)進行二次創作。 即時換膚:開發者能透過提示詞將原本的遊戲場景(如《黑神話:悟空》)瞬間轉換 為賽博龐克或沙漠風格 [06:28]。 環境控制:支持對光影、幾何結構及霧氣等特效的精細調整。 4. GenSearcher:具備搜尋能力的影像生成 [08:08] GenSearcher 解決了影像生成模型「幻覺」的問題。它在生成前會先透過 搜尋代理 (Search Agent) 在網路上尋找參考資料。 事實準確性:例如生成特定建築物或動漫角色時,它會先抓取官方資料與實景照片, 確保生成的細節(如建築年份、角色特徵)百分之百正確 [10:04]。 5. TokenDial:影片生成的精細控制器 [10:48] TokenDial 提供了一種「滑桿式」的控制介面,讓使用者能精確調整影片中的特定元素。 強度可調:不再僅依賴文字提示,使用者可以直接調整滑桿來控制爆炸煙霧的濃度、 人物老化的程度或賽車的速度 [11:32]。 6. LongCat Audio:極致的語音克隆 [12:29] 由美團(Meituan)開發的文字轉語音(TTS)模型。 短樣本克隆:僅需幾秒鐘的錄音即可完美復刻任何人的音色與情感表達 [12:40]。 高效運行:提供 3.5B 與更輕量的版本,可在一般家用顯卡上流暢運行。 7. Seethrough:動漫影像圖層分解 [15:00] 這是一款專為二次元影像設計的工具,能將單張動漫圖片分解為透明圖層(如頭髮、服飾 、背景物件)。 自動補全:它能推測並繪製被遮擋的部分,方便創作者直接導入 Photoshop 進行編 輯或製作角色動畫 [15:43]。 8. Hybrid Memory:影片一致性框架 [16:35] 這項技術為「世界模型」增加了記憶功能,解決了攝影機轉向後物體消失或變形的痛點。 持久記憶:透過壓縮的「記憶 Token」,AI 能記住視野外的物體特徵,確保攝影機 轉回來時場景保持完全一致 [17:42]。 9. ByteDance DreamLite:手機端即時生成 [18:05] 字節跳動推出的超小型影像生成模型(僅 0.39B 參數)。 離線運行:在 iPhone 17 Pro 上僅需約 3 秒即可生成 1024x1024 的高品質圖像, 並支持影像編輯功能 [18:34]。 10. Higgsfield Seedance 2:電影級影片生成 [20:17] Seedance 2.0 被譽為當前最強的創作平台,能處理複雜的物理運動與角色一致性。 原生音畫同步:模型在生成影片的同時會同步生成環境音效與語音,且嘴型對位精 準 [21:29]。 11. Claude Code 原始碼洩漏事件 [22:03] Anthropic 的 AI 編碼助手 Claude Code 因包裝錯誤導致超過 50 萬行原始碼意外流出 。 隱藏功能曝光:洩漏的代碼中揭示了如「Buddy」虛擬寵物助手、能在背景自動處理 GitHub 通知與 Slack 訊息的「Chyros」主動代理模式,以及模仿人類開發者提交代碼的 「臥底模式 (Undercover Mode)」 [24:06]。 12. PSDesigner:自動化海報設計 agent 這不只是單純的影像生成,而是一個能產出完整 Photoshop (.psd) 檔案 的 Agent 框架 。 多層結構:生成的圖像包含圖層與結構,方便設計師後續微調。 Agent 協作:透過「素材收集 Agent」獲取資源,「視覺規劃器」設計佈局,「工具 執行器」實作,並不斷循環優化直到視覺效果達標。 13. Qwen 3.5 Omni:全能多模態之王 Alibaba 推出的真正「全模態」模型,能同時理解文本、圖像、音頻與影片。 性能強悍:在多項視聽指標上超越了 Google 的 Gemini 3.1 Pro。 零提示詞開發:影片展示了僅需餵入一段《貪食蛇》遊戲影片,Qwen 3.5 Omni 就能 分析邏輯並寫出完全相同的遊戲代碼。 版本區分:提供高效能的 Plus 版與極低延遲的 Real-time 版。 14. Qwen 3.6:長文本與 Agent 優化 針對專業開發者與長文件分析設計的升級版。 100 萬 Token 上下文:能一次處理超過 70 萬字的資訊。 Agent 編碼強化:大幅提升了在 OpenClaw 或 Claude Code 等編碼框架下的邏輯推 理能力。 15. OmniVoice:多語言與情感克隆 TTS 這是一款支援超過 600 種語言 的語音合成模型,極致微小的體積(約 3GB)卻有強大的 表現力。 跨語言克隆:你可以讓一個中文男聲說出地道的日語或英語,同時完美保留原主人的 口音特色與情緒。 情緒標籤控制:支援在提示詞中加入 [laughter]、[dissatisfaction] 等標籤,精 確控制聲音中的笑聲、不滿或驚訝。 16. LGTM:4K 高畫質 3D 場景重建 全稱為 Less Gaussian Texture More。 效率革命:傳統技術在高解析度下運算極重,LGTM 改用較少的塊(Blocks)並在每 個塊上附加紋理(Texture),成功在不爆炸增加算力的前提下實現 4K 等級 的 3D 場景 還原。 17. HandX:機器人靈巧手訓練集 這是一個大規模的 3D 手部動作數據集,旨在解決機器人開發中最難的部分:手部動作。 精細標註:包含極其細緻的指令(如「食指伸展、拇指彎曲」),可用於在 NVIDIA Isaac Gym 模擬環境中訓練機器人,隨後應用到如 Unitree G1 等硬體上。 18. GLM-5V Turbo:視覺編碼專家 智譜 AI (ZAI) 的最新力作,將「視覺理解」與「代碼生成」深度結合。 草圖轉 App:只需上傳一張畫在紙上的醜陋草圖,模型就能寫出佈局一致的 Functional App 代碼。 網頁克隆:甚至能上傳一段網頁錄影,讓它復刻出包含動畫效果在內的完整前端代碼 。 19. Wan 2.7:影片與影像的雙重升級 Alibaba 同步更新了影片與影像生成模型。 Wan 2.7 Video:原生支持音效生成,並允許上傳最多 5 張圖片來「定義」特定角色 ,確保長影片中的角色不走樣。 Wan 2.7 Image:特別強化了臉部真實感(不再是完美的 AI 臉,而是有瑕疵、骨骼 感強的真臉)[46:00]。此外支持輸入 16 進制色碼 (Hex codes) 來精確控制畫面色調, 非常適合電商與行銷素材設計。 20. VGGPO:解決 AI 影片「崩壞」的 Google 新技術 這是一項能讓現有影片模型變得更穩定的插件技術。 潛在幾何模型 (Latent Geometry Model):它教會 AI 具備「3D 幾何感」,讓攝影 機移動時,牆壁、物體不會像液體一樣晃動或變形,確保物理世界的一致性。 -- Gemini整理 分兩部分生成簡介 希望錯誤會少點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775361185.A.D78.html
ct13579: Gemma 4 目前最強開源模型? 04/05 13:59
error405: 能力有開源前三 大小卻是別人1/10 很猛 04/05 14:06
newyorker54: gemma4真的很猛,終於跑起來31B, bf16不輸minimax m2 04/05 14:37
newyorker54: .5, 和qwen3.5-122b 04/05 14:37
newyorker54: 美國AI模型還是領先中國兩代,一代四到六個月,行家 04/05 14:39
Chricey: 求推薦靠譜的復健診所,小弟關節治好再來跪謝! 04/05 14:39
newyorker54: 一出手就知有沒有 04/05 14:39
Bustycat: 沒有到領先兩代那麼誇張,實測就是有來有回 04/05 19:41
jhjhs33504: LGTM 04/05 21:16
v86861062: 推推 04/05 23:42
Kroner: 5樓關節跟X一樣 04/05 23:42
error405: 據說qwen3.6在免費 然後把使用資料再拿來訓練 04/06 17:12
error405: 使用流量衝到第一了 04/06 17:14