看板 AI_Art
https://huggingface.co/netflix/void-model 以下是關於 Netflix VOID 模型(Hugging Face: netflix/void-model)的完整資訊收集 。這是 Netflix 首次公開釋出的 AI 模型,專注於先進的影片物件移除與互動刪除,於 2026 年 4 月初發布(arXiv 論文於 2026 年 4 月)。 模型名稱與核心功能全名:VOID(Video Object and Interaction Deletion) 主要功能:不僅移除影片中的物件(人、物等),還會同時處理該物件引發的所有互動與 物理效應。例如:移除抓球的人 → 球會自然掉落到地上(符合物理因果)。 移除手 → 被握的物件不會懸空,而是維持原本應有的狀態。 不只處理陰影、反射、照明等次要效果,還會模擬「如果這個物件從未出現,場景會如何 變化」(counterfactual reasoning)。 這比傳統影片 inpainting(填補)工具更先進,能產生物理上合理的場景。 技術架構與細節基礎模型:基於 CogVideoX-Fun-V1.5-5b-InP(阿里巴巴 PAI 的 5B 參 數 3D Transformer 影片擴散模型)。 輸入:原始影片(.mp4)。 Quadmask(四值遮罩影片):用 4 種值區分區域(0=要移除的物件、63=重疊區、127=受 影響區如掉落的物體、255=保留背景)。 文字提示(prompt.json):描述移除後的背景場景(e.g., "a clean table with no objects")。 輸出:物理一致的影片,最多支援 197 幀,預設解析度 384x672。 訓練資料:使用 HUMOTO(人類-物件物理互動,Blender 模擬)和 Kubric(Google Scanned Objects)產生的配對反事實影片(paired counterfactual videos)。 訓練方式:在 8x A100 80GB GPU 上使用 DeepSpeed ZeRO Stage 2 訓練。分兩階段: Pass 1(void_pass1.safetensors):基礎 inpainting 模型(必要)。 Pass 2(void_pass2.safetensors):使用 warped-noise 精煉,提升長影片的時間一致 性(可選)。 推理設定:BF16 + FP8 量化,DDIM scheduler。需要 40GB+ VRAM GPU(如 A100)才能 有效運行。 使用方式GitHub Repo:https://github.com/Netflix/void-model 安裝:git clone https://github.com/Netflix/void-model.git pip install -r requirements.txt 下載模型:基礎 CogVideoX:huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP VOID 權重:huggingface-cli download netflix/void-model 遮罩產生:使用 repo 中的 VLM-MASK-REASONER/(結合 SAM2 + Gemini)自動產生 quadmask。 運行:提供範例腳本 inference/cogvideox_fun/predict_v2v.py,或直接執行 notebook.ipynb。 線上 Demo:https://huggingface.co/spaces/sam-motamed/VOID(可在瀏覽器試用)。 模型完全 open-weight,授權 Apache-2.0。論文與作者論文:arXiv:2604.02296(2026 ) 標題:VOID: Video Object and Interaction Deletion 連結:https://arxiv.org/abs/2604.02296 作者:Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng(部分為 Netflix 研究人員或實習生)。 專案頁面:https://void-model.github.io/ 社群反應與評價發布後迅速在 Reddit、X(Twitter)、Threads 等平台引起討論,被稱 為「Netflix 第一個公開 AI 模型」,強調其在物理因果與影片編輯上的突破。 優勢:人類偏好研究中勝出(64.8%),能處理複雜互動。 缺點:VRAM 需求高、影片長度有限(目前最多 ~197 幀)、需要手動或 VLM 產生 quadmask。 相關資源Hugging Face 模型頁:https://huggingface.co/netflix/void-model GitHub:https://github.com/Netflix/void-model(包含範例、notebook、assets) 專案網站與影片展示:https://void-model.github.io/ 這個模型顯示 Netflix 不僅是串流平台,更是擁有大量高品質自製內容的科技公司,正 在將其內部 AI 研究開放給社群。如果你想實際測試,建議從 notebook.ipynb 開始(需 強力 GPU)。 -- Grok整理 移除物品見多了 連影響一併復原還是第一次見 什麼因果律能力 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775265619.A.96E.html
AoWsL: 這個看起來比較先進 影片瑕疵可以修復 進而取消干涉結果 04/04 09:45
AoWsL: Sam2 Sam3示範 好像沒有這種效果 只能單向移除 04/04 09:47
AoWsL: 如果一個影片杯子被貫穿粉碎 你甚至可以畫一個區域讓結構不 04/04 09:49
AoWsL: 為所動 04/04 09:49
Supasizeit: 可以少很多NG鏡頭了 04/04 10:11
Chricey: 我也有過關節痛的經驗,真的超痛苦的啦!推薦去看醫生,早點處理比較不會拖延變嚴重。 04/04 10:11
ksjr: 可是他連果汁機的轉動也一起移除了== 04/04 11:35
ksjr: 多看幾個才看懂原來是連影響也會一起移除 04/04 11:40