作者error405 (流河=L)
看板AI_Art
標題[閒聊] Netflix出模型 完全移除影片物件+影響
時間Sat Apr 4 09:20:14 2026
https://huggingface.co/netflix/void-model
以下是關於 Netflix VOID 模型(Hugging Face: netflix/void-model)的完整資訊收集
。這是 Netflix 首次公開釋出的 AI 模型,專注於先進的影片物件移除與互動刪除,於
2026 年 4 月初發布(arXiv 論文於 2026 年 4 月)。
模型名稱與核心功能全名:VOID(Video Object and Interaction Deletion)
主要功能:不僅移除影片中的物件(人、物等),還會同時處理該物件引發的所有互動與
物理效應。例如:移除抓球的人 → 球會自然掉落到地上(符合物理因果)。
移除手 → 被握的物件不會懸空,而是維持原本應有的狀態。
不只處理陰影、反射、照明等次要效果,還會模擬「如果這個物件從未出現,場景會如何
變化」(counterfactual reasoning)。
這比傳統影片 inpainting(填補)工具更先進,能產生物理上合理的場景。
技術架構與細節基礎模型:基於 CogVideoX-Fun-V1.5-5b-InP(阿里巴巴 PAI 的 5B 參
數 3D Transformer 影片擴散模型)。
輸入:原始影片(.mp4)。
Quadmask(四值遮罩影片):用 4 種值區分區域(0=要移除的物件、63=重疊區、127=受
影響區如掉落的物體、255=保留背景)。
文字提示(prompt.json):描述移除後的背景場景(e.g., "a clean table with no
objects")。
輸出:物理一致的影片,最多支援 197 幀,預設解析度 384x672。
訓練資料:使用 HUMOTO(人類-物件物理互動,Blender 模擬)和 Kubric(Google
Scanned Objects)產生的配對反事實影片(paired counterfactual videos)。
訓練方式:在 8x A100 80GB GPU 上使用 DeepSpeed ZeRO Stage 2 訓練。分兩階段:
Pass 1(void_pass1.safetensors):基礎 inpainting 模型(必要)。
Pass 2(void_pass2.safetensors):使用 warped-noise 精煉,提升長影片的時間一致
性(可選)。
推理設定:BF16 + FP8 量化,DDIM scheduler。需要 40GB+ VRAM GPU(如 A100)才能
有效運行。
使用方式GitHub Repo:
https://github.com/Netflix/void-model
安裝:git clone
https://github.com/Netflix/void-model.git
pip install -r requirements.txt
下載模型:基礎 CogVideoX:huggingface-cli download
alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
VOID 權重:huggingface-cli download netflix/void-model
遮罩產生:使用 repo 中的 VLM-MASK-REASONER/(結合 SAM2 + Gemini)自動產生
quadmask。
運行:提供範例腳本 inference/cogvideox_fun/predict_v2v.py,或直接執行
notebook.ipynb。
線上 Demo:
https://huggingface.co/spaces/sam-motamed/VOID(可在瀏覽器試用)。
模型完全 open-weight,授權 Apache-2.0。論文與作者論文:arXiv:2604.02296(2026
)
標題:VOID: Video Object and Interaction Deletion
連結:
https://arxiv.org/abs/2604.02296
作者:Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning
Yuan, Ta-Ying Cheng(部分為 Netflix 研究人員或實習生)。
專案頁面:
https://void-model.github.io/
社群反應與評價發布後迅速在 Reddit、X(Twitter)、Threads 等平台引起討論,被稱
為「Netflix 第一個公開 AI 模型」,強調其在物理因果與影片編輯上的突破。
優勢:人類偏好研究中勝出(64.8%),能處理複雜互動。
缺點:VRAM 需求高、影片長度有限(目前最多 ~197 幀)、需要手動或 VLM 產生
quadmask。
相關資源Hugging Face 模型頁:
https://huggingface.co/netflix/void-model
GitHub:
https://github.com/Netflix/void-model(包含範例、notebook、assets)
專案網站與影片展示:
https://void-model.github.io/
這個模型顯示 Netflix 不僅是串流平台,更是擁有大量高品質自製內容的科技公司,正
在將其內部 AI 研究開放給社群。如果你想實際測試,建議從 notebook.ipynb 開始(需
強力 GPU)。
--
Grok整理
移除物品見多了 連影響一併復原還是第一次見 什麼因果律能力
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775265619.A.96E.html
→ AoWsL: 這個看起來比較先進 影片瑕疵可以修復 進而取消干涉結果 04/04 09:45
→ AoWsL: Sam2 Sam3示範 好像沒有這種效果 只能單向移除 04/04 09:47
→ AoWsL: 如果一個影片杯子被貫穿粉碎 你甚至可以畫一個區域讓結構不 04/04 09:49
→ AoWsL: 為所動 04/04 09:49
推 Supasizeit: 可以少很多NG鏡頭了 04/04 10:11
推 Chricey: 我也有過關節痛的經驗,真的超痛苦的啦!推薦去看醫生,早點處理比較不會拖延變嚴重。 04/04 10:11 推 ksjr: 可是他連果汁機的轉動也一起移除了== 04/04 11:35
→ ksjr: 多看幾個才看懂原來是連影響也會一起移除 04/04 11:40