[閒聊] Netflix出模型 完全移除影片物件+影響

作者error405 (流河=L)

看板AI_Art

標題[閒聊] Netflix出模型完全移除影片物件+影響

時間Sat Apr 4 09:20:14 2026

https://huggingface.co/netflix/void-model 以下是關於 Netflix VOID 模型（Hugging Face: netflix/void-model）的完整資訊收集。這是 Netflix 首次公開釋出的 AI 模型，專注於先進的影片物件移除與互動刪除，於 2026 年 4 月初發布（arXiv 論文於 2026 年 4 月）。模型名稱與核心功能全名：VOID（Video Object and Interaction Deletion）主要功能：不僅移除影片中的物件（人、物等），還會同時處理該物件引發的所有互動與物理效應。例如：移除抓球的人 → 球會自然掉落到地上（符合物理因果）。移除手 → 被握的物件不會懸空，而是維持原本應有的狀態。不只處理陰影、反射、照明等次要效果，還會模擬「如果這個物件從未出現，場景會如何變化」（counterfactual reasoning）。這比傳統影片 inpainting（填補）工具更先進，能產生物理上合理的場景。技術架構與細節基礎模型：基於 CogVideoX-Fun-V1.5-5b-InP（阿里巴巴 PAI 的 5B 參數 3D Transformer 影片擴散模型）。輸入：原始影片（.mp4）。 Quadmask（四值遮罩影片）：用 4 種值區分區域（0=要移除的物件、63=重疊區、127=受影響區如掉落的物體、255=保留背景）。文字提示（prompt.json）：描述移除後的背景場景（e.g., "a clean table with no objects"）。輸出：物理一致的影片，最多支援 197 幀，預設解析度 384x672。訓練資料：使用 HUMOTO（人類-物件物理互動，Blender 模擬）和 Kubric（Google Scanned Objects）產生的配對反事實影片（paired counterfactual videos）。訓練方式：在 8x A100 80GB GPU 上使用 DeepSpeed ZeRO Stage 2 訓練。分兩階段： Pass 1（void_pass1.safetensors）：基礎 inpainting 模型（必要）。 Pass 2（void_pass2.safetensors）：使用 warped-noise 精煉，提升長影片的時間一致性（可選）。推理設定：BF16 + FP8 量化，DDIM scheduler。需要 40GB+ VRAM GPU（如 A100）才能有效運行。使用方式GitHub Repo：https://github.com/Netflix/void-model 安裝：git clone https://github.com/Netflix/void-model.git pip install -r requirements.txt 下載模型：基礎 CogVideoX：huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP VOID 權重：huggingface-cli download netflix/void-model 遮罩產生：使用 repo 中的 VLM-MASK-REASONER/（結合 SAM2 + Gemini）自動產生 quadmask。運行：提供範例腳本 inference/cogvideox_fun/predict_v2v.py，或直接執行 notebook.ipynb。線上 Demo：https://huggingface.co/spaces/sam-motamed/VOID（可在瀏覽器試用）。模型完全 open-weight，授權 Apache-2.0。論文與作者論文：arXiv:2604.02296（2026 ）標題：VOID: Video Object and Interaction Deletion 連結：https://arxiv.org/abs/2604.02296 作者：Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng（部分為 Netflix 研究人員或實習生）。專案頁面：https://void-model.github.io/ 社群反應與評價發布後迅速在 Reddit、X（Twitter）、Threads 等平台引起討論，被稱為「Netflix 第一個公開 AI 模型」，強調其在物理因果與影片編輯上的突破。優勢：人類偏好研究中勝出（64.8%），能處理複雜互動。缺點：VRAM 需求高、影片長度有限（目前最多 ~197 幀）、需要手動或 VLM 產生 quadmask。相關資源Hugging Face 模型頁：https://huggingface.co/netflix/void-model GitHub：https://github.com/Netflix/void-model（包含範例、notebook、assets）專案網站與影片展示：https://void-model.github.io/ 這個模型顯示 Netflix 不僅是串流平台，更是擁有大量高品質自製內容的科技公司，正在將其內部 AI 研究開放給社群。如果你想實際測試，建議從 notebook.ipynb 開始（需強力 GPU）。 -- Grok整理移除物品見多了連影響一併復原還是第一次見什麼因果律能力 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1775265619.A.96E.html

→ AoWsL: 這個看起來比較先進影片瑕疵可以修復進而取消干涉結果 04/04 09:45

→ AoWsL: Sam2 Sam3示範好像沒有這種效果只能單向移除 04/04 09:47

→ AoWsL: 如果一個影片杯子被貫穿粉碎你甚至可以畫一個區域讓結構不 04/04 09:49

→ AoWsL: 為所動 04/04 09:49

推 Supasizeit: 可以少很多NG鏡頭了 04/04 10:11

推 Chricey: 我也有過關節痛的經驗，真的超痛苦的啦！推薦去看醫生，早點處理比較不會拖延變嚴重。 04/04 10:11

推 ksjr: 可是他連果汁機的轉動也一起移除了== 04/04 11:35

→ ksjr: 多看幾個才看懂原來是連影響也會一起移除 04/04 11:40