作者evaras (牛排)
看板AI_Art
標題Re: [閒聊] 負空間的由來
時間Wed Mar 4 11:39:11 2026
※ 引述《treasurehill (寶藏巖公社,你還未夠班S)》之銘言:
: 前面舉過例子了,不再贅述
: ChatGPT 生成就很正常:
: https://i.meee.com.tw/cAYP3cu.png
: 直接描述了一群年輕人站在獨木舟上,低頭往雙腿間看,娜娜女鬼正在看他們的模樣
: 但midjourney生成結果的就是這樣
: https://i.meee.com.tw/qNuukVB.jpg
: https://i.meee.com.tw/3GApD2E.jpg
: 不管是6.1或7.0都一樣,沒有辦法正確的生成完整語意的圖形
我幫你把這問題丟給google Gemini3了
Gemini 3 Flash 回答如下
這是一個非常經典的 「模型底層邏輯差異」。
您的這個發現揭露了目前 AI 繪圖界最強兩大勢力(DALL-E 3 vs. Midjourney)完
全相反的操作哲學。
為什麼 ChatGPT (DALL-E 3) 能畫對,
而更強大的 Midjourney (v6.1/7.0) 反而翻車了?
原因如下:
1. ChatGPT (DALL-E 3) 是「讀題天才」
ChatGPT(DALL-E 3)最強大的地方在於它內建了 「Prompt 重寫與語義擴張」 機制。
它的行為: 當你把那段大雜燴丟給 ChatGPT 時,
它並不是直接拿那段話去畫。
它會先背後**「翻譯」**成一段極度詳細、符合空間邏輯的描述。
為什麼能畫對:
它理解「在船上」、「胯下看」、「女鬼」是故事的主線,
它會捨棄掉指令中不合理的干擾詞(如佛像或僧侶),專注於幫你「圓夢」。
它甚至會自動腦補光影與物體的物理關係。
2. Midjourney (v6.1/7.0) 是「美學偏見大師」
Midjourney 的核心設計目標是 「每一張圖都要像電影劇照般精美」,
而非「每一張圖都要精確符合描述」。
標籤中毒:
您提供的指令中有很多特定的「偏見詞」。
對於 MJ 來說,The Buddha, Monk, Ancient 的視覺重量遠大於 look between legs。
圖片 1 vs. 圖片 2 (MJ 的邏輯):
圖片 1: MJ 抓到了 The Buddha 和 Monk,它的資料庫告訴它「泰國古代恐怖 = 寺廟、
佛像」,所以它優先蓋了一座廟,把你原本想在河上發生的事給「吞」了。
圖片 2: MJ 抓到了 Horrifying 和 looking down。因為它無法理解「從兩腿之間往後
看」這種詭異的幾何姿勢,它選擇了一個在恐怖片中最合邏輯的構圖:地板下的怪物。這
對它來說「更精美、更恐怖」,所以它自動「修正」了你的意圖。
3. 指令「長度」的反效果
DALL-E 3: 越長越好,它會從中挑選故事。
Midjourney v6/v7:
它們的 「注意力上限(Context Window)」 其實有限。
在您的指令中,Canoe (獨木舟) 出現在快結尾的地方。
在 MJ 的處理排序裡,
前面的 Chut Thai, Pee Mak, Ancient 早就佔滿了生成的「預算」。
當它讀到最後面的 canoe 時,畫面上已經塞了一尊佛像或一地板的木頭,沒地方放船了。
結論:兩者的正確使用姿勢
ChatGPT (DALL-E 3):
適合「說故事」。你給它一堆關鍵字,它會幫你組織成一個合理的畫面。
Midjourney (v6/v7):
適合「精確控制美學」。你必須 「刪繁就簡」,直接告訴它:
不要寫:The Buddha, Monk (如果不打算出現在畫面中)。
必須寫:On a small river boat, looking through legs POV。
實驗證明
如果您現在去 Midjourney 測試這句精簡版,它就極大概率能畫對:
/imagine prompt: Cinematic still, a man looking down through his legs on a
river boat, a terrifying female ghost glaring behind him, ancient Thai
atmosphere --ar 2:1
這就是為什麼您看到ChatGpt圖片 (DALL-E 3) 最像您的預期,
而Midjourney圖片 1 & 2 (Midjourney) 卻各走各的路。
MJ 雖然畫質更生動,但它像是一個很有主見、不愛聽長篇大論的攝影師。
您想要我(Google Gemini 3)幫您整理一份「Midjourney 避坑指南」,
教您如何把這種複雜的泰國故事精煉成它聽得懂的專用語法嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.43.124.5 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1772595553.A.FFA.html
推 Tosca: 是阿所以Midjourney適合創作 GPT適合工作 03/04 11:47
→ Tosca: 創作就是希望他給一點意外驚喜 工作就是結果越精準越好 03/04 11:47
→ evaras: 但看gemini解釋 Mj也沒有脫離他給的指令元素呀 03/04 11:51
→ evaras: 用邏輯來說也能通呀 又不是給一堆狗的指令結果畫出鬼那樣 03/04 11:52
→ evaras: 我覺得[你的圖片因不符合安全守則,已被遮蔽或移除] 03/04 11:55
推 Kroner: 想問一下有沒有關節痛的運動禁忌?怕動得更嚴重… 03/04 11:55 → evaras: 這種生成完圖片還要扣你額度的負空間 比較可怕 03/04 11:56
推 Supasizeit: 你居然問flash….. 03/04 11:56
→ evaras: 不然呢? 用thinking和pro也一樣的回答呀 03/04 12:21