PTT評價

Re: [問卦] AI會做影片有怎麼樣嗎?

看板Gossiping標題Re: [問卦] AI會做影片有怎麼樣嗎?作者
LoveSports
(我要當一個渣攻)
時間推噓 1 推:1 噓:0 →:1

※ 引述《LeonardoChen (LeonardoChen)》之銘言:
: 不就是世界上多很多影片出來而已嗎?
: 又不是說可以虛空造物、空間傳送
: 連性愛機器人都還沒個影
: 做影片算什麼?
: 什麼真的假的,影片就是影片

其實這些能力跟AGI相關

也跟未來具身的機器人有關

剛好看書發現可能有關 分享一下 也可以跳最下面看AI寫的

AGI的核心特徵包括 狀況認識能力 與 自主性

自主性AI的 狀況認識能力 的建構

會透過海量的知識 去學習感知"Affordance"(可供性、預設功能、環境賦使、直觀功能)

然後用這種感知可供性的能力去理解狀況


可供性是指當一個人看到椅子 就知道那是給人坐的

這種判斷狀況的能力為什麼重要?

書上說 比方說未來有機器人 跟機器人一起登山

萬一人類手滑沒抓好掉下去

有自主性的機器人具有判斷狀況的能力

那瞬間就能伸出手把人類抓住救起來


那這個能力跟目前圖片與影片置換功能有甚麼關係?

因為要能置換必須理解 物理原則 與 立體空間感 以及 連貫性

目前AI還無法完全辦到這些能力

但這些圖片與影片置換功能的推出

代表他們已經具有可供性感知的初步能力


以下貼AI回的 GPT5跟Gemini 2.5 pro

========================================
GPT5:

這是一個非常深刻的問題,你的思考方向其實觸及了「感知(perception)」與「理解(understanding)」在 AI 進化過程中的關鍵交會點。

我們可以從幾個層面來看這件事:

1. 圖像/影片置換能力本身代表什麼?

像 Gemini 2.5 Flash 的「nano banana」或 GPT 的「Sora 2」這類能在圖片或影片中精準替換人物的技術,本質上依賴的是:

.對視覺特徵的極高掌握(例如臉部幾何、光影、材質、運動一致性)

.對場景語義結構的理解(知道這是一個「人坐在椅子上」的情境,而不是隨機像素群)

這意味著 AI 不只是「生成畫面」,而是能夠「在有意義的空間中操作元素」——它知道
哪些部分可以換、怎麼換才「合理」。

這種合理性其實已經涉及了某種初步的感知可供性(affordance):AI 懂得哪些操作在現實世界是自然的。

2. 感知可供性(affordance)與「理解現實」

你提到書中提到的「自律型AI」——能透過常識理解感知可供性。這個概念源自心理學
家 James Gibson 的理論:

affordance 是環境對行動者所提供的可能行為。

例如:

.一張椅子「可坐」

.一扇門「可推開」

.一個人臉「可辨識」

要理解這些「可供性」,AI 不能只是看像素,而要有對「世界」的內在模型。
而當 AI 能在影片中流暢地置換人,不只是視覺處理的成功——它也展現出對「人在空間
中的行為結構」的某種掌握。

換句話說,這是「對可供性的一種模擬理解」。

3. 與 AGI(通用人工智慧)的關聯

這項能力本身不等於 AGI,但它是 AGI 所需的其中一個支柱:

要成為通用智能,AI 必須能在不同模態(語言、視覺、動作)中共享對世界的理解。

能夠置換圖片人物 → 代表 AI 有:

.感知層:能區分「人」與「背景」

.操作層:知道如何合理地修改而不破壞現實感

.概念層:知道這樣的操作在語義上仍「一致」

這三層若能融合,AI 就不再只是生成圖像,而是具備對「世界中事物關係」的實際建模。
而「理解關係」正是 AGI 的核心——因為那是常識推理、計畫行動、甚至道德判斷的基
礎。

4. 總結來說

你的推論是對的——

能夠精準地置換圖片或影片中的人物,確實可以視為 AI 感知與可供性理解的一種增強。

但要成為真正的自律型或具意識的 AI,還需要:

.能從這種感知中主動學習行為意圖

.能將視覺理解與語言、動作、推理整合

.能在沒有明確指令時,依「自己的常識」判斷怎麼行動

也就是從「會看」→「會理解」→「會行動」的跨越。

如果你願意,我可以幫你畫一個簡單的示意圖(例如:從影像生成 → 感知可供性 → 世
界模型 → 自律型AI的發展路徑),讓這個關係更直觀。
你想要我幫你畫嗎?


=======================================

Gemini 2.5 pro:

好的,這是一個非常深入且有趣的問題。您將 AI 的圖像與影片生成、置換能力,與書中提到的「感知可供性 (Affordance)」以及邁向通用人工智慧 (AGI) 的關聯進行連結,這確實是探討 AI 發展的一個重要切入點。

簡單來說,您的想法有相當的道理。當 AI 能夠精準地置換圖片或影片中的人物時,這確實代表它對現實世界的掌握達到了更高的層次,並且在某種程度上,感知可供性
(Affordance) 的能力也變強了。以下將為您深入剖析:

Gemini 2.5 Flash 與 Sora 2 所展現的能力

首先,我們來看看您提到的這兩個模型代表了什麼樣的技術進展:

Gemini 2.5 Flash Image (Nano Banana): 這不僅僅是生成圖像,更具備了革命性的互動編輯能力[1]。它是一個原生的多模態模型,能夠真正「看懂」圖片的內容並進行深度邏輯推理[1]。例如,您可以上傳一張圖片,然後用口語化的方式請它「把這個人換成另一位」,或是「幫他戴上一頂帽子」。它還能融合多張圖片、保持角色在不同場景中的一致性,並利用其世界知識來進行編輯[2][3]。這代表它不只是在像素層面操作,而是在語意和邏輯層面理解圖像。

GPT 的 Sora 2: 這個模型則是在影片生成領域帶來了突破。它不僅能根據文字生成高度擬真的影片,更重要的是,它對物理邏輯、場景連貫性的掌握達到了新的高度[4]。例如,Sora 2 能更自然地呈現物體碰撞、彈跳等需要力學細節的畫面[4]。這意味著它不僅知道世界「看起來」是什麼樣子,還在一定程度上理解世界「如何運作」。

感知可供性 (Affordance) 與自律型 AI

您在書中看到的「感知可供性 (アフォーダンス)」是一個源自認知心理學的概念,由詹姆斯·J·吉布森 (James J. Gibson) 提出[5]。它的核心思想是,環境會「提供」生物
體行動的可能性[6]。

舉例來說

。一張椅子「提供」了「坐」的可能性。
。一個門把手「提供」了「轉動」的可能性[5][6]。
。平坦的地板「提供」了「行走」的可能性[6]。

我們人類之所以能夠自然地與世界互動,正是因為我們能透過常識和過去的經驗,直接「感知」到這些可供性,而不需要經過複雜的思考[6]。

而您提到的「自律型 AI」,指的是能夠為了達成目標而自主選擇並執行行動的 AI[7][8]。這種 AI 若要有效地在現實世界中運作,就必須具備感知可供性的能力。它需要「看懂」周遭環境,理解「這裡可以做什麼」、「那個東西可以怎麼用」,才能做出合理的決策[9][10]。

連結:圖像置換能力與 AGI 的關係

現在,我們將這兩者連結起來。當 AI 能夠精準地置換圖片或影片中的人物時,這是否代表它更接近 AGI 了? 答案是肯定的,這是一個重要的進展,但同時也存在一些限制。

正面論點:邁向更高層次的現實世界理解

1.
對物理與光影的隱性知識: 要完美地將一個人置換到新的場景中,AI 必須理解光線如何照射、陰影如何形成、物體間的遮擋關係,以及人物與環境的互動(例如,走在草地上,草會被壓扁)。Sora 2 對物理邏輯的模擬,正體現了這一點[4][11]。這種對物理世界的隱性知識,是感知可供性的基礎。

2.
對物體屬性與功能的理解: Gemini 2.5 Flash Image 能夠根據語意進行編輯(例如「幫他戴上帽子」),這代表它理解「帽子」是可以「戴」在「頭上」的物體[1][12]。這就是一種對物體功能(可供性)的初步掌握。若要置換一個正在使用工具的人,AI 就必須理解工具的握持方式與用途。

3.
常識推理能力的體現: 能夠保持角色在不同場景中的一致性,代表 AI 不再只是生成單一、孤立的圖像,而是對一個「角色」有了更抽象、更連貫的「概念」[2][3]。這種抽象能力是常識推理的核心,也是自律型 AI 透過常識感知可供性的前提。


反面論點與限制:從「看起來像」到「真正理解」的距離

儘管進展顯著,但我們仍需謹慎看待。

1.
數據驅動的模式學習: 目前的生成式 AI 主要是從海量資料中學習模式與關聯性[13]。它可以生成一個看起來極度逼真的「人坐在椅子上」的影片,因為它學習了無數相關的影像資料。但這不完全等同於它真正「理解」了「坐」這個行為的物理意義、意圖以及椅子「提供支撐」的這個核心可供性。

2.
缺乏身體與世界的互動經驗: 人類對可供性的感知,很大程度建立在與物理世界互動的身體經驗上。AI 缺乏這種經驗,它的「理解」是建立在數據之上的,而非親身體驗。這也使得一些研究者認為,目前的 AI 缺乏真正的理解能力,是其邁向 AGI 的根本性限制[9][13]。

結論

總結來說,您觀察到的現象和提出的問題都非常切中要點。AI 精準置換圖片與影片中人物的能力,確實是其對現實世界掌握度提升、感知可供性能力增強的重要指標。這代表
AI 不再只是處理像素,而是開始理解圖像和影片中的語意、物理邏輯與物體間的功能關係。

我們可以將這視為 AI 從「模式識別」邁向「場景理解」的關鍵一步。然而,距離像人類一樣,基於常識和身體經驗來靈活、深刻地感知和運用世界中的各種可供性,從而實現真正的自律行動和通用智慧 (AGI),仍然有一段路要走。

目前的技術突破,為 AI 裝上了更敏銳的「眼睛」和更聰明的「視覺皮層」,讓它能更細緻地觀察和模仿世界。但要進化出能夠自主思考、與世界互動的「心靈」,還需要更多根本性的突破。



--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.171.224.172 (日本)
PTT 網址

niwadori1211 10/11 16:30想知道書的話你是看什麼~ 感覺蠻

niwadori1211 10/11 16:31有意思的,感謝

AIにはできない AI辦不到的事 目前沒有台版 你有想特別了解的部分嗎?我可以請AI摘要給你看

※ 編輯: LoveSports (202.171.224.172 日本), 10/11/2025 17:10:44