[討論] 為何機器人AI不透過強化式學習訓練？

seal46825 發表於 2024/10/16 下午11:54:43

看板Tech_Job標題[討論] 為何機器人AI不透過強化式學習訓練？作者

seal46825

(Vanish)時間Oct 16 23:54:43 2024推噓 5 推:12 噓:7 →:75

PTT評價

剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作例如分類物品
然後就可以透過這些動作訓練模型

但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強

同樣道理我讓一顆球放在一個發射平台
會自動彈出然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線如何最佳應用他的身體
然後快速把球撿起來放回發射平台

這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練一年365天24小不停歇
這樣就能產生大量數據快速精進機器人AI模型

同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢？
還是其實有在做了？
-----
Sent from JPTT on my iPhone

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣)

※ PTT 網址

→

drkkimo 10/17 00:03你怎麼知道沒有人作這個?

原來已經有了嗎？

推

HaHaPoint 10/17 00:04因為不把真人互動加進訓練的話你會訓練出殺人機器

如果任務能成功達成好像也不失為一個方法？只是任務怎麼定義就很重要

→

HaHaPoint 10/17 00:04或是大法師那樣走路的機器人因為那樣比較有效率

※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:05:46 ※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:06:44

→

DrTech 10/17 00:22這在機器手臂取物都做到爛的事情…

→

peter335415210/17 00:25上網搜尋robotic deep reinforcement learning 應

→

peter335415210/17 00:25該會有一堆paper

→

DrTech 10/17 00:26另外，RL 訓練實體動作極差，成本極高。通常都是先

→

DrTech 10/17 00:26建立模擬環境，跟本不是你文中的直接physical去碰撞

→

DrTech 10/17 00:26訓練。

→

DrTech 10/17 00:28你這些說法根本就是外行，連訓練成本，效率，都不考

→

DrTech 10/17 00:28慮。訓練一個動作，RL隨意碰撞，機器人先壞100台，

→

DrTech 10/17 00:28外行人傻了才這樣想。

→

seal46825 10/17 00:32我的確是外行對AI好奇整天亂看而已問題是如果要叫

→

seal46825 10/17 00:32幾千萬個真人去搜集數據成本不會比較低啊除非可以

→

seal46825 10/17 00:32跟特斯拉車子一樣發展出可以讓人去操控機器人的商業

→

seal46825 10/17 00:32模式

→

seal46825 10/17 00:33用第一性原理去思考這個沒道理做不到我認為馬斯克

→

seal46825 10/17 00:33肯定也有想過至於為什麼我們沒看到有兩個原因一個

→

seal46825 10/17 00:34是其實有做但我們不知道第二個是其實有什麼大瓶頸

→

seal46825 10/17 00:34在這就是我好奇的地方

推

kevin0210 10/17 00:50這個問題我覺得蠻優的

推

chang1248w 10/17 01:00它們是先在模擬環境練了幾萬年才放出來現實世界的

推

mrsix 10/17 01:01畢竟是泛用型的人形機器人，日後可能會用於長照或

→

chang1248w 10/17 01:01現在在做的是類似GPT一樣透過人類行為微調

→

mrsix 10/17 01:01托兒，這種與人類互動的行為得由人類親自教導，而

→

mrsix 10/17 01:01不是機器自己訓練自己。

→

mrsix 10/17 01:02有樣東西叫人因工程

→

chang1248w 10/17 01:02請工人一來不划算，二來把工人的行為轉換成機器人

→

chang1248w 10/17 01:02能用的數據太貴了

→

mrsix 10/17 01:03而且特斯拉機器人現在應該還不敢做跑步之類的快速

→

mrsix 10/17 01:03動作，撞到人蠻糟糕的。

→

chang1248w 10/17 01:03一個機器人是數十個關節的馬達還有感知器在協同，

→

chang1248w 10/17 01:03只有人類操作工具的影像根本不夠

→

chang1248w 10/17 01:05模擬環境裡應該能做到跑，只是現實與模擬的誤差還

→

chang1248w 10/17 01:05沒調教過來

推

mrsix 10/17 01:05應該不是影像，而是透過遠端遙控的方式訓練

→

yunf 10/17 01:07全部都給你說完了他要賺什麼

推

mrsix 10/17 01:07黃仁勳來台灣那個發表會不是提到Omniverse之類的孿

→

mrsix 10/17 01:07生模型來訓練機器人

→

yunf 10/17 01:08他就是要像m$一樣慢慢地滲透到你國家的每一個角落然

→

yunf 10/17 01:08後再更新收費

→

yunf 10/17 01:08一下就到達完全體馬上就被抄走了

推

wwewcwwwf 10/17 01:20有阿記得所羅門吹邊緣學習3年了不知學到哪了

推

aria0520 10/17 01:26lecun提的世界模型路線可以了解一下

→

yunf 10/17 01:29台灣公司就不用看了連日本都打不贏

→

yunf 10/17 01:30不然就是才剛有創新的時候就被買走

→

yunf 10/17 01:42不要說機器人能長照好嘛笑死人了

→

yunf 10/17 01:43沒照顧過老人的才會嘴砲說機器人長照

→

yunf 10/17 01:43如果是這樣的話東協那些都不用發展了

→

yunf 10/17 01:43專心訓練ai就好

→

DarkIllusion10/17 01:54用RL做機器人策略有獎勵稀疏、sim2real gap問題，有

→

DarkIllusion10/17 01:54人類展示當訓練資料是最好的

→

yunf 10/17 02:03你講的這個二十年後做不做的出來還是個問題

→

yunf 10/17 02:04更何況要能用得起

→

yunf 10/17 02:05現在玩的都還是剛草創而已

→

yunf 10/17 02:05電力就不夠了

→

yunf 10/17 02:05其實這也都是個騙局

→

yunf 10/17 02:05要夠不夠都取決於他要怎麼用

→

yunf 10/17 02:06經濟部也只能瞎找電

→

yunf 10/17 02:07真的管制誰在用演算法的那個人才是關鍵

→

yunf 10/17 02:09你們要想想在這個賽局最後

→

yunf 10/17 02:09投入那麼多

→

yunf 10/17 02:10你能否真的完全擁有一個堪用的機器人?

→

yunf 10/17 02:10還是又是幫人養老婆?

→

yunf 10/17 02:11這些資料庫雲端都不是台灣本身的技術台灣都是搞些

→

yunf 10/17 02:11有名無實的代工

→

Zepho 10/17 03:44例如球發射後卡在天花板照你說的訓練機器人永遠

→

Zepho 10/17 03:44不可能找到方法把球拿下來

→

yunf 10/17 03:59沒有什麼是永遠的

→

yunf 10/17 03:59不過我想到的事情你還沒想到

→

yunf 10/17 03:59你是否能擁有一個堪用的機器人?

→

yunf 10/17 04:00說不定20年後你都還等不到你想要的那種

→

yunf 10/17 04:0220年後你的主權還剩多少?

→

yunf 10/17 04:03你懂他們真的想要的是什麼嗎?

噓

Coslate 10/17 04:21現在一堆做MBRL 唸書很難？

推

molopo 10/17 06:16用講的很簡單

噓

KuoJia 10/17 06:27哪裡沒有？對岸也都在做你可能是指agi強人工智慧吧

→

KuoJia 10/17 06:27？

→

WenliYang 10/17 06:44機器人世界還早得很死前都不會發生

噓

SilverFocus 10/17 07:05怎麼會有人天真的覺得只有自己想到？

→

dildoe 10/17 07:55連搞遊戲都有逆運動了何不用現成的？XD

噓

neon7134 10/17 08:17典型的沒資本沒腦袋還一天到晚以為人家都想不到我

→

neon7134 10/17 08:17的方法好笨

噓

ian41360 10/17 08:30機器人：把亂丟球的猴子殺了就不用撿球了

噓

kkes0001 10/17 08:42多看點論文

→

kkes0001 10/17 08:42蠢不是問題，問題是不會查資料

→

auther 10/17 08:49google 的桌球機器人 paper 就是這樣啊

推

ohlong 10/17 09:31RL沒有比學真人來得快像tesla這次vr操控機器人的

→

ohlong 10/17 09:31方式其實也是可以拿來建data去training

噓

JJiaK 10/17 09:49你怎麼知道沒有?

推

jimmytzeng 10/17 11:00強化學習用在機器人上已經很多人在做了呀

推

gogogogo333310/17 12:25llm/vlm is based on RLHF for long time.

→