|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯 1 g; @ X. \+ W
1 R; H: J8 {- p讓GPT-4操縱人形機(jī)器人,事先不做任何編程or訓(xùn)練,能搞成啥樣兒?( |3 X% S5 G3 R- e; o( ] _+ A5 V
( Q/ h5 q& K0 G* y4 x; R) f' J答案是:太 獵 奇 了!" D& \2 X0 x! m4 L: _& g$ T
% H& b# ?, A) h I- Q$ E這不,要求機(jī)器人表演“在昏暗電影院里狂炫爆米花,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的😅”。. N1 Y! _* C" k E1 t& v
) P- H7 P- {: k
在GPT-4的操縱下,機(jī)器人笑容凝固,“尷尬”得搖頭扶額后仰: J9 O/ N/ v( ^* | Y4 H
9 |5 i. S. y% o
) a: U6 T* W6 D' Y
2 H/ h% R0 x+ \ 但在尷尬之余,竟然還不忘再抓一把塞嘴里???又像是要求機(jī)器人“彈吉他”。! O" G Q& R0 h+ M" n- Q
. b3 ^# i6 i3 k+ ~
GPT-4略思考一番,開始操控機(jī)器人活動一番手指、隨后瘋狂甩頭,好像是有點(diǎn)搖滾內(nèi)味兒。但仔細(xì)一看,甩頭的時候,手指就完全不動了……2 ^* T" M) A% k& Q' K' ~+ i0 }
$ o# E" k4 B( `( X8 n
6 ]+ ^: b, l% B; g& X: C4 c 你要說這是神叨叨的地攤先生在掐指一算,好像也沒什么不對(手動狗頭)。. A1 `/ P) C& i* C
' t. Q2 P% w i ]* G; b) D
總結(jié)一系列動作來看——) N9 x' B7 p& Q3 N4 k
8 L9 i, R7 a6 |5 }) g# y8 a相比波士頓動力人形機(jī)器人,一舉一動均由人為程序精細(xì)操縱,這個GPT-4直接操控的機(jī)器人,表情猙獰,動作詭異,但一切行為又符合prompt的要求。8 f2 v4 P+ z; K) h x% z
6 l4 P$ w( B( ~2 l6 @
: [5 {; J3 ^3 D R& G
" x+ m* B# N, Y 這一連串GPT-4操控機(jī)器人的視頻po到網(wǎng)上后,不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”:% f- I5 h5 s5 {" s, p' w6 [7 k
4 w0 F2 l0 G8 J& y' d- y原來,這是首個由GPT-4驅(qū)動人形機(jī)器人的研究,來自東京大學(xué)和日本Alternative Machine公司。 7 f2 W9 Q* |4 A( v# X; V
[2 {1 y# y6 V$ G2 d- a% z, ~ p' b
依靠這項研究,用戶無需事先給機(jī)器人編程,只需語言輸入、也就是動動嘴皮和GPT-4聊上一會兒,就能讓機(jī)器人根據(jù)指令完成行動。. L4 {. s% D2 i& v6 a- t* `
" g2 [$ Z: y9 z6 E1 ? % l9 S! r% l+ a" R% ^
. G9 A$ c0 O& C3 K
來具體講講把GPT-4和Alter3集成到一起,是如何實現(xiàn)的。# @3 x- _, Y: e' K8 b/ L
" J" E3 V( X: R4 r7 y; `/ l/ H
大體可以分為兩個步驟:
1 U# ~( e6 w n( G: n4 b& i6 U% e3 d/ e* |. |5 E$ z4 A$ C
首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動作,比如“咱來張自拍吧”“自拍的時候胳膊再舉高一點(diǎn)”。+ P0 L$ v D o2 x
0 r5 { r6 f' _接收到輸入的GPT-4會生成一系列的思考步驟,這些步驟詳細(xì)地闡述了要完成這個動作,需要先后完成些啥。- c$ x7 v" s0 P* H
7 a1 a& \1 b- K& V/ ~
這個過程被研究團(tuán)隊稱為CoT的一部分,即將一個復(fù)雜任務(wù)分解為一串更簡單的思考步驟。
~( W3 W0 T3 u$ w4 j9 ~
& o5 \2 W f0 Z( {- H# q9 }然后,研究者們再祭出另一個prompt,把分解后的詳細(xì)步驟轉(zhuǎn)化為Alter3可以聽懂的動作指令。- R. R* a( I3 ?4 Z+ _4 G
$ w9 B6 O5 o6 }7 T, c
簡單理解就是把人們的指令描述轉(zhuǎn)化為Python代碼,這些代碼可以直接用來控制Alter3的各個身體部位的具體運(yùn)動參數(shù)。
: l% m. g# V" F" A( e# y% ?4 h4 @
有了轉(zhuǎn)化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,想撇嘴就能撇嘴
' f1 e# l l& o) Y# _' J4 }8 Q0 ~+ v0 D2 m
研究團(tuán)隊把這第二步也看成CoT的一部分,因為它完成的是“把一個抽象描述轉(zhuǎn)化為具體操作”。# U& ^1 l1 }+ q
% V# d2 F4 n- g+ y! G' Z2 }
& D& J: G0 i) H- W1 _0 k. j
( V# ?) i* l" a) [ 團(tuán)隊表示,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復(fù)雜動作,且不用額外的訓(xùn)練或者微調(diào)。
% X' z" T; ~2 x! {, O6 `* K
, E) P: X5 G. j# v多說兩句,除了上述的兩個Prompt搞定機(jī)器人控制外,研究團(tuán)隊還順手完成了一些其它研究。
& j4 o; _- a0 P
1 W* w, ~+ O J' M% e比如掰開了看Alter3在對話中的行為,主要針對其對話軌跡和語義時間演化。$ ]5 P6 p) v5 F0 _, R' Y5 t
3 }1 T2 d6 Y8 \ n3 t5 j' d
針對對話軌跡,研究團(tuán)隊使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團(tuán)隊把對話內(nèi)容嵌入二維空間,從而方便觀察這個簡化版的對話發(fā)展過程。
' |9 ]% o# k! x d& b, Z
' e" {: ?& y" G% u& m# u他們發(fā)現(xiàn),當(dāng)對話順序固定時,對話軌跡會呈現(xiàn)循環(huán)模式,也就是老在重復(fù)同樣的話題。 h2 E; F# v9 O1 H
0 Q3 v' M3 h/ W' P0 w' n而當(dāng)對話順序隨機(jī)時,對話內(nèi)容更有發(fā)散性or創(chuàng)造性。# j6 P/ U; |) E) ?; w: ]0 e) E/ S; j
' Y, @0 _6 R" U$ A; c
賊有趣的一點(diǎn),研究發(fā)現(xiàn)GPT-4聊久了過后,會傾向于反復(fù)說“再見”。如果你不來點(diǎn)兒人為干預(yù),它就會沉迷于想辦法跟你說再見。
! G+ Q0 g ]5 Y! P' s* j/ v0 G! w9 Q
而做語義時間演化分析的過程中,團(tuán)隊觀察了隨著時間變化,聊天內(nèi)容的變化。- N9 g3 M8 \/ ^
7 w7 ^. G" I/ ~
他們發(fā)現(xiàn),對話初期的一些關(guān)鍵詞,比如“藝術(shù)”或者“學(xué)習(xí)”啥的,會聊著聊著就被GPT-4忘了,取而代之的是諸如“文化”“人類”“抑制”之類的詞。
$ x( b) X$ L: |& B
) q6 l1 ?7 M+ z9 E! B) d$ Z這表明對話內(nèi)容是在逐漸發(fā)展變化的。! P8 p- _ H( v. v7 H7 G
; H6 |7 d' P' t+ M' T
當(dāng)然,如果你開始跟GPT-4說“再見”,它就幾乎一心一意只想跟你說byebye~(doge)
- |' W( e* I# i/ ~$ s$ S
7 w( I3 m% F9 ]' Z/ t! j# R這項火爆全網(wǎng)的研究,來自東京大學(xué)和日本Alternative Machine公司。4 z Z4 k, X. ~, L) \
" `" k8 P @- S+ W一作Takahide Yoshida,來自東京大學(xué)通用系統(tǒng)科學(xué)系。5 r6 v7 N# D; q" Z; J
$ u/ c* z* n: d* d* D6 Q3 H% u2 K
另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在東京大學(xué),又屬于Alternative Machine公司。
$ @& s3 N* L5 M
# l j I1 U' D9 b2 A - l) X5 S3 x# _+ z7 u, ^; I
. c- Z* z0 L7 N! W( v 最后,不得不提到本次研究內(nèi)容的主人公Alter3,它的幕后研究者也來自東京大學(xué),由東京大學(xué)AI研究學(xué)者池上高志和日本“機(jī)器人之父”石黑浩聯(lián)袂打造。8 m* c5 K$ L( I$ O' v3 K; |1 G, k7 I
! M( F8 C3 e) I! w4 U6 Z* o
Alter3出生于2020年,是同系列機(jī)器人第三代產(chǎn)品。
; F* B+ U; a P+ [& a* c
1 b4 o& p# S2 E% ~4 o/ c; E: e據(jù)了解,Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國立劇場指揮管弦樂隊并參加其他現(xiàn)場表演。$ ?) T9 m! @! ~, Z& h7 y! J5 V
4 r3 x8 K9 J% M; |0 y- E
0 @; \# t6 e5 M6 c2 P% v* H
0 t7 d& z3 |$ D( G3 Q+ t 那個時候它的特色是增強(qiáng)了傳感器,并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)。 p( I7 D: b. r+ I/ U% Y1 v$ @3 t9 |
( |1 Z' J% g; V" _以及身體里那粒能夠最終驅(qū)動43個氣動裝置的CPG。- E" v6 l4 N/ ?! Q2 Y* l3 U
! i: Z: [# A: c4 q! C
CPG對數(shù)據(jù)的分析靈敏到什么程度呢?就是如果Alter3呆的房間里如果溫度驟降,Alter3會因此打個冷顫,表示自己有被冷到。
6 t; q, q- T. s5 z
5 U. j8 v: f5 P0 z5 F
" a, q v( u# B4 C! `這或許也為現(xiàn)在接入GPT-4當(dāng)腦子后的它,能夠活靈活現(xiàn)做表情、完成動作提供了一些基礎(chǔ)吧。
! k- O9 b- D, i( d* m9 O' Z% W
7 e8 `8 Z: T) v5 {- t* H: A& \& f% r4 w5 @1 L
|
|