|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯 2 d+ u, I- U( W+ `: E6 ?
, g: H( z. Y7 d* w" c$ n讓GPT-4操縱人形機器人,事先不做任何編程or訓練,能搞成啥樣兒?
. a; u% T7 I& x8 |5 _8 r. S2 M" Q9 {& T, x; t; I1 O0 M! A
答案是:太 獵 奇 了!, q* g' a6 `6 I2 H5 u: S9 I, F; _) \
. \6 y& D$ B; Z
這不,要求機器人表演“在昏暗電影院里狂炫爆米花,卻突然發現吃的是隔壁陌生人的😅”。# i- A a/ Z3 c9 v% h
$ q- g# {( G$ H2 I8 C, V" e# ~在GPT-4的操縱下,機器人笑容凝固,“尷尬”得搖頭扶額后仰:! X4 ^' V: r* u0 Q5 [
) k! i t, ~# K P4 h) F
. q: m1 [2 N C6 }' j6 Y
5 Z4 E, T: I2 G2 T9 o2 ] 但在尷尬之余,竟然還不忘再抓一把塞嘴里???又像是要求機器人“彈吉他”。$ g: p; T& q, w% C0 Y5 f; f# e
; A- W+ w' ^* P
GPT-4略思考一番,開始操控機器人活動一番手指、隨后瘋狂甩頭,好像是有點搖滾內味兒。但仔細一看,甩頭的時候,手指就完全不動了……
0 B/ X# ^$ a1 I( n- L& g
" \8 L# w. k: o7 l9 V; Y3 a6 g N" V1 b% s" s& k
你要說這是神叨叨的地攤先生在掐指一算,好像也沒什么不對(手動狗頭)。
: S4 R9 F, Y+ P) y6 Y
' D5 l% z* K7 z, |6 l. f總結一系列動作來看——
0 o$ E+ Z- |+ d2 A( k F! }
# T; _7 b& ?1 t# D. T1 T& ?1 N2 r" ~相比波士頓動力人形機器人,一舉一動均由人為程序精細操縱,這個GPT-4直接操控的機器人,表情猙獰,動作詭異,但一切行為又符合prompt的要求。
, k0 B+ U6 Q; |8 O# r" m8 G/ h
4 b& P" m# `; ^3 H. {9 \9 O1 l+ \8 b
3 g9 {7 @; L# ^4 p# z' Q2 V& V% ^& v$ D7 r3 W
這一連串GPT-4操控機器人的視頻po到網上后,不少網友直呼“恐怖谷效應犯了”:
% r9 k( q! m e5 U" c5 u, ]
5 f0 C0 q( k* q: R: {* Y, e$ i原來,這是首個由GPT-4驅動人形機器人的研究,來自東京大學和日本Alternative Machine公司。 1 G. b# j% D: `! s1 ^% g# C0 [
5 a% f, R$ ]& M) v- |6 Y
( y. Z2 y5 g& }0 h7 |4 S& z* } 依靠這項研究,用戶無需事先給機器人編程,只需語言輸入、也就是動動嘴皮和GPT-4聊上一會兒,就能讓機器人根據指令完成行動。
$ N- l) |6 B5 t; F& Q" p% ~3 q! d
0 e$ i) B4 g1 M" @3 T
" Y4 Q0 t4 \" w& G6 E: \ 來具體講講把GPT-4和Alter3集成到一起,是如何實現的。
% F2 Z) ~! o- X7 F# |3 }1 ^/ ], F7 k8 P6 @4 U5 y3 H
大體可以分為兩個步驟:! d% R; h, C( \9 e* o
4 g- F K9 n' i4 g1 M2 G
首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動作,比如“咱來張自拍吧”“自拍的時候胳膊再舉高一點”。' a9 n; M* H% @0 t
0 Q' I x9 m. i7 n& ^5 J接收到輸入的GPT-4會生成一系列的思考步驟,這些步驟詳細地闡述了要完成這個動作,需要先后完成些啥。+ q4 b# X9 c7 I1 x" L) V& _0 y: i
) Z6 @+ y% V+ A7 l
這個過程被研究團隊稱為CoT的一部分,即將一個復雜任務分解為一串更簡單的思考步驟。* V! }- Q6 m% M! U! h# D
# L/ ]6 T1 D, z7 i) |) Y7 a: T' b% u1 C然后,研究者們再祭出另一個prompt,把分解后的詳細步驟轉化為Alter3可以聽懂的動作指令。- s# \7 {" p, \- s, P, I; e
" A: l7 V- e# \3 j簡單理解就是把人們的指令描述轉化為Python代碼,這些代碼可以直接用來控制Alter3的各個身體部位的具體運動參數。1 X+ S1 w Y$ P% n: |- ^
( t5 N+ J2 R: v6 i2 {1 S
有了轉化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,想撇嘴就能撇嘴
7 t+ m/ p& d7 e. R
+ z9 I9 s. y9 N1 n: z7 B2 c研究團隊把這第二步也看成CoT的一部分,因為它完成的是“把一個抽象描述轉化為具體操作”。5 C* ~) D' J7 G% G; ~+ F
* m0 G5 v f9 R) w6 K- t
# \% U& W. w7 p8 P5 \ a
) `9 |/ D- v6 z0 h 團隊表示,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復雜動作,且不用額外的訓練或者微調。
# n# |8 S1 b3 k' O: F/ @
$ u9 ^$ N& _" U# \8 r& P# k# d7 Q# I多說兩句,除了上述的兩個Prompt搞定機器人控制外,研究團隊還順手完成了一些其它研究。
$ z( ^2 E4 D0 e" T4 l; ?1 n; Q% G* J( D6 G! q' V) Y
比如掰開了看Alter3在對話中的行為,主要針對其對話軌跡和語義時間演化。: L- t- S# o |& Y8 J0 U$ h
" V# n" ~- Z" k6 w. ]5 o8 Y
針對對話軌跡,研究團隊使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團隊把對話內容嵌入二維空間,從而方便觀察這個簡化版的對話發展過程。
9 S8 m& t6 M% G3 ^- n; `6 ]( b
- i, [* I/ K G( q# H3 J8 P5 J他們發現,當對話順序固定時,對話軌跡會呈現循環模式,也就是老在重復同樣的話題。2 r. Y, W: w7 B z) n
9 _1 e* B1 K7 S- t3 ]3 q而當對話順序隨機時,對話內容更有發散性or創造性。
j+ i2 `6 m* D
& `0 s% V& E2 ~* p. Y) k# A賊有趣的一點,研究發現GPT-4聊久了過后,會傾向于反復說“再見”。如果你不來點兒人為干預,它就會沉迷于想辦法跟你說再見。8 t; j3 x9 e& p' z
- [8 ^; E; A' n' }6 B7 B/ }) z而做語義時間演化分析的過程中,團隊觀察了隨著時間變化,聊天內容的變化。
8 p" ~0 q2 Z* W5 c5 E' o5 y8 p9 J9 ?0 s" s6 p
他們發現,對話初期的一些關鍵詞,比如“藝術”或者“學習”啥的,會聊著聊著就被GPT-4忘了,取而代之的是諸如“文化”“人類”“抑制”之類的詞。' h& \9 m* |" `3 q
# v% p) \- x# N; q6 v這表明對話內容是在逐漸發展變化的。$ V4 T! i% L1 O2 T6 m+ V
; g3 p7 g- X, _( [, t# I9 c
當然,如果你開始跟GPT-4說“再見”,它就幾乎一心一意只想跟你說byebye~(doge)9 a, ]8 j9 x7 j; Q+ O! e( h
5 h2 R9 }$ K. M4 c6 i/ Z/ C這項火爆全網的研究,來自東京大學和日本Alternative Machine公司。
! l0 L1 ~/ @" H/ D1 R f4 s8 r5 X+ p U7 y$ [) z0 p* v; y5 S
一作Takahide Yoshida,來自東京大學通用系統科學系。
" w$ j8 h* z) \8 f5 z
+ a) v' U2 i+ i7 o) Y. h1 G另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在東京大學,又屬于Alternative Machine公司。
7 V: `/ t- ]7 [# M- ~- t$ K- _% f2 ?; m R) T
1 V0 Z& n& @0 E" |7 z
7 Y2 H3 |8 ]) n* h) L8 l. r
最后,不得不提到本次研究內容的主人公Alter3,它的幕后研究者也來自東京大學,由東京大學AI研究學者池上高志和日本“機器人之父”石黑浩聯袂打造。: F! M5 E; h* F9 N
7 i1 d, F( U" U- Q3 d4 H' }
Alter3出生于2020年,是同系列機器人第三代產品。
8 `6 [& B# r+ ~1 k) Z A" i1 Y" k/ B2 D
據了解,Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國立劇場指揮管弦樂隊并參加其他現場表演。3 i" j) \0 r4 F; n2 J9 k5 p" a
5 f* F$ x* R4 c. o3 ~7 M1 Y- b) L9 t
7 @8 J9 ] g( O5 e
" ^4 f |# k) }% Q 那個時候它的特色是增強了傳感器,并改善了唱歌的表達能力和發聲系統。
" Q4 |9 b# g; Q7 D$ t+ { L1 k7 C% {- t7 E1 [$ P$ a. r/ O
以及身體里那粒能夠最終驅動43個氣動裝置的CPG。+ J+ `" Y [8 s. f* w6 l
/ a; K4 z. m0 @, ^7 Y5 q
CPG對數據的分析靈敏到什么程度呢?就是如果Alter3呆的房間里如果溫度驟降,Alter3會因此打個冷顫,表示自己有被冷到。2 S8 b5 ~4 U/ s! ^2 ~
+ p: C5 }, J F/ a
$ ~3 c6 e, r4 \7 n5 ?, ], \這或許也為現在接入GPT-4當腦子后的它,能夠活靈活現做表情、完成動作提供了一些基礎吧。% a5 x* ~2 U8 K
& t* j# W Q6 ?9 a0 ?$ l" u) M0 G
# W1 _4 R, S [/ S |
|