吊打斯坦福炒虾机器人！GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

新智元报道

编辑：编辑部

【新智元导读】机器人的ChatGPT时刻，真来了！初创公司Figure自家机器人看了10小时视频，学会了煮咖啡。另一边，东京大学GPT-4加持的Alter3机器人，能够模仿人类做出任何动作。而人类只需发出自然语言指令即可，完全不需要编程！

机器人，本周果然迎来了ChatGPT时刻！初创公司Figure，就做出了一个能学人类煮咖啡的机器人。就在昨天，Figure创始人在社交平台上，提前预告了自家实验室取得的重大突破。而东京大学则让GPT-4和仿人机器人Alter3相连。人类只要给出自然语言命令，GPT-4就能把这些指令转换为可执行的代码，让机器人模仿人类做出任何动作，包括弹吉他、自拍、扮鬼等等，甚至还能去电影院偷别人的爆米花。心情很闲适，喝杯茶。拿着吉他玩摇滚。假装我是一条蛇。来张自拍，像网红们一样摆出俏皮浮夸的表情。在电影院边吃爆米花边看电影，忽然发现，自己吃的是别人的爆米花，顿时尴尬地笑起来。

看人类煮咖啡10小时，学会这项技能

名叫Figure 01的这个机器人，采用的是端到端的人工智能系统。它只需观察人类煮咖啡的录像，就能在10小时内学会制作咖啡的技能。这个机器人是通过神经网络来处理和分析视频数据的。通过观看录像，它能够学会人类的动作和手势，然后模仿这些动作，来学习制作咖啡的过程。这个过程证明了，无需通过编程，机器人完全可以自主学习技能！只要跟它说：Figure 01，你可以帮我做一杯咖啡吗？它就会把咖啡胶囊放入机器内，用手按按钮，过不了多久，一杯香气四溢的咖啡就做好了！这个过程中难能可贵的一点是，机器人能学习如何改正自己的错误，比如咖啡胶囊放得不对，它就会矫正自己。Brett Adcock解释了视频数据训练为何如此重要的原因。之所以说这具有开创性意义，是因为如果你能获得某个应用的人类数据（如煮咖啡、叠衣服、仓库工作等），就可以在Figure 01的基础上对AI系统进行端到端的训练。这是可以扩展到每种应用的一种方式。当机器人数量扩大时，从机器人群中收集更多数据，重新进行训练，机器人就能实现更好的性能。值得一提的是，许多网友对机器人冲咖啡的速度表示惊讶。官方对此回应称，视频并没有加速。

东京大学的扮鬼机器人

而东京大学的这个人形机器人，之前就曾经因栩栩如生的「扮鬼」行为而出圈过。东京大学的研究人员，把这个叫做Alter3的仿人机器人和GPT-4相连。利用指令，它就可以完成一系列人类行为，比如弹吉他、自拍、扮鬼等等，甚至可以去电影院偷吃别人的爆米花。这个过程中，LLM将书面指令转换为可执行的代码，从而让机器人模仿出多种人类的动作。从视频效果上看，属实是吊打了最近风头正劲的斯坦福家务机器人。也就是说，Alter3之所以能戏精上身，将「鬼」模仿得如此出神入化，还是因为GPT-4的prompt给得好啊！「0 创造恐惧的睁大眼睛的面部表情，张开嘴巴发出无声的尖叫」，「1 迅速向后倾斜，仿佛被突然的幻影吓了一跳」， 「2 举起双手，在脸上挥舞，模仿幽灵般的动作」， 「3 张大嘴巴摇头，表现出恐惧的戏剧性反应」， 「4 将上半身从一侧移动到另一侧，仿佛被幽灵的存在所困扰」， 「5 双手握在胸前，表现出极度焦虑」， 「6 眼睛从一边瞟到另一边，仿佛目睹了一场诡异的活动」，「7 先前倾，然后后倾，模仿鬼魂的漂浮动作」， 「8 慢慢回到休息位置，同时保持惊恐的表情」

通过代码，将人类动作映射到机器人身上

Alter3是怎样使用LLM生成自发运动的呢？具体过程，就是将GPT-4集成到了Alter3中，从而有效地将GPT-4与Alter的身体运动结合起来。通常，低级机器人控制是依赖于硬件的，这超出了LLM语料库的范围，这给直接基于LLM的机器人控制带来了挑战。不过，研究者在Alter3上，实现了突破——通过程序代码，他们将人类动作的语言表达映射到机器人的身体上，这就让直接控制变得可行了。这种方法无需对每个身体部位进行显式编程，直接就可以让Alter3采用各种姿势，比如自拍或扮鬼，还能随着时间的推移生成一系列动作。这充分证明了机器人的零样本学习能力。甚至，口头反馈都可以调整机器人的姿势，无需微调。比如，用GPT-4告诉机器人，「播放金属音乐」，它就接收到了信息，开始有模有样地弹起了电吉他，脑袋还跟着节奏晃动。「0 创造一种强烈兴奋的面部表情，睁大眼睛，微微张开嘴巴，露出狂野的笑容」， 「1 积极地向前倾斜，仿佛准备潜入音乐中」， 「2 模仿左手握住吉他琴颈的动作」，「3 用右手开始弹奏空气，仿佛在演奏沉重的即兴演奏」，「4 有节奏地上下摇晃头部，模仿与金属音乐相关的甩头动作」， 「5 举起左手，仿佛伸手去弹更高的吉他音符，眼睛锁定在想象中的指板上」，「6 用右手模仿戏剧性的吉他弹奏，仿佛击中有力的和弦」，「7 右手在假想的吉他弦上慢慢扫过，模仿吉他独奏」， 「8 模仿将想象中的吉他砸在地板上的动作，体现金属音乐的狂野精神」， 「9 逐渐恢复到休息姿势，但保持激烈的面部表情，表现出挥之不去的兴奋」

LLM把人类从迭代工作中解放出来

在LLM出现之前，为了让机器人模仿一个人的姿势，或者及假装一种行为，比如端茶、下棋，研究人员必须按照一定的顺序控制所有的43个轴。这个过程中，需要人类研究员手动进行许多改进。多亏了LLM，现在人类研究者可以从迭代的工作中解放了出来。只要使用口头指令，就能控制Alter3的程序了。研究者先后应用两个用自然语言编写的思维链协议，并不需要学习过程的迭代（也就是零样本学习）。如图所示，研究人员使用了以下协议。需要注意的是，GPT-4是非确定性的（non-deterministic)，即使在$$temperature=0.$$时也是如此。因此，即使输入相同，也可以产生不同的运动模式。

使用口头指令控制Alter3人形机器人的程序。通过使用Prompt1、2输出python代码，从而使用自然语言控制Alter3，这个架构是基于CoT的

语言反馈

Alter3无法观察自己的世代对任何物理过程产生的影响，这在人类意义上是非常不自然的。因此，Alter3无法准确理解「手举多高」等细节，也就无法相应地改进自己的动作。通过经验性地通过反馈来开发和利用外部记忆，Alter3的身体模型可以与GPT-4集成，而无需更新其参数。现在，Alter3可以根据人类的语言反馈重写代码。比如，用户建议「自拍时手臂抬高一点」，然后Alter3就可以将修改后的动作代码作为动作记忆存储在数据库中。这样就能确保下次生成该动作时，机器人会使用经过改进和训练的动作。通过这种反馈，机器人就积累了有关自己身体的信息，记忆就可以有效地充当一个身体图示。上图说明了Alter3中的语言反馈系统。这个过程中，用户会提供语言反馈，来指导Alter3在每个运动分段中的调整，比如「将轴16设置为255」或「更有力地移动手臂」。在这个过程中，用户只需提供口头指令，无需重写任何代码，然后，Alter3就会自动修改相应的代码。一旦动作被完善，它就会被保存在一个带有描述性标签的JSON数据库中，例如「握住吉他」或「深思熟虑地敲击下巴」。对于使用prompt2生成动作，JsonToolkit有助于数据库搜索这些标签，LLM会决定内存使用和新动作的创建。textbf{(b)}比较有反馈和没有反馈的分数，有反馈的运动比没有反馈的运动得分更高。

结果

为了量化GPT-4生成动作的能力，研究人员评估了9种不同生成动作的视频，将其分为两类。第一种情况是「即时手势」，包括「自拍」和「喝茶」等日常动作，以及「扮鬼」和「扮蛇」等模仿动作。第二种情况是一段时间内的动作，包括更复杂的情景。就比如「在影院边吃爆米花边欣赏电影时，发现自己吃的其实是旁边人的爆米花」这样的尴尬情节，以及「在公园里慢跑时，世界似乎在讲述一个古老的生存故事，每一个脚步声都回荡着亘古不变的存在」这样的情感场景。这些动作均由GPT-4生成。提示1的温度设置为$0.7$，提示2的温度设置为$0.5$。受试者（$n=107$）是通过Prolific平台招募的。他们观看了这些视频，并对GPT-4（gpt-4-0314）的表达能力进行了评估（评估采用5级评分法，1为最差）。在对照组中，研究人员采用了Alter3的随机动作，并附加了由GPT-4生成的随机动作符号作为这些动作的标记。这些贴有标记的对照视频被巧妙地纳入调查，其中3个被分散在向参与者展示的主要实验视频中。为了确定对照视频与其他视频之间的评分是否存在显著差异，研究团队首先采用了弗里德曼检验法（Friedman test）。结果显示，不同视频之间的评分存在明显差异。使用奈曼尼检验（Nemenyi test）进行的进一步事后分析表明，虽然对照组视频之间的p值没有显著差异，但对照组与其他视频相比，p值明显更小，这表明存在显著差异（见图）。因此，与对照组相比，GPT-4生成的动作评分明显更高。这表明，GPT-4生成的android动作与对照组的感知不同。这一结果表明，该系统可以生成各种动作，从自拍、喝茶等日常动作到模仿鬼或蛇等非人类动作。

每个动作的平均评估分数LLM的训练包括一系列动作的语言表征。GPT-4可以将这些表征准确地映射到Alter3的身体上。最值得注意的是，Alter3是一个与人类形态相同的仿人机器人，这使得GPT-4可以直接应用有关人类行为和动作的丰富知识。此外，通过Alter3，LLM可以表达尴尬和喜悦等情绪。即使在没有明确表达情绪的文本中，LLM也能推断出适当的情绪，并在Alter3的表现中反映出来。这种语言和非语言交流的整合可以增强与人类进行更细致入微、更富同情心的互动的潜力。

LLM可以推动具身智能

Alter3如此高能的演示，回答了「具身智能对于LLM是否是必要的」这个问题。首先，Alter3不需要额外的训练就能完成许多动作。这意味着，训练LLM的数据集已经包含了动作描述。也就是说，Alter3可以实现零样本学习。此外，它还能模仿鬼魂和动物（或模仿动物的人），这一点非常惊人。甚至，它还能理解听到的对话内容，并通过面部表情和手势反映出故事是悲伤还是快乐。至此，Alter3通过LLM获得的加持，已经非常明显了。参考资料：https://tnoinkwms.github.io/ALTER-LLM/?continueFlag=bcae05c73de8a193cf0ec0b4e1046f97https://twitter.com/Figure_robot/status/1743985067989352827?t=lMaAK1frDFSgyjuaE5KyOw&s=19

2024 年 1 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

吊打斯坦福炒虾机器人！GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

新智元报道

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定