5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主|天天快播
来源:澎湃新闻 发布时间:2023-03-08 18:10:50

“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时间里,AI能够在大多数人类目前从事的工作上表现得比人类更好。”在ChatGPT发布前一个月,OpenAI联合创始人、ChatGPT项目的主要负责人John Schulman在强化学习播客《TalkRL》上说道。

AGI似乎并不遥远,但对于如何通向AGI,目前研究者都还在探索。就在近日,一个新的研究成果发布——用视觉数据来增强语言处理能力。它的表现令人惊喜,展示出了强大的涌现能力(模型有不可预测的表现)。


(资料图片)

北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。

“PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。

论文的第一作者、谷歌AI研究员Danny Driess的推文。

在这个意义上,随着时间推移,深度学习模型变得越来越复杂,PaLM-E似乎延续了“产生惊喜”的这个趋势。

PaLM-E(Pathways Language Model with Embodied )是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化(embodiment,与身体联系紧密的状态)”。由于它基于语言模型,PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作,ViT-22B已经接受过各种视觉任务的训练,例如图像分类、对象检测、语义分割和图像字幕。

谷歌并不是唯一一个致力于使用神经网络进行机器人控制的研究小组。这项特殊的工作类似于微软最近的“ChatGPT for Robotics”论文,该论文尝试以类似的方式将视觉数据和大型语言模型结合起来进行机器人控制。

作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。

根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E可以为一个有手臂的移动机器人平台(由谷歌机器人开发)生成一个行动计划并执行自己的行动。

PaLM-E通过分析来自机器人相机的数据来实现这一点,而无需对场景进行预处理。这消除了人类预处理或注释数据的需要,并允许更自主的机器人控制。它还具有弹性,可以对环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取薯片袋,而且,通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。

在另一个示例中,相同的PaLM-E模型通过具有复杂序列的任务自主控制机器人,这些任务以前需要人工指导。谷歌的研究论文解释了PaLM-E如何将指令转化为行动:

我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。机器人需要根据人类的指令规划一系列导航和操纵动作。例如,给出指令“我把饮料弄洒了,你能给我拿点东西来清理吗”,机器人需要规划一个包含“1. 找到海绵,2. 捡起海绵,3. 拿来,4.放下海绵”的序列给用户。受这些任务的启发,我们开发了3个用例来测试PaLM-E的具身推理能力:可供性预测、故障检测和长期规划。

研究人员写道,PaLM-E也是一种“有效的视觉语言模型”。例如,它可以识别图像中的篮球明星科比·布莱恩特,并可以生成关于他的文本信息,比如他赢得了多少次冠军。在另一个例子中,PaLM-E看到一个交通标志并解释与之相关的规则。

除了机器人技术,谷歌研究人员还观察到一些有趣的效果,这些效果显然来自PaLM-E的核心——大型语言模型。PaLM-E表现出了“正迁移”能力,即它可以将从一项任务中学到的知识和技能迁移到另一项任务中,从而与单任务机器人模型相比具有“显着更高的性能”。

此外,他们还观察到模型规模的趋势:语言模型越大,在视觉语言和机器人任务训练时就越能保持其语言能力——从数量上讲,562B PaLM-E模型几乎保留了其所有的语言能力。

谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。

“多模态”已成为一个流行语,我们可能会越来越多地听到这个词。因为很多公司正在研发看起来能够像人类一样执行一般任务的通用人工智能。

(文章来源:澎湃新闻)

标签:

上一篇:

下一篇:

猜你喜欢

5620亿参数!谷歌发布史上最大“通才”AI模型 可

【5620亿参数!谷歌发布史上最大“通才”AI模型可让机器人更自主】北京时间3月7日,谷歌和柏林工业...更多

2023-03-08 18:10:50

世界视点!全国政协委员、格科微董事长赵立新:建

3月8日,全国政协委员、格科微电子(上海)有限公司董事长、首席执行官赵立新在接受《证券日报》记者...更多

2023-03-08 18:09:24

辽宁省5家企业入选国家级企业技术中心 入选数量

记者3月8日从辽宁省发展改革委获悉,辽宁5家企业近日入选国家级企业技术中心,入选数量创新高。据悉...更多

2023-03-08 16:49:23

乘联会:湖北推出限时购车补贴政策,短期或将对中

3月8日,乘联会发布报告指出,3月有23个工作日,是节后生产消费的黄金期。由于国内疫情防控取得完全...更多

2023-03-08 16:52:39

云南玉溪90后夫妻用鲜花创造“美丽经济”_全球速讯

“三八”国际妇女节来临,鲜花市场持续火爆。拼多多数据显示,三八节前这周的鲜花销售额环比与同比...更多

2023-03-08 16:48:01

全球科技领域的她力量 | “ChatGPT的创造者”米

北京时间3月8日,世界迎来第113次三八国际劳动妇女节,这是世界各国妇女争取和平、平等、发展的节日...更多

2023-03-08 15:56:02

焦点播报:揪心!24小时四架飞机相撞 遇难人数仍

事故出得很频繁!最近,时不时会有飞机事故发生。刚刚过去的24小时,就有两对飞机相撞。当地时间7日...更多

2023-03-08 16:07:30

当前快播:专访全国政协委员商文江:破解高校毕业

南财集团全国两会报道组记者王峰北京报道过去一年,我国就业形势总体保持稳定。政府工作报告中指出...更多

2023-03-08 14:55:44

全国人大代表张伟:建议将慢阻肺病纳入国家公卫服

为实现“全民健康”这一根本目标,我国健康中国行动正积极促进以治病为中心向以健康为中心转变,在...更多

2023-03-08 14:51:25

刘焕彬院士:产业数字化节能降碳是企业实现高质量

南方网讯(记者 覃玲见习记者 刘裕华)党的二十大报告提出,“推动经济社会发展绿色化、低碳化是实...更多

2023-03-08 14:47:29