用多模态世界模型预测未来！

智能体如何从不同的语言中理解世界？近日，来自UC伯克利的研究人员提出了一种全新的AI智能体，可以通过对未来进行多模态世界建模来学习理解语言。

现在，基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。

但人类大部分时间的语言表达，却远远超出了指令的范围。比如：「我们好像没有牛奶了」......

而智能体想要学习这类语言在世界中的含义，是非常困难的。

对此，来自UC伯克利的研究团队认为，我们实际上可以利用这些语言，来帮助智能体更好地对未来进行预测。

论文地址：https://arxiv.org/pdf/2308.01399.pdf

具体来说，研究人员提出了一种全新的智能体——Dynalang。

与仅用语言预测动作的传统智能体不同，Dynalang通过使用过去的语言来预测未来的语言、视频和奖励，从而获得丰富的语言理解。

除了在环境中的在线交互中学习外，Dynalang还可以在没有动作或奖励的情况下在文本、视频或两者的数据集上进行预训练。

也就是说，新的智能体这时再听到「我们没有牛奶了」，就能get到这句话意思是「冰箱里的牛奶喝完了」。

工作原理

使用语言来理解世界自然而然地适合于世界建模范式。

Dynalang以基于模型的RL智能体DreamerV3为基础，并可利用其在环境中动作时所收集到的经验数据，不断地进行学习。

左：世界模型在每个时间步将文本和图像压缩为潜在表征。在这个表征中，模型被训练以重构原始观察结果，预测奖励，并预测下一个时间步的表征。直观地说，世界模型学会了在给定文本中所读内容的情况下，应该期望在世界中看到什么。

右：Dynalang通过在压缩的世界模型表征基础上训练策略网络来选择动作。它在世界模型的想象中反复进行训练，从而学会采取最大化预测奖励的动作。

图片新闻