28365bet体育在线:李飞飞团队最新论文:提出新网络,学习新策略,让AI通过视觉观察实现因果归纳

对于AI来说,因果推理能力同样很重要。随着深度学习模型在各个领域取得巨大成功,其缺失因果推理能力的问题也逐渐暴露。没有正确的因果模型,这些机器学习方法的泛化就很成问题,给图像生成说明的模型有时候会生成一些脱离实际的说明文字。

比如说,进入一个有许多灯的陌生房间,在不事先了解布线的情况下,就得先试试各个开关,理清开关和灯之间的对应关系。

AI触发开关的第一阶段,就是因果归纳。在这一阶段,智能体通过执行动作并观察结果,来发现潜在的因果关系。

第一阶段,李飞飞团队采用因果归纳模型,根据智能体的观察数据构建因果结构,即随机变量的有向无环图。

从原始的感官观察中归纳出因果结构,需要准确地捕捉每个行为对环境的独特影响,同时考虑其他行为的混杂影响。

研究团队假设,最能概括因果关系的归纳网络将是一个能分解单个动作及其对应效果的网络,并且只更新因果图的相关成分。

在迭代模型中,首先假设因果结构的边缘权重为0,并将观测数据的每个帧映射到一个编码。

这些数据被喂给边缘解码器模块,该模块负责预测边缘更新,以及用于衡量边缘更新如何应用于节点的注意力向量。

第二阶段,使用因果结构将目标条件策略置于背景之中,以执行指定目标的任务。因果结构的构造是显式的,在long-horizon任务中,新的问题实例能更好地泛化。

研究团队提出了基于注意力的图编码的目标条件策略。

这一策略的目的是给定一个初始图像,一个目标图像,以及预测的因果结果,在规定时间步长内完成既定目标。

输入数据是当前图像,目标图像和预测因果图。假设最佳策略专注于学习因果图中与当前任务步骤相关的边缘。

将当前图像和目标图像进行编码。基于这一编码,输出因果图中“效果”上的注意力向量,从而提取相关边缘。然后,将其与图像编码对应起来,预测最终动作。

对于人类而言,做出这样的预测并不难,以特定目的为导向,了解一个人的目的,就能推测他要去哪儿要做什么。

论文的另一位作者是Yuke Zhu是斯坦福SVL实验室的一员,该实验室由李飞飞,Silvio Savarese和JuanNiebles主导。

留下评论