IBM Research 创建了衡量 AI 的新基准：AGENT

2021年10月11日 12:26 | 阅读 1002 次

IBM Research 宣布创建了 AGENT，一个评估 AI 模型核心心理推理能力或常识的基准。“它将使我们能够构建和测试 AI 模型，以与人类相同的方式推理和学习其他思维。”

IBM 研究软件工程师 Abishek Bhandwaldar 和 MIT 博士后 Tianmin Shu 在一篇博客中表示，“我们已经在构建可以推断心理状态、预测未来行为甚至与人类合作伙伴合作的 AI 代理方面取得了进展。然而，我们还缺乏一个严格的基准来评估人工智能模型的核心心理推理能力 —— 它的常识。”

基于此，他们创建并验证了 AGENT（Action、Goal、Efficiency、constraint、uTility）基准。AGENT 被用于挑战两个基线模型，并使用 IBM 开发的专注于泛化的协议评估了它们的性能。结果表明，该基准可用于评估任何 AI 模型的核心心理推理能力；以了解其社会意识以及在现实世界中与人类互动的潜力。

根据介绍，AGENT 是一个大型 3D 动画数据集，其中包含在各种物理约束下移动并与各种对象交互的代理；灵感来自探索幼儿认知发展的实验。这些视频中包含了不同的试验，每个试验都包括一个或多个代理在特定物理环境中的典型行为的“familiarization”视频，以及同一代理在新环境中的行为的“test”视频；鉴于 agent 在相应的熟悉视频中的行为，这些视频则被标记为"expected"或"surprising"。

这些试验评估了一组最小的关键常识概念，这些概念被认为是幼儿核心心理学的一部分。试验分为四种情况：目标偏好、行动效率、未观察到的约束和成本回报权衡。每个场景都有几个变体或类型，基本版本复制婴儿研究中使用的刺激，以及更多样化和更具挑战性的其他设置。

更多详情可查看官方博客。

(文/开源中国)