首都青年网 |
  • 手机客户端
  • 微信
您的位置:首页 > 舆情 > 正文
最新:微软华人团队发布全新基准AGIEva AI考公指日可待
来源: 2023-05-11 12:14:26


(资料图)

微软研究人员发布了一个新的基准测试AGIEval,用于评php估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。

实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。

论文链接:https://arxiv.org/pdf/2304.06364编程客栈.pdf

数据链接:https://gjsithub.com/microsoft/AGIEval

AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。

随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。 AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。

评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关android重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。

关键词

图片新闻
最近更新
Copyright @ 2008-2023 www.sdqnw.net All Rights Reserved 首都青年网 版权所有
文章采集互联网,为了传递信息,如有出处与本站无关。 非本站原创,系由网友自助上传或转载、采编于其它媒体,不代表本站的观点和和看法,一切责任由发布者承担,与本站无关!
版权文章处理
联系方式:QQ  39 60 29 14 2 @qq.com  备案号:皖ICP备2022009963号-20