红杉中国发布xbench,全球首家投资机构定义的AI基准测试

AI快讯网5月26日消息,红杉中国于今天正式推出一款全新的AI基准测试工具xbench(xbench.org),并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》。

首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测结果和方法论可通过xbench.org网站实时查看。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!