刷题

人工智能

专治大模型”刷题”！贾佳亚团队新基准，GPT-4得分不到50

涵盖多个学科，难度等级也有区分 MR-Ben团队投稿AI快讯网 | 大模型测试能拿高分，实际场景中却表现不佳的问题有解了。贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让…

2024年 7月 18日