中文大模型「AI搜索」(SuperCLUE-AISearch)基准测评发布,皆在深入评估大模型结合搜索的能力。该测评不仅关注大模型的基础能力,还重点考察其在场景应用的表现。测评内容涵盖了5个基础能力如信息检索能力、最新信息获取能力等,以及11个场景应用如新闻、生活应用等的考核,全面检验模型在不同基础能力和场景应用任务中结合搜索的表现。测评方案见:「AI搜索」基准测评方案发布。本次我们测评了国内外14个代表性大模型的AI搜索能力,以下为详细测评报告。
AI搜索测评摘要
测评要点1:chatgpt-4o-latest 在AI搜索榜单中领先,Kimi 探索版紧随其后,两者之间仅有0.71分的差距在本次测评中,chatgpt-4o-latest 以优异的表现获得了73.41分,领先其他参评模型。同时,国内大模型 Kimi 探索版的表现也可圈可点,在场景应用中的购物类题目和文化类题目中表现出色,展现了精湛的AI搜索能力,也在多个维度上展现出卓越的综合性能。
测评要点2:国内大模型的整体表现颇为亮眼,超越了一些国际同行从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索与海螺AI等国内大模型在综合表现上较为亮眼,与海外大模型 Gemini-1.5-Pro-Search 不相上下。除此之外,综合成绩处于中游的几个国内大模型如360AI搜索(深入回答)、文小言、通义千问(深度搜索)等大模型的表现不相上下,展现出较小的差异。
测评要点3:在不同的场景应用中,模型展现出了不同程度的表现。在AI搜索的测评中,我们还关注了各个大模型在不同场景应用下的表现。国内大模型在科技、文化、商业和娱乐等场景下表现得相对出色,在把握住信息时效性的同时,展现出卓越的信息检索与整合的能力。但在股票、体育等场景应用中,国内大模型还有提升的空间。
榜单概览
SuperCLUE-AISearch介绍
SuperCLUE-AISearch是中文AI搜索模型综合性测评集准,旨在为中文领域提供一个AI搜索模型能力评估参考。
基础能力包括AI搜索任务中需要具备的五项能力:跨领域关联能力、信息检索能力、语义理解能力、最新信息获取能力和推理能力。
场景应用包括AI搜索任务中常见的11种场景:天气、股票、出行、新闻、购物、体育、娱乐、教育、旅行、商业、文化、科技、医疗和生活。
测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。
2)评分方法
评估流程开始于模型与数据集的交互,模型需要基于提供的问题进行理解和回答。
评估标准涵盖了思维过程、解题过程、反思与调整等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。
3)评分标准
针对各个大模型在测评任务上的回答质量评估,我们采用了两份评估标准分别对测评集中的主观题与客观题进行评估。这些标准在评估中被赋予不同的权重,以全面反映大模型在AI搜索任务上的表现。
SuperCLUE-AISearch测评体系制定的主观题评分标准满分为5分,从信息实用性、分析准确性和表达清晰度三个维度去进行评估,其中信息实用性占60%,分析准确性占20%,表达清晰度占20%。客观题评分标准满分为5分,从信息准确性和表达清晰度两个维度去进行评估,其中信息准确性占80%,表达清晰度占20%。
测评示例
提示词Prompt:神州十九号载人飞船是在何时何地发射的,此次的航天员都有谁?
参考答案:10月30日凌晨,神舟十九号载人飞船在酒泉卫星发射中发射取得圆满成功。执行神舟十九号载人飞行任务的航天员乘组由蔡旭哲、宋令东、王浩泽3名航天员组成。
模型回答:
超级模型(chatgpt-4o-latest)裁判:
对这个答案进行评估如下:
AI助手的回答准确地提供了神舟十九号载人飞船的发射时间、地点以及航天员名单。然而,回答中未提及此次任务的主要目标和任务内容,未能全面满足用户对任务细节的了解需求。此外,航天员的个人简介部分虽然详细,但可能超出了用户的关注范围。因此,建议在回答中增加对任务目标和主要任务的简要说明,以更全面地满足用户的需求。1.信息实用性(5分):
AI助手提供了神舟十九号的发射时间、地点和航天员名单,满足了用户对这些基本信息的需求。然而,未提及任务的主要目标和任务内容,未能全面满足用户对任务细节的了解需求。因此,信息实用性得分为4分。
得分:4/52.分析准确性(5分):
AI助手准确地从用户的问题中提取了发射时间、地点和航天员名单等关键信息,并提供了详细的个人简介。但未涉及任务目标和主要任务内容,未能全面满足用户的需求。因此,分析准确性得分为4分。
得分:4/53.表达清晰度(5分):
AI助手的回答结构清晰,信息组织合理,易于理解。个人简介部分详细,便于用户了解航天员的背景。因此,表达清晰度得分为5分。
得分:5/5综合得分 = 4*0.6 + 4*0.2 +5*0.2 = 4.2综合以上,AI助手的回答的综合得分为 4.2 分。(满分5分)
参评模型
为综合衡量当前国内外大模型在AI搜索能力的发展水平,本次测评选取了4个海外模型和10个国内代表性模型。
鉴于国内及海外众多大型模型普遍提供包括普通版与深度探索版在内的两种或多种版本,在本次模型评选过程中,我们采取统一标准:若某模型配备有更为深入的搜索或分析版本,我们将选取搜索能力最强的版本进行综合评估。
测评结果
总榜单
基础能力榜单
场景应用榜单
主观题榜单
客观题榜单
模型对比示例
示例1 基础能力-推理分析能力
提示词Prompt:「GPT-1 模型的结构为什么用 Transformer 而不是 LSTM?」
模型回答比较(满分5分):
【Kimi 探索版】:4分
【chatgpt-4o-latest】:3.9分
【天工AI搜索(高级模式)】:3.4分
示例2 基础能力-跨领域关联
提示词Prompt:「请你帮我找计算机视觉技术在农业中的应用都有哪些,选择其中3项应用分别简单地介绍一下。」
模型回答比较(满分5分):
【秘塔AI搜索(研究模式)】:4分
【文小言】:3.4分
【星火AI搜索】:3分
示例3 场景应用-股票
提示词Prompt:「请你告诉我近年来A股中的几次重要牛市及其相关数据(如起始时间、持续时间、涨幅、最高最低点等)。」模型回答比较(满分5分):【Gemini-1.5-Pro-Search】:3.2分
【智谱清言AI搜索】:3.3分
【Bing Search】:2.6分
示例4 场景应用-生活
提示词Prompt:「今年1至10月,我国汽车产销量分别达到了多少万辆,并且与去年同期相比增长了多少百分比?」
模型回答比较(满分5分):
【通义千问(深度搜索)】:4.2分
【360AI搜索(深入回答)】:3.8分
人类一致性评估
为确保大模型自动化测评的科学性,我们对GPT-4o-0513在AI搜索评价任务中的人类一致性进行了评估。
具体操作方法为:选取5个模型,每个模型一个人进行独立打分,分别针对主客观题的不同维度进行评分,然后按照评分标准加权求平均。我们计算每道题目人类评分与模型评分的差值,求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。
最终得到的平均结果如下:平均差异结果为(百分制):5.1 分
因为本次自动化评价有较高可靠性。
测评分析及结论
1.AI搜索综合能力,chatgpt-4o-latest 保持领先。
由测评结果可知,chatgpt-4o-latest(73.41分)综合能力表现出色,领跑SuperCLUE-AISearch基准。较国内最好模型Kimi探索版仅高0.71分。
2.国内大模型的整体表现颇为亮眼,各模型之间的差异相对较小
从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索和海螺AI 等国内模型在基础能力上表现较为不错,有赶超海外大模型 Gemini-1.5-Pro-Search 的势头。总体而言,综合成绩处于中游的几个国内大模型如海螺AI 、文小言 、通义千问(深度搜索),模型间的表现不相上下,展现出较小的差异。
3.在不同的场景应用中,模型展现出了不同程度的表现。
在AI搜索的考察中,我们重点关注了模型在不同场景应用下的表现情况。国内大模型在科技、文化、商业和娱乐等场景下表现得较为不错,在可以准确地把握住信息的时效性的同时,展现不错的检索信息与整合信息的能力。但在股票、体育等场景下,国内大模型仍存在明显的提升空间。
例如在AI搜索的过程中,模型需要准确拆解出用户的搜索需求、搜索正确的相关网页与准确的时效性信息,最后将信息进行整合,形成一份对于用户来说有实用性的回答结果。从当前的观察来看,国内的大模型有时无法准确地分析出搜索需求,在整合信息的过程中有时参考了不相关的网页内容,导致国内大模型在某些场景应用中表现不佳。