大模型超长文本能力测评

作者：大模型超长文本能力测评

👨‍💻为综合衡量当前国内外长文本大模型发展水平，本次测评选取了2个海外大模型和8个国内代表性大模型。 ‼️测评要点1：GPT-4o处于领先地位，但仍有较大提升空间GPT-4o-2024-05-13取得68.39分，领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分，仍有较大的提升空间。可见，当前长文本任务对大模型仍是较大挑战。 ‼️测评要点2：国内大模型在长文本能力上正在不断接近全球领先水平国内大模型Moonshot(kimi)取得66.79分，暂列国内第一，稍落后GPT-4o-2024-05-13有1.6分。豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4 turbo仅随其后，均有超过64分的表现。 ‼️测评要点3：不同大模型在不同维度上各有优势通过测评数据可以发现，不同模型擅长的二级维度任务不同。例如，豆包在长文本的数理分析任务中表现最好，Moonshot(kimi)擅长全文摘要和线索摘要，360gpt2-pro-360k则在内容创作助理中表现最好。 ‼️测评要点4：部分大模型会随长度提升而出现性能损失不同模型在不同长度区间的稳定性有较大差异。GPT-4o-2024-05-13和Moonshot(kimi)在不同长度文本上表现稳定，而部分模型则存在较大波动，性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。 #人工智能 #大模型 #AIGC #测评 #kimi #gpt4 #openai #ai #科技 #排行榜

文章详情

大模型超长文本能力测评