腾讯联合智源发布升级版长文本理解基准测试模型—LongBench v2

AI资讯1个月前发布 快创云
33 0

LongBench v2模型地址

在2024年12月19日的一场盛大发布会上,腾讯携手智源研究院,共同揭晓了LongBench v2——这一专为大型语言模型(LLMs)量身定制的长文本理解基准测试平台。LongBench v2的问世,标志着我们在探索长文本多任务深度理解与推理能力的道路上迈出了坚实的一步,直击当前长文本大语言模型在实际应用中面临的核心挑战。

LongBench v2以其卓越的性能和独特的设计脱颖而出,它不仅能够处理长达8k至2M词的超长文本,更包含了503道精心设计的四选一选择题,这些题目难度颇高,即便是人类专家在15分钟内也只能达到53.7%的平均准确率。这一基准测试全面覆盖了单文档问答、多文档问答、长文本语境学习等六大任务类别,确保了其在多种应用场景下的广泛适用性。

LongBench v2以其卓越的性能和独特的设计脱颖而出

在构建LongBench v2的过程中,我们尤为注重评估的严谨性和可靠性。所有问题均采用了多项选择题的形式,并经历了严格的人工标注和审核流程。我们特别邀请了来自顶尖学府的标注员参与,以确保问题的高质量和高难度。同时,通过对原始Bradley-Terry统计算法进行改进,并引入控制变量,我们成功降低了混淆因素的影响,使得模型排名更加科学、精准。

在评估环节,我们对10个开源LLMs和6个闭源LLMs进行了全面测试。结果显示,引入控制变量后,模型的表现得到了显著提升。特别是GPT-4o模型,在引入更多推理步骤后,其在多文档问答和长文本语境学习等任务上展现出了非凡的实力,充分彰显了推理能力对于提升模型性能的重要性。

LongBench v2以其卓越的性能和独特的设计脱颖而出1

LongBench v2的推出,不仅为大语言模型的评估提供了一把崭新的“尺子”,更为未来的研究指明了方向。它强调了提升模型自身理解和推理能力的紧迫性,为AI技术的发展注入了新的活力。智源研究院与腾讯的强强联手,无疑将在AI技术领域掀起一股新的浪潮。我们期待LongBench v2能够成为推动长文本理解和推理技术进步的重要力量,为AI的未来发展贡献更多智慧与力量。

模型地址:https://longbench2.github.io

论文地址:https://arxiv.org/abs/2412.15204

数据与代码地址:https://github.com/THUDM/LongBench

© 版权声明

相关文章