腾讯联合智源发布升级版长文本理解基准测试模型—LongBench v2

在2024年12月19日的一场盛大发布会上，腾讯携手智源研究院，共同揭晓了LongBench v2——这一专为大型语言模型（LLMs）量身定制的长文本理解基准测试平台。LongBench v2的问世，标志着我们在探索长文本多任务深度理解与推理能力的道路上迈出了坚实的一步，直击当前长文本大语言模型在实际应用中面临的核心挑战。

LongBench v2以其卓越的性能和独特的设计脱颖而出，它不仅能够处理长达8k至2M词的超长文本，更包含了503道精心设计的四选一选择题，这些题目难度颇高，即便是人类专家在15分钟内也只能达到53.7%的平均准确率。这一基准测试全面覆盖了单文档问答、多文档问答、长文本语境学习等六大任务类别，确保了其在多种应用场景下的广泛适用性。

在构建LongBench v2的过程中，我们尤为注重评估的严谨性和可靠性。所有问题均采用了多项选择题的形式，并经历了严格的人工标注和审核流程。我们特别邀请了来自顶尖学府的标注员参与，以确保问题的高质量和高难度。同时，通过对原始Bradley-Terry统计算法进行改进，并引入控制变量，我们成功降低了混淆因素的影响，使得模型排名更加科学、精准。

在评估环节，我们对10个开源LLMs和6个闭源LLMs进行了全面测试。结果显示，引入控制变量后，模型的表现得到了显著提升。特别是GPT-4o模型，在引入更多推理步骤后，其在多文档问答和长文本语境学习等任务上展现出了非凡的实力，充分彰显了推理能力对于提升模型性能的重要性。

LongBench v2的推出，不仅为大语言模型的评估提供了一把崭新的“尺子”，更为未来的研究指明了方向。它强调了提升模型自身理解和推理能力的紧迫性，为AI技术的发展注入了新的活力。智源研究院与腾讯的强强联手，无疑将在AI技术领域掀起一股新的浪潮。我们期待LongBench v2能够成为推动长文本理解和推理技术进步的重要力量，为AI的未来发展贡献更多智慧与力量。

模型地址：https://longbench2.github.io

论文地址：https://arxiv.org/abs/2412.15204

数据与代码地址：https://github.com/THUDM/LongBench

AI资讯 # AI大模型推理能力 # AI技术发展 # LongBench v2 # 大型语言模型（LLMs）# 模型长文本理解

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

腾讯联合智源发布升级版长文本理解基准测试模型—LongBench v2

电商产品试穿神器Krea AI推出创新功能：一键融合真实产品至任意图像

每日AI资讯12月20日

相关文章

OpenAI新模型「草莓」即将亮相被认为是ChatGPT今年重大升级之一

AI监管时代来临财富巨头如何应对挑战

AI加持，新药开发成功率翻倍

70亿LLaMA媲美5400亿PaLM，MIT惊人研究用“博弈论”改进大模型

网址

AMiner

豆包

AIPaperPass

AI范文

讯飞智检

星火网文助手

热门网址

畅问AI

星火网文助手

标书制作

有声小说

Huawei Enterprise: Accelerate Industrial Intelligence

慧星云

通答AI

滴文

快写红薯通AI

火山写作