AAAI 2026人工智能会议“求索”LMBench大模型测试基准研究成果总结

来源: 时间:2026-03-11 15:23:08 阅读量:
  

    AAAI 2026人工智能会议(The 40th Annual AAAI Conference on Artificial Intelligence)作为CCF推荐的A类国际会议,汇聚了全球人工智能领域的前沿成果与顶尖力量,此次会议接收了“求索”LMBench大模型测试基准相关研究论文。作为中西部地区首个人工智能质检中心,江西省人工智能质量检验检测中心(简称江西省人工质检中心)密切关注该会议及相关研究成果,结合中心大模型质检核心职能,对论文核心内容及“求索”LMBench基准相关情况进行系统总结,为中心后续规范开展大模型质检工作、完善质检标准体系提供重要参考。

    当前,大模型评测基准数量持续增加,但榜单排名常出现不一致,且评测数据集缺乏足够区分能力,无法准确反映模型真实能力差异,这一行业痛点不仅制约大模型产业规范化发展,也对人工智能质检工作提出了更高要求,与江西省人工质检中心的核心工作高度相关。该研究论文从心理测量学角度重新审视大模型评测问题,提出PSN-IRT(Pseudo-Siamese Network for Item Response Theory)分析框架,将经典项目反应理论与神经网络结构相结合,用于分析和优化大模型基准测试。该框架核心是同时建模“模型能力”与“题目特征”,通过伪孪生网络学习二者交互关系,利用项目反应理论进行概率建模,既能估计题目难度、区分度等属性,也能揭示不同模型的真实能力差异。研究团队在12个国内外主要大模型与11个基准测试上开展系统实验,结果表明当前评测基准存在结构性问题:数据集难度上限偏低,难以区分高性能模型;题目猜测率高、可行性低,暗示存在数据污染或设计缺陷,这一发现揭示了现有基准的不稳定性,也验证了PSN-IRT框架的优势。此外,PSN-IRT可通过Fisher信息筛选代表性题目,仅用1000道题即可复现与人类偏好高度一致的模型排名,为大模型评测提供了更高效、低成本、科学公平的路径,也为江西省人工质检中心提升质检效率、降低质检成本提供了重要借鉴。

    “求索”LMBench大模型测试基准是电子标准院依托《人工智能 大模型》系列国家标准构建的大模型国家标准符合性测试基准,其标准化体系对江西省人工质检中心对接国家标准、规范质检流程具有重要指导意义。目前,已发布3项通用大模型国家标准,包括GB/T 45288.1-2025、GB/T 45288.2-2025、GB/T 45288.3-2025,另有多项专项大模型国家标准正在研制,同时相关单位正推进30余项大模型相关标准研制工作,持续扩充LMBench基准覆盖范围,这与江西省人工质检中心推动大模型质检标准化、助力江西人工智能产业高质量发展的目标高度契合。

    此次AAAI 2026会议接收相关研究论文,彰显了我国在大模型评测领域的研究实力与创新成果。江西省人工质检中心作为中西部首个人工智能质检中心,将以该论文成果及“求索”LMBench基准为重要借鉴,吸纳先进评测技术与方法,完善大模型质检标准体系、提升质检专业能力,推动中心质检工作与国家标准接轨,立足江西产业实际,为我省人工智能产业高质量发展提供专业、精准的质检支撑,助力我国大模型产业规范有序发展。