江西财经大学人工智能评测研究院-AAAI 2026人工智能会议“求索”LMBench大模型测试基准研究成果总结

AAAI 2026人工智能会议“求索”LMBench大模型测试基准研究成果总结

来源：时间：2026-03-11 15:23:08 阅读量：

AAAI 2026人工智能会议（The 40th Annual AAAI Conference on Artificial Intelligence）作为CCF推荐的A类国际会议，汇聚了全球人工智能领域的前沿成果与顶尖力量，此次会议接收了“求索”LMBench大模型测试基准相关研究论文。作为中西部地区首个人工智能质检中心，江西省人工智能质量检验检测中心（简称江西省人工质检中心）密切关注该会议及相关研究成果，结合中心大模型质检核心职能，对论文核心内容及“求索”LMBench基准相关情况进行系统总结，为中心后续规范开展大模型质检工作、完善质检标准体系提供重要参考。

当前，大模型评测基准数量持续增加，但榜单排名常出现不一致，且评测数据集缺乏足够区分能力，无法准确反映模型真实能力差异，这一行业痛点不仅制约大模型产业规范化发展，也对人工智能质检工作提出了更高要求，与江西省人工质检中心的核心工作高度相关。该研究论文从心理测量学角度重新审视大模型评测问题，提出PSN-IRT（Pseudo-Siamese Network for Item Response Theory）分析框架，将经典项目反应理论与神经网络结构相结合，用于分析和优化大模型基准测试。该框架核心是同时建模“模型能力”与“题目特征”，通过伪孪生网络学习二者交互关系，利用项目反应理论进行概率建模，既能估计题目难度、区分度等属性，也能揭示不同模型的真实能力差异。研究团队在12个国内外主要大模型与11个基准测试上开展系统实验，结果表明当前评测基准存在结构性问题：数据集难度上限偏低，难以区分高性能模型；题目猜测率高、可行性低，暗示存在数据污染或设计缺陷，这一发现揭示了现有基准的不稳定性，也验证了PSN-IRT框架的优势。此外，PSN-IRT可通过Fisher信息筛选代表性题目，仅用1000道题即可复现与人类偏好高度一致的模型排名，为大模型评测提供了更高效、低成本、科学公平的路径，也为江西省人工质检中心提升质检效率、降低质检成本提供了重要借鉴。

“求索”LMBench大模型测试基准是电子标准院依托《人工智能大模型》系列国家标准构建的大模型国家标准符合性测试基准，其标准化体系对江西省人工质检中心对接国家标准、规范质检流程具有重要指导意义。目前，已发布3项通用大模型国家标准，包括GB/T 45288.1-2025、GB/T 45288.2-2025、GB/T 45288.3-2025，另有多项专项大模型国家标准正在研制，同时相关单位正推进30余项大模型相关标准研制工作，持续扩充LMBench基准覆盖范围，这与江西省人工质检中心推动大模型质检标准化、助力江西人工智能产业高质量发展的目标高度契合。

此次AAAI 2026会议接收相关研究论文，彰显了我国在大模型评测领域的研究实力与创新成果。江西省人工质检中心作为中西部首个人工智能质检中心，将以该论文成果及“求索”LMBench基准为重要借鉴，吸纳先进评测技术与方法，完善大模型质检标准体系、提升质检专业能力，推动中心质检工作与国家标准接轨，立足江西产业实际，为我省人工智能产业高质量发展提供专业、精准的质检支撑，助力我国大模型产业规范有序发展。

分享到：QQ空间新浪微博腾讯微博人人网微信