上海财经大学周帆团队发布统计领域大语言模型评测基准 StatEval

发布者：严继臧发布时间：2025-10-11浏览次数：341

近日，上海财经大学统计与数据科学学院周帆教授团队正式发布 StatEval，这是全球首个专注于评估大语言模型（LLM）统计推理能力的综合性基准，旨在系统测评模型在统计理论与推理方面的表现。该基准共包含16,191道题目，覆盖“基础知识”与“研究前沿”两大层次，形成从本科到博士及科研级任务的完整评测体系。

数据集概况

StatEval沿用“难度轴”和“学科轴”组织题目，覆盖统计、概率、计量及机器学习等交叉领域，实现从本科到博士及研究前沿的全方位评估。

基础知识数据集共包含 13,817 道题目，系统覆盖从本科到研究生阶段的统计核心内容，涵盖概率论、统计学和机器学习三大领域及多个子方向。数据集包含1,517道选择题以及 12,300道开放式问答题，包括计算、简答以及证明题目。题目主要来自：（1）45本经典教材，覆盖完整课程体系；（2）千余道经过人工核验的研究生入学考试与精选习题；（3）国际一流大学公开课程与优质在线公开资源。

研究级数据集共包含 2,374 道题目，精选自 2020–2025 年间18本顶尖统计及相关领域学术期刊（范围如下图所示）的2,719篇研究论文，涵盖统计学、概率论、机器学习等多个前沿领域。题目以理论推导与证明型任务为主，源自论文中的定理、引理与命题，聚焦于具有明确量化目标的研究问题，如常数求解、收敛率分析、分布形式推导及误差界计算等，充分保留了真实科研推理的复杂性与严谨性。数据集在学科结构上沿用了基础知识数据集的分类体系，并扩展为8个研究方向，包括因果推断与实验设计、高维数据建模、深度学习与强化学习等。同时引入基于理论性质类型的二级分类体系，涵盖收敛性、分布性质、泛化与误差界等8类理论结果。

数据构建框架

StatEval 的数据处理框架旨在实现大规模、自动化、高可靠度的统计数据构建与质量控制，采用多智能体协同架构，结合大模型推理，实现高效、精准、可迭代优化的数据生成流程：

1. 文件转换Agent：负责将多源文档（PDF、扫描稿、LaTeX 等）统一转换为结构化文本，借助多模态模型完整保留数学符号与公式结构；

2. 上下文分割Agent：利用大模型驱动的动态正则匹配框架，自动识别定理、引理及其上下文定义与假设，生成语义自洽的理论片段；

3. 题目生成Agent：在推理优化模型的支持下，将提取内容重构为符合严格标准的问答对，确保题目具备适当难度、信息完整、唯一答案与可量化验证；

4. 质量控制Agent：独立复核每个问答对的逻辑一致性与理论严谨性，筛除潜在错误。

最后，通过人类专家的最终审查与反馈回路，系统不断吸收高质量示例以提升各代理的表现，实现自动化与专业人工监督的有机结合。

评估框架

StatEval采用四阶段的过程化评分流水线，从推理过程到最终结论进行细粒度评估：首先识别模型回答中的关键推理步骤与逻辑链条；其次提取每一步的中间结果或符号表达；随后由独立的大模型评审器（LLM Judge）对比参考解，检验逻辑正确性、推理充分性及一致性；最后按“推理准确度”“步骤完整性”“最终答案正确性”三维度赋分，并按权重聚合为总分。为提高稳健性，系统以不同随机种子重复三次评估，取最低分作为最终结果。

实验结果

团队评估了国内外知名开闭源模型如GPT系列、Gemini系列、Deepseek系列和Qwen系列等。

在基础知识数据集上，各类大语言模型在本科与研究生两个层面均表现出明显差异。总体来看，闭源模型在各学科方向上均显著优于开源模型，其中GPT-5以平均分82.85 位居首位，展现出最强的综合统计推理能力。开源阵营中，Qwen3-235B 取得76.96的整体均分，逐渐缩小与闭源模型的差距，而 LLaMA-3.1-8B 与 DeepSeek-V3.1 等模型整体表现偏弱，说明模型规模、训练优化与统计教育领域适配性仍是影响基础推理表现的关键因素。

在研究级数据集上，相较于基础数据集，大模型的总体表现都呈现了显著的下降趋势，不同模型在复杂推理任务中的差距进一步扩大。闭源模型，尤其是GPT-5系列，在所有子领域及理论性质任务中均保持领先地位。其中，GPT5-mini及其优化版本的综合得分接近60分，展现出初步合格的高阶推理与理论验证能力。相比之下，开源模型如Qwen等整体表现较弱，但在概率与分布性质相关任务中显示出一定潜力。

从各领域具体表现来看，模型在概率与统计类问题上表现最佳，而机器学习相关推理任务仍具挑战性。在理论性质层面，GPT-5在“可辨识性与一致性”以及“检验有效性”方面表现较为突出，而Gemini则在“分布性质”与“结构保证”相关任务中具备一定优势。从评测结果来看，目前所有主流大模型在处理统计推理任务及满足科研级别的证明能力方面，仍难以达到理想水平。

总而言之，StatEval的发布标志着统计领域LLM评测的重大突破，即便是顶尖闭源模型在研究级任务上仍存在挑战，尤其是在高阶机器学习理论方面，凸显了提升LLM统计推理能力的必要性和潜力，同时为未来统计AI工具研发提供参考与标准。

StatEval 已正式开放，欢迎对大模型感兴趣的老师，同学以及各位学界与业界伙伴与周帆教授联系，后续课题组将继续推出更多大模型领域的科研成果。

网站主页：https://stateval.github.io

论文地址：https://gitee.com/StatEval/StatEval/raw/main/StatEval_V1.pdf

StatEval 数据集现已正式在 Hugging Face 平台开放获取

若该项目对您的研究工作有帮助，欢迎为其点赞👍——您的认可将助力项目进一步推广与完善！

基础知识数据集：

https://huggingface.co/datasets/0v01111/StatEval-Foundational-knowledge

研究级数据集：

https://huggingface.co/datasets/0v01111/StatEval-Statistical-Research

联系邮箱：zhoufan@mail.shufe.edu.cn