中文大模型基准测评2025年上半年报告

16542 次浏览

详情

2025年上半年，中文大模型领域持续发展，经历技术引爆与生态构建、多模态与深度推理拓展、智能体崛起与AGI探索三阶段。国内外模型差距缩小，2025年7月通用基准测评中，国内外第一梯队差距从5月的10.42%缩至7.78%。

7月通用测评涵盖数学推理等六大任务，1288道新题。总榜中，OpenAI的o3以73.78分夺冠，o4-mini(high)、Gemini-2.5-Pro紧随其后。国内方面，字节跳动的Doubao-Seed-1.6-thinking-250715以68.04分位列全球第四、国内第一。

国内外模型各有优劣，海外在推理任务领先，o3和o4-mini(high)得分超75分，国内顶尖的DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715超65分，但差距近10分。国内开源模型优势显著，DeepSeek-R1-0528等包揽开源榜前三，海外最好成绩仅46.37分。国内模型在智能体Agent和幻觉控制任务表现佳，Doubao-Seed-1.6-thinking-250715在智能体任务领跑全球，幻觉控制任务也位居前列。Qwen3系列小参数量模型表现亮眼。

模型象限分为潜力探索者、技术领跑者、实用主义者、卓越领导者，o3等属卓越领导者。性价比上，国内头部模型更高，海外头部模型性价比低。综合效能方面，国外头部模型居高效能区，国内仅SenseNova V6 Reasoner接近。

专项测评中，Agent系列、多模态系列、文本系列、推理系列、性能系列各有亮点与不足。国内大模型成熟度指数显示，数学推理等为中成熟度，幻觉控制等为低成熟度。

总体而言，国内大模型进步明显，部分领域赶超海外，但推理等核心能力仍需提升，未来需在基础理论、技术创新等方面持续发力。