导读: 2025年上半年,中文大模型领域持续发展,经历技术引爆与生态构建、多模态与深度推理拓展、智能体崛起与AGI探索三阶段。国内外模型差距缩小,2025年7月通用基准测评中,国内外第一梯队差距从5月的10.42%缩至7.78%。
7月通用测评涵盖数学推理等六大任务,1288道新题。总榜中,OpenAI的o3以73.78分夺冠,o4-mini(high)、Gemini-2.5-Pro紧随其后。国内方面,字节跳动的Doubao-Seed-1.6-thinking-250715以68.04分位列全球第四、国内第一。
国内外模型各有优劣,海外在推理任务领先,o3和o4-mini(high)得分超75分,国内顶尖的DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715超65分,但差距近10分。国内开源模型优势显著,DeepSeek-R1-0528等包揽开源榜前三,海外最好成绩仅46.37分。国内模型在智能体Agent和幻觉控制任务表现佳,Doubao-Seed-1.6-thinking-250715在智能体任务领跑全球,幻觉控制任务也位居前列。Qwen3系列小参数量模型表现亮眼。
模型象限分为潜力探索者、技术领跑者、实用主义者、卓越领导者,o3等属卓越领导者。性价比上,国内头部模型更高,海外头部模型性价比低。综合效能方面,国外头部模型居高效能区,国内仅SenseNova V6 Reasoner接近。
专项测评中,Agent系列、多模态系列、文本系列、推理系列、性能系列各有亮点与不足。国内大模型成熟度指数显示,数学推理等为中成熟度,幻觉控制等为低成熟度。
总体而言,国内大模型进步明显,部分领域赶超海外,但推理等核心能力仍需提升,未来需在基础理论、技术创新等方面持续发力。
7月通用测评涵盖数学推理等六大任务,1288道新题。总榜中,OpenAI的o3以73.78分夺冠,o4-mini(high)、Gemini-2.5-Pro紧随其后。国内方面,字节跳动的Doubao-Seed-1.6-thinking-250715以68.04分位列全球第四、国内第一。
国内外模型各有优劣,海外在推理任务领先,o3和o4-mini(high)得分超75分,国内顶尖的DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715超65分,但差距近10分。国内开源模型优势显著,DeepSeek-R1-0528等包揽开源榜前三,海外最好成绩仅46.37分。国内模型在智能体Agent和幻觉控制任务表现佳,Doubao-Seed-1.6-thinking-250715在智能体任务领跑全球,幻觉控制任务也位居前列。Qwen3系列小参数量模型表现亮眼。
模型象限分为潜力探索者、技术领跑者、实用主义者、卓越领导者,o3等属卓越领导者。性价比上,国内头部模型更高,海外头部模型性价比低。综合效能方面,国外头部模型居高效能区,国内仅SenseNova V6 Reasoner接近。
专项测评中,Agent系列、多模态系列、文本系列、推理系列、性能系列各有亮点与不足。国内大模型成熟度指数显示,数学推理等为中成熟度,幻觉控制等为低成熟度。
总体而言,国内大模型进步明显,部分领域赶超海外,但推理等核心能力仍需提升,未来需在基础理论、技术创新等方面持续发力。
#免责声明#
来源: SuperCLUE,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!
推荐报告
-
详细内容请点击查阅...上传时间:2025-08-09 14:17:22.0
-
详细内容请点击查阅...上传时间:2025-08-08 16:02:22.0
-
详细内容请点击查阅...上传时间:2025-08-08 15:58:19.0
-
详细内容请点击查阅...上传时间:2025-08-08 15:56:23.0
-
详细内容请点击查阅...上传时间:2025-08-08 15:54:12.0
-
详细内容请点击查阅...上传时间:2025-08-06 09:58:44.0