星火高考评测第一，背后是讯飞二十年教育深耕

2026年高考结束后，多家媒体陆续组织了一场特殊的“AI高考”。不同于过去单纯让大模型写一篇作文、解几道题，今年的评测更接近真实考试场景：同一套试题、相同提示词、关闭联网或限定条件、邀请一线教师和专家按照高考阅卷标准评分。

从目前公开的多项测评结果看，讯飞星火大模型在数学、中文作文、英文写作三个维度都进入第一梯队，并在数学评测中表现最为突出。

6月8日，在新京报组织的2026年新高考I卷数学评测中，讯飞星火以148分位列第一。参与评测的北京市中学数学特级教师点评，压轴题成为区分模型复杂推理能力的分水岭，讯飞星火在数形结合、图形几何性质研究等方面明显优于其他模型。

在语文作文方面，澎湃新闻6月7日组织9款国内外主流大模型挑战上海卷作文，讯飞星火以65.5分位列第一。南方日报、南方Plus6月7日相关测评中，讯飞星火在全国I卷作文评测中以55.5分居首。6月10日，观察者网组织的中英作文盲评，讯飞星火在语文新课标I卷作文和英语新课标I卷应用文写作中同样处于第一梯队。

这次高考评测真正有价值的地方，不是又给大模型排了一次名，而是它把大模型拉回了一个真实标准之中：高考不是普通问答，阅卷也不是只看最终结果。数学要看步骤，作文要看审题、立意、结构和表达，英语写作要看任务完成度、语言准确性和应用文规范。换句话说，大模型要在高考中拿高分，不仅要“会”，还要“像一个懂考试、懂评分、懂教学的人那样会”。

从这个角度看，讯飞星火的领先并不意外。

首先，它反映出讯飞星火在复杂推理能力上的持续进化。数学是最能检验大模型底层能力的科目之一，很多模型在基础题上差距并不大，真正拉开差距的是后半程。尤其是新高考I卷中的解答题和压轴题，对模型提出的要求已经远超简单计算。模型不仅要读懂题意，还要在较长逻辑链条中保持稳定，不能遗漏条件，不能跳步推理，不能在几何、代数、函数之间切换时丢失方向。讯飞星火在第18、19题等高难度题目上表现更加完整，体现出复杂问题拆解、多步骤推理和过程表达能力。对于一个大模型而言，能算出答案只是第一步，能把解题路径稳定、清楚、规范地表达出来，才更接近真实应用。

但如果只把讯飞星火的表现归结为“模型能力强”，仍然是不够的。2026年高考评测更重要的启示在于，教育不是一个可以靠通用模型直接“平推”的场景。它有自己的规则、标准、数据、评价体系和用户习惯。讯飞星火之所以在高考评测中表现稳定，很大程度上来自科大讯飞多年深耕教育场景形成的know-how。

科大讯飞不是从大模型时代才进入教育。更准确地说，星火今天在高考评测中的表现，背后站着的是讯飞二十多年“AI+教育”的长期积累。

公开资料显示，科大讯飞智慧教育业务开始于2004年。也就是说，在生成式人工智能成为公共话题之前，讯飞已经长期围绕课堂教学、考试评价、学生学习、教师发展和区域教育治理等场景展开布局。教育行业与普通互联网产品不同，它不是一个只要技术先进就能快速替代的市场，而是一个高度依赖真实场景、教学规律和评价标准的系统。谁真正进入过课堂，谁真正服务过老师、学生和区域教育管理者，谁才更有可能理解一道题背后的教学目标、评分标准和学生常见错误。

这种积累首先体现在课堂场景。近年来，讯飞AI黑板、智慧课堂等产品持续进入中小学教学一线。科技日报曾报道，讯飞AI黑板所属智慧窗系列产品已经覆盖全国多个省级行政区、1200多个区县、超过10万个班级，并在中国人民大学附属中学、中国科大附中高新中学等学校深度应用。AI黑板并不是简单把传统黑板换成电子屏，而是把备课、授课、互动、资源调取和课堂反馈连接起来。对大模型而言，这意味着它面对的不是抽象的教育文本，而是课前、课中、课后的完整教学链条。

更重要的是，课堂数据会让AI理解教学过程。一堂课为什么这样导入，老师为什么在某个知识点停留，学生在哪类题型上容易出错，哪些提问能激发思考，哪些讲解方式更容易被接受，这些都不是通用语料能够充分提供的。教育场景中的AI能力，必须来自真实教学过程的长期浸泡。

第二个关键场景是作业和考试评价。高考评测看似是大模型答题，实质上是对“答案生成能力”和“评分标准理解能力”的双重检验。公开报道显示，星火智能批阅机已在全国3000多所学校深度应用，让教师从繁琐的作业批改中抽身，同时，系统沉淀的丰富批改数据，能够形成班级、年级乃至全校的学情分析报告，帮助教研团队精准把握教学现状，调整教学重难点，实现“以学定教”，打通了“作业批改——学情分析——精准施教”的完整闭环，让因材施教不再停留在理念层面，而是落地为可执行、可追踪、可优化的日常教学模式。

第三个场景是个性化学习。讯飞AI学习机、个性化学习方案和因材施教综合解决方案，连接的是学生在校内外的学习闭环。讯飞AI学习机公开介绍中提到，其融合AI技术、校内大数据精准教学方案及中高考标准，面向学生提供AI 1对1精准学和AI 1对1答疑辅导。

第四个场景是区域教育治理。讯飞智慧教育公开资料显示，其产品与服务已经覆盖全国33个省级行政区，深度应用学校6万余所，累计服务师生超过1.6亿，并形成覆盖区域、学校和家庭的智慧教育生态体系。区域教育治理与单个产品不同，它关注的是更宏观的问题：如何提升区域教育质量，如何推动优质资源均衡，如何让管理者基于数据发现薄弱学校、薄弱学科和薄弱知识点，如何帮助教师减负增效。

这类场景会进一步加深讯飞对中国教育体系的理解。高考不是孤立的考试，而是基础教育教学目标、课程标准、评价体系和学生能力培养的集中体现。只有长期参与区域教育数字化建设，才能真正理解不同地区、不同学校、不同学生群体在教学与评价中的真实需求。

因此，讯飞星火在2026年高考评测中拿下第一，并不是一次孤立的技术胜出。它背后不是简单的参数规模竞争，而是通用大模型能力与教育行业know-how的结合。

当大模型进入教育，真正的竞争不只是模型能力，而是模型背后的教育理解能力。科大讯飞多年教育场景深耕，使讯飞星火不是一个临时参加高考的大模型，而是一个长期在教学、考试、评价和学习场景中成长起来的大模型。

(责任编辑：佟明彪)