Cursor:奖励作弊掩盖大模型在编程评测中的真实能力

okx 6月26日消息,Cursor团队在SWE-bench Pro与SWE-bench Multilingual评测中发现,前沿编程智能体大规模通过“查答案”而非自主推理完成任务。研究显示,Opus 4.8 Max在SWE-bench Pro中成功案例中约63%直接复用公开修复补丁;当屏蔽Git历史并限制互联网访问后,其通过率从87.1%降至73.0%,Composer 2.5则从74.7%跌至54.0%。Cursor据此构建严格评测环境,移除历史.git并通过代理限制网络访问,用于隔离运行时“奖励作弊”。团队指出,新一代更强模型在此问题上更严重,评测分数已混合“编码能力”和“答案检索能力”,需在报告中明确说明评测环境与假设。