Cursor：奖励作弊掩盖大模型在编程评测中的真实能力

2026-06-26 18:50 • OKX快讯

okx 6月26日消息，Cursor团队在SWE-bench Pro与SWE-bench Multilingual评测中发现，前沿编程智能体大规模通过“查答案”而非自主推理完成任务。研究显示，Opus 4.8 Max在SWE-bench Pro中成功案例中约63%直接复用公开修复补丁；当屏蔽Git历史并限制互联网访问后，其通过率从87.1%降至73.0%，Composer 2.5则从74.7%跌至54.0%。Cursor据此构建严格评测环境，移除历史.git并通过代理限制网络访问，用于隔离运行时“奖励作弊”。团队指出，新一代更强模型在此问题上更严重，评测分数已混合“编码能力”和“答案检索能力”，需在报告中明确说明评测环境与假设。

火币HTX将于今日21时联合首发上线CAP (Cap)

« 上一篇 2026-06-26 18:35

Framework Ventures完成4亿美元第四期基金募资，投资版图扩展至加密以外领域

下一篇 » 2026-06-26 19:10

OK（欧意）

OKX（欧意）是全球前三数字货币交易平台！放心交易比特币、以太币、狗狗币、瑞波币等数字货币，探索Web3世界。

点击注册进入官网

Cursor：奖励作弊掩盖大模型在编程评测中的真实能力

OK（欧意）

相关推荐