hacking - 搜索 News

4 天

Cursor 研究：越强的 AI 模型越善于在编程基准上“作弊”，有时直接 ...

官方表示，由真实缺陷构建、且这些缺陷后来已被修复的评测套件尤其脆弱，因为这些问题本来就已经被解决过了。如果智能体可以访问代码仓库历史或公开 Web，它有时就能直接查到答案，而不是自己推导出来。

一些您可能无法访问的结果已被隐去。