OpenAI最强o3模型被曝造假,提前获取FrontierMath测试题库的特权访问权
一位名为“Meemi”的EpochAI承包商在Less Wrong论坛透露,OpenAI不仅为FrontierMath基准测试提供资金支持,还获得了测试题库的特权访问权。
EpochAI副主任兼联合创始人之一Tamay Besiroglu很快在X平台承认了此事。我们犯了一个错误,没有更早披露OpenAI在FrontierMath中的参与。我们的合同在o3发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。
EpochAI的首席数学家Elliot Glazer承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。关于o3成绩,他表示相信OpenAI报告的分数准确性,但强调EpochAI需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。当被质疑保留集状态时,Glazer澄清这个测试集仍在开发中,而不是已经完成。
据悉,FrontierMath是一个分量极重的高级数学推理能力评估基准。它由EpochAI联手60多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。
1
0
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!
你也可能喜欢
分析:比特币基于短期持有者成本基础有望冲击12.5万美元
金色财经•2025/07/31 06:50
美国现货以太坊ETF昨日净流入622万美元
金色财经•2025/07/31 02:30
Solana生态顾问Nikita Bier加入X担任产品主管
金色财经•2025/06/30 23:51
数据:比特币在第二季度收涨31.41%
Bitget•2025/06/30 05:48
加密货币价格
更多
Bitcoin
BTC
$115,066.16
-0.53%

Ethereum
ETH
$4,780.27
+1.20%

XRP
XRP
$3.04
-0.49%

Tether USDt
USDT
$0.9998
+0.02%

BNB
BNB
$873.23
-1.76%

Solana
SOL
$207.94
+1.17%

USDC
USDC
$0.9999
-0.00%

Dogecoin
DOGE
$0.2333
-1.66%

TRON
TRX
$0.3656
+1.35%

Cardano
ADA
$0.9085
-2.19%
交易热门币种
新用户可获得价值 6200 USDT 的迎新大礼包
立即交易
立即成为交易者?新用户可获得价值 6200 USDT 的迎新大礼包
立即注册