Sam Altman暴露新模子o2,太会整活了,营销鬼才!
2024-11-08善于整活玩猜字谜的OpenAI首席实施官Sam Altman又发了一条艰深音信,“我外传o2在GPQA的性能测试达到105%。” 要知谈,博士级东谈主类在GPQA的准确率平均惟有65%,非巨匠级的庸俗东谈主仅有34%。而OpenAI在9月发布的o1模子的测试数据也惟有78%。 要是o2真能达到105%如实极度恐怖,还是恐怖的多出了5%~~~这通盘等于不成能的事情啊,MMLU、MaTH、CPQA、GSM8K、GPQA等基准测试范围奈何可能超出100%呢? 你要能在满分100的数学试卷中考出105