OpenAI o1 模子在 lmsys 排名榜最初杨幂 丝袜,展现出色。
【导读】o1 模子发布 1 周,lmsys 的 6k+ 投票就将 o1-preview 奉上了排名榜榜首。同期,为了骄气专家对模子「IOI 金牌水平」的瞻仰心,OpenAI 放出了 o1 测评时提交的扫数代码。
万众夺意见最新模子 OpenAI o1,终于迎来了 lmsys 竞技场的测评抑止。
不出不测,o1-preview 在各式畛域统统登顶,跳跃了最新版的 GPT-4o,在数学、贫穷指示和编码畛域进展出色;
而 o1-mini 天然名字中自带「mini」,但也和最新版的 GPT-4o 比肩概括排名第二,贫穷指示、编码、数学等畛域和 o1-preview 相同登顶第一。
居然,o1 模子不愧是通用推理畛域的新王。
lmsys 社区官方发推示意,这项测试抑止汇集了 6k+ 社区投票,并将 OpenAI 此次得回的进展描写为「令东谈主难以置信的里程碑」。
单纯看排名榜的排名可能不够具有劝服力,于是 lmsys 有益统计了总榜向前 25 名模子的 1v1 胜率。
不错看到,o1-preview 对扫数模子的胜率齐跳跃了 50%,对比 04-09 版 GPT-4-Turbo 的胜率最高,达到了 88%。
o1-mini 要是对战 o1-preview,胜率为 46%,对 09-03 版 GPT-4o 的胜率为 48%,不错说是大体平手、略逊一筹的气象。
值得隆重的是,天然 Grok-2-mini 和 Claude 3.5 Sonnet 齐排在相比靠后的位置,但 o1-preview 对这两个模子的胜率并不高,离别是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。
要是看到细分畛域的排名榜,尤其是数学 / 推理畛域,成果则愈加惊艳。
o1-preview 和 o1-mini 不仅是登顶数学排名榜,而况是体现出了统统的最初上风。
排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的中分齐在 1275 控制,不相高低;o1-preview 和 o1-mini 则一骑绝尘,分数飙到 1360 近邻,径直碾压。
o1 推理团队的率领者之一 William Fedus 看到这张图亦然独特昂扬,他示意这张图「很好地用视觉抒发了范式融合」。
看来最新的 o1 模子在 STEM 学科和通用推理方面真的又达到了新高度,用骨子测评抑止申报了「AI 遇冷」、「OpenAI 碰壁」的质疑声。
「那就不时期待 OpenAI 接下来的发布吧!」
但一些东谈主齰舌「将来可期」的同期,另一些东谈主念念到了我方未几的智商和头发。
「模子搞得这样好了,测试就不相宜我这种蠢东谈主了。」
同期,也有一些东谈主抒发了对 lmsys 排名榜抑止的质疑。
比如,家喻户晓的 o1 模子推理时辰长,因而回答的延时也长,和其他模子齐有昭彰辞别;而况不同于各类基准测试的客不雅尺度,lmsys 社区中完全基于用户的主不雅评分,难说这内部是否存在「抚慰剂效应」。
也有东谈主不屈 o1 在编码排名榜上的第一,觉得天然 o1-mini 相配相宜进行名堂探求,但在 Cursor 这类编码助手中还是 Claude 模子的进展最好。
排名榜的抑止天然不是沿路,o1 模子能否不时赢得口碑,同期保不休才能水平不变蠢,还要看接下来的一段时辰。
IOI 金牌代码全公开
说到 o1 模子的编码才智,不知谈你还是否记起,刚发布时 OpenAI 提到了这样一个方针:要是放宽提交照猜度每个问题允许 1 万次提交,o1 不错达到高于 IOI 金牌门槛的分数。
在模拟进行的 Codeforces 编程竞赛中,使用换取的章程进行评估,o1-preview 不错击败 62% 的东谈主类选手,郑再版 o1 则高潮到卓绝 89% 的敌手。
专门微调过的 o1-ioi 模子,进展优于 93% 的竞争敌手。
此外,前段时辰有效户在及时的 Codeforces 比赛中使用了 o1 模子,抑止是卓绝了 99.8% 的东谈主类选手。
av天堂电影网由于 o1 在编程竞赛畛域的进展如斯杰出,引起了 AI 社区历害的兴味和瞻仰,OpenAI 于是继承发布 o1 模子提交的代码内容,包括 6 个问题的沿路 C++ 代码以及谛视。
发文的 yummy 是 o1 模子的中枢孝顺者 Alexander Wei
关于 o1 的惊艳进展,Alexander Wei 我方齐很讶异。
他本东谈主在 9 年前曾插足 IOI 竞赛,但从未念念到我方这样快就需要和 AI 竞争,模子展现出的推理流程的复杂进度令东谈主印象深远。
博文示意,天然 o1 模子距离东谈主类的顶级进展还有很长的一段路要走,但咱们期待有一天能终了这个标的。
这个发展轨迹让东谈主念念起了 AlphaGo ——从水平漂后,到能和东谈主类顶级妙手不分赢输,再到 5-0 完全碾压李世石。
OpenAI 念念要达成的,猜想即是究极进化的、能在编程上碾压东谈主类顶级妙手的 AlphaZero。
此处公布代码的 6 个问题具体如下:
有网友指出,其中最令东谈主印象深远的应该是象形笔墨(hieroglyphs)问题,o1 模子悉数得到 44 分,在现场的扫数选手中排名第四。这标明,模子大略不错破译一些东谈主类无法科罚的子任务。
前几天,一位现在在 NASA 使命的天体物理学博士就尝试让 o1 复现我方论文中的代码,抑止一试吓一跳——我方读博时花了 1 年写出的代码,o1 只用了一小时就写完毕。
这还仅仅裸模子,要是加上代码讲解器、汇集及时搜索等各式器用,成果念念必愈加惊艳。
而况,Reddit 网友还送来了温馨指示:这仅仅 o1 预览版哦,不错狠狠期待一下不到一个月就行将问世的郑再版 o1 了。
此外,这位网友还示意,o1 基本沿用了 GPT-4 的架构;那你念念,转变架构后的 GPT-5(也即是传闻中的猎户座)能达到什么高度。
参考贵府:
https://x.com/lmsysorg/status/1836443278033719631
https://codeforces.com/blog/entry/134091
本文来自微信公众号"新智元"杨幂 丝袜,剪辑:乔杨 。