杨幂丝袜 OpenAI o1全所在SOTA登顶lmsys排名榜，数学才智碾压Claude和谷歌模子，o1-mini比肩第一

你的位置：探花七天 > 狠狠爽 >

狠狠爽

发布日期：2024-09-21 21:02 点击次数：200

杨幂丝袜 OpenAI o1全所在SOTA登顶lmsys排名榜，数学才智碾压Claude和谷歌模子，o1-mini比肩第一

OpenAI o1 模子在 lmsys 排名榜最初杨幂丝袜，展现出色。

【导读】o1 模子发布 1 周，lmsys 的 6k+ 投票就将 o1-preview 奉上了排名榜榜首。同期，为了骄气专家对模子「IOI 金牌水平」的瞻仰心，OpenAI 放出了 o1 测评时提交的扫数代码。

万众夺意见最新模子 OpenAI o1，终于迎来了 lmsys 竞技场的测评抑止。

不出不测，o1-preview 在各式畛域统统登顶，跳跃了最新版的 GPT-4o，在数学、贫穷指示和编码畛域进展出色；

而 o1-mini 天然名字中自带「mini」，但也和最新版的 GPT-4o 比肩概括排名第二，贫穷指示、编码、数学等畛域和 o1-preview 相同登顶第一。

居然，o1 模子不愧是通用推理畛域的新王。

lmsys 社区官方发推示意，这项测试抑止汇集了 6k+ 社区投票，并将 OpenAI 此次得回的进展描写为「令东谈主难以置信的里程碑」。

单纯看排名榜的排名可能不够具有劝服力，于是 lmsys 有益统计了总榜向前 25 名模子的 1v1 胜率。

不错看到，o1-preview 对扫数模子的胜率齐跳跃了 50%，对比 04-09 版 GPT-4-Turbo 的胜率最高，达到了 88%。

o1-mini 要是对战 o1-preview，胜率为 46%，对 09-03 版 GPT-4o 的胜率为 48%，不错说是大体平手、略逊一筹的气象。

值得隆重的是，天然 Grok-2-mini 和 Claude 3.5 Sonnet 齐排在相比靠后的位置，但 o1-preview 对这两个模子的胜率并不高，离别是 58% 和 57%，大大小于排名第四的 Gemini 1.5 Pro 的 69%。

要是看到细分畛域的排名榜，尤其是数学 / 推理畛域，成果则愈加惊艳。

o1-preview 和 o1-mini 不仅是登顶数学排名榜，而况是体现出了统统的最初上风。

排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的中分齐在 1275 控制，不相高低；o1-preview 和 o1-mini 则一骑绝尘，分数飙到 1360 近邻，径直碾压。

o1 推理团队的率领者之一 William Fedus 看到这张图亦然独特昂扬，他示意这张图「很好地用视觉抒发了范式融合」。

看来最新的 o1 模子在 STEM 学科和通用推理方面真的又达到了新高度，用骨子测评抑止申报了「AI 遇冷」、「OpenAI 碰壁」的质疑声。

「那就不时期待 OpenAI 接下来的发布吧！」

但一些东谈主齰舌「将来可期」的同期，另一些东谈主念念到了我方未几的智商和头发。

「模子搞得这样好了，测试就不相宜我这种蠢东谈主了。」

同期，也有一些东谈主抒发了对 lmsys 排名榜抑止的质疑。

比如，家喻户晓的 o1 模子推理时辰长，因而回答的延时也长，和其他模子齐有昭彰辞别；而况不同于各类基准测试的客不雅尺度，lmsys 社区中完全基于用户的主不雅评分，难说这内部是否存在「抚慰剂效应」。

也有东谈主不屈 o1 在编码排名榜上的第一，觉得天然 o1-mini 相配相宜进行名堂探求，但在 Cursor 这类编码助手中还是 Claude 模子的进展最好。

排名榜的抑止天然不是沿路，o1 模子能否不时赢得口碑，同期保不休才能水平不变蠢，还要看接下来的一段时辰。

IOI 金牌代码全公开

说到 o1 模子的编码才智，不知谈你还是否记起，刚发布时 OpenAI 提到了这样一个方针：要是放宽提交照猜度每个问题允许 1 万次提交，o1 不错达到高于 IOI 金牌门槛的分数。

在模拟进行的 Codeforces 编程竞赛中，使用换取的章程进行评估，o1-preview 不错击败 62% 的东谈主类选手，郑再版 o1 则高潮到卓绝 89% 的敌手。

专门微调过的 o1-ioi 模子，进展优于 93% 的竞争敌手。

此外，前段时辰有效户在及时的 Codeforces 比赛中使用了 o1 模子，抑止是卓绝了 99.8% 的东谈主类选手。

av天堂电影网

由于 o1 在编程竞赛畛域的进展如斯杰出，引起了 AI 社区历害的兴味和瞻仰，OpenAI 于是继承发布 o1 模子提交的代码内容，包括 6 个问题的沿路 C++ 代码以及谛视。

发文的 yummy 是 o1 模子的中枢孝顺者 Alexander Wei

关于 o1 的惊艳进展，Alexander Wei 我方齐很讶异。

他本东谈主在 9 年前曾插足 IOI 竞赛，但从未念念到我方这样快就需要和 AI 竞争，模子展现出的推理流程的复杂进度令东谈主印象深远。

博文示意，天然 o1 模子距离东谈主类的顶级进展还有很长的一段路要走，但咱们期待有一天能终了这个标的。

这个发展轨迹让东谈主念念起了 AlphaGo ——从水平漂后，到能和东谈主类顶级妙手不分赢输，再到 5-0 完全碾压李世石。

OpenAI 念念要达成的，猜想即是究极进化的、能在编程上碾压东谈主类顶级妙手的 AlphaZero。

此处公布代码的 6 个问题具体如下：

有网友指出，其中最令东谈主印象深远的应该是象形笔墨（hieroglyphs）问题，o1 模子悉数得到 44 分，在现场的扫数选手中排名第四。这标明，模子大略不错破译一些东谈主类无法科罚的子任务。

前几天，一位现在在 NASA 使命的天体物理学博士就尝试让 o1 复现我方论文中的代码，抑止一试吓一跳——我方读博时花了 1 年写出的代码，o1 只用了一小时就写完毕。

这还仅仅裸模子，要是加上代码讲解器、汇集及时搜索等各式器用，成果念念必愈加惊艳。

而况，Reddit 网友还送来了温馨指示：这仅仅 o1 预览版哦，不错狠狠期待一下不到一个月就行将问世的郑再版 o1 了。

此外，这位网友还示意，o1 基本沿用了 GPT-4 的架构；那你念念，转变架构后的 GPT-5（也即是传闻中的猎户座）能达到什么高度。

参考贵府：

https://x.com/lmsysorg/status/1836443278033719631

https://codeforces.com/blog/entry/134091

本文来自微信公众号"新智元"杨幂丝袜，剪辑：乔杨。

上一篇：巨臀又遭埋伏！印边防军遭数名武装分子突袭围攻！

下一篇：色五月色人阁超三张家港争霸赛：团队致胜！一谈重温上海久事港城霸主之路