上线仅三天的神秘模型,已经鲨疯了!
大模型聚合平台OpenRouter新推出的Optimus Alpha,已经处理了772亿Token,平均每天超过200亿。
并且这个数字还在上升,日Token处理已超过340亿,排名第二,并在Trending榜单上位列第一。这一惊人的数据表明,Optimus Alpha在极短的时间内获得了大量的用户和使用量,侧面反映了其卓越的性能和吸引力。
有网友试着用它挑战MC-Bench,生成《我的世界》风格的场景,并对比了4o-mini,结果高下立判。这说明Optimus Alpha在复杂场景理解和生成方面具有明显优势。
还有人系统测试了它的编程水平,发现Optimus Alpha在Ruby语言上是表现最好的模型。这提示我们,Optimus Alpha可能在某些特定编程语言上进行了优化,或者是训练数据集中包含了大量的Ruby代码。
有人更是直接称赞,Optimus Alpha必须是SOTA (State of the Art,即最先进的技术水平)。
惊讶于其优异表现的同时,Optimus Alpha神秘身份也引发了猜测……市场对于其背后的开发者充满好奇,是新兴AI团队的黑马,还是行业巨头的秘密武器?
百万上下文窗口,面向现实世界任务
Optimus Alpha支持百万上下文窗口,最大输出位32K。超长的上下文窗口意味着模型可以处理更长的文本,记住更多的信息,从而生成更连贯、更准确的答案。这对于处理复杂的文档、代码和对话至关重要。
并且响应速度很快,首个Token延迟中位数仅有0.81秒,输出速度中位数为每秒24.8个Token。快速的响应速度是用户体验的关键,也使得Optimus Alpha在实时应用中更具竞争力。
同时介绍中提到,Optimus Alpha主要面向现实世界中的任务,并特别提及了编程。这意味着该模型在设计之初就考虑了实际应用场景,尤其是在软件开发领域。
有博主让它写一个带购物车功能的电商网站,结果Optimus Alpha设计出了合理的UI界面,其他很多AI都翻车的购物车功能也能正常工作,并且跨越不同文件时也一切正常。这展示了Optimus Alpha在代码生成和项目理解方面的强大能力。
或者写一个贪吃蛇游戏,不仅能正常工作,还加入了蛇头部颜色变化、蛇身颜色渐变等巧妙设计,在新思上胜过了一些其他AI编程工具。这进一步证明了Optimus Alpha不仅能够生成代码,还具备一定的创造性和审美能力。
甚至还有人用它编写出了OCR文字识别应用,支持手写文字的那种。能够识别手写文字,表明该模型在图像处理和模式识别方面也具备一定的能力。
成绩方面,其Elo分数为1338,在榜单中排名第二,仅次于Claude 3.7 Sonnet,领先于DeepSeek-R1,以及疑似Optimus Alpha前身的Quasar Alpha。Elo评分是衡量AI模型能力的一种常用指标,Optimus Alpha的排名表明其在多种任务上表现出色。
特别是在SQL数据库查询任务上,Optimus Alpha取得了最高的平均成绩。这说明该模型在结构化数据处理和分析方面具有优势,可能得益于专门的训练或优化。
Aider榜单则显示,Optimus Alpha的编程能力与Quasar Alpha,以及Grok 3和中号o3-mini接近,略胜过GPT-4.5-preview。Aider是一个基于代码编辑的AI辅助工具,Optimus Alpha的在这个榜单上的表现印证了其编程能力的强大。
除了编程之外,Optimus Alpha在创意写作上也表现优异,Elo分数排名第四,位列DeepSeek-V3之后。这意味着Optimus Alpha不仅擅长逻辑推理和代码生成,在文学创作方面也有一定的潜力。
神秘模型来自OpenAI?
最简单粗暴的调查方式,就是直接让模型自己交代。
因为模型发出来的目的就是收集反馈,Optimus Alpha目前在OpenRouter上可以免费使用,也就有了试验的可能。免费使用降低了用户的使用门槛,有利于模型的快速推广和迭代。
当被问及身份时,Optimus Alpha毫不犹豫地说自己是ChatGPT。这可能是模型训练数据中包含大量ChatGPT相关信息的体现,但也可能是开发者的有意为之。
如果追问具体版本,回答则是“基于GPT-4,知识截止时间2024年6月”。这意味着Optimus Alpha可能是在GPT-4的基础上进行了改进和优化,并使用了最新的数据集。
此外,还有人直接根据Optimus这个名字,联想到特斯拉的擎天柱机器人,认为神秘模型来自马斯克。考虑到马斯克在人工智能领域的参与,这种猜测并非完全没有道理。
但也有人认为这是奥特曼的障眼法,如果信了它来自马斯克旗下的公司就正中奥特曼下怀了。这种猜测反映了人们对人工智能领域竞争格局的关注,以及对各方势力博弈的猜测。
更有说服力的证据,还要从已经下线的Quasar Alpha说起,它最早出现在本月2日。Quasar Alpha的出现为我们理解Optimus Alpha的真实身份提供了重要的线索。
Reddit上有网友发现,在试图用Quasar Alpha进行违规操作时,模型的拒绝方式和OpenAI非常相似。这表明Quasar Alpha可能使用了与OpenAI模型相似的安全机制和内容过滤系统。
这名网友提到的Tokenizer bug,指的是更早之前有人发现Quasar Alpha在执行中译英任务时出现了GPT-4o同款的已读乱回现象。Tokenizer是自然语言处理中的一个重要组件,用于将文本分割成更小的单元。如果Tokenizer出现问题,会导致模型无法正确理解文本,从而产生错误输出。
这个bug似乎是OpenAI独有,Grok、Claude以及DeepSeek上都不会出现此类情况。这进一步印证了Quasar Alpha与OpenAI之间的关联。
还有人甚至进行了更为复杂的分析——AI研究员Sam Paech(前面的创意写作榜单也是他发起的)通过模型回答中的差异,利用信息学方法试图建立模型之间的关联。这种方法试图通过分析模型的行为模式来推断其内部结构和训练数据。
结果Paech发现,Quasar Alpha与OpenAI的模型极为相近,并且特别点明了是GPT-4.5-preview。这为我们推断Optimus Alpha的真实身份提供了重要的依据。
后来,奥特曼也在推文中暗示了Quasar Alpha的身份。这意味着OpenAI可能有意通过这种方式来测试新模型,并收集用户的反馈。
终于可以回到Optimus Alpha,测试发现,ChatGPT和Quasar Alpha中的同款bug,再次出现在了其中。这意味着Optimus Alpha与ChatGPT和Quasar Alpha之间存在着某种联系,很可能是基于相同的代码库或模型架构。
Paech这边也有新结果,在最新的谱系图中加入了Optimus Alpha,与其最接近的模型是今年3月27日更新的ChatGPT-4o。谱系图是一种可视化工具,用于展示模型之间的关系和演变过程。
而从时间上看,Quasar Alpha的下架时间是Optimus Alpha上线次日,因此有人认为Optimus Alpha是Quasar Alpha的替代。这种猜测符合OpenAI一贯的策略,即通过逐步迭代和更新来改进其模型。
除了实验观察到的种种迹象之外,以神秘模型的方式对新模型进行社区测试,已经是OpenAI的传统艺能。这种方式可以帮助OpenAI在真实场景下收集用户反馈,并及时发现和修复模型中存在的问题。
加上奥特曼对Quasar Alpha的暗示,Optimus Alpha来自OpenAI的概率,整体看还是非常高的。考虑到OpenAI在人工智能领域的领先地位和技术实力,以及Optimus Alpha在多个任务上的出色表现,这种猜测具有一定的合理性。
至于再具体的细节,结合OpenAI刚刚泄露出的“GPT-4.1”,被视为是GPT-4o的升级,加上Paech最新谱系图的印证……如果Optimus Alpha真的是GPT-4.1,那么它很可能在性能、功能和安全性方面都取得了显著的提升。目前,OpenAI尚未对此事发表官方评论,这使得Optimus Alpha的真实身份更加扑朔迷离。
你认为这个神秘模型的真实身份是什么呢?考虑到其强大的性能和与OpenAI模型的相似之处,Optimus Alpha很可能是OpenAI内部正在测试的新模型,或者是由OpenAI提供技术支持的第三方模型。 无论如何,Optimus Alpha的出现都为人工智能领域带来了新的可能性,并引发了人们对未来AI技术的期待。
[1]
[2]
[3]