人工智能
-
奥特曼发布GPT-5,人人免费体验“博士级”智能,但基准图错误引发网民吐槽
GPT-5 终于发布,集成多种功能,无需切换模型。其在数学、编程、视觉和健康领域表现出色,如 AIME 测试中无工具辅助达 94.6%。费用方面分为免费版、Plus 和 Pro 计划。尽管存在一些小问题,总体表现令人期待。
-
Agentic Web:互联网的未来新潮流
未来互联网将从「人读内容」转向「智能体执行任务」,用户通过自然语言向AI智能体发出目标,由AI自主规划、搜索、调用服务,最终完成复杂任务。这一变革将互联网从信息仓库转变为行动网络,智能体不仅能代表人类与系统交互,还能作为系统对人类的接口,实现「意图—执行」的闭环。
-
DeepSeek的GRPO会导致模型崩溃?看看Qwen3新范式GSPO的效果
Qwen团队提出了一种新的强化学习算法——组序列策略优化(GSPO),解决了DeepSeek的GRPO算法在逐token重要性采样中积累高方差和训练不稳定的问题,提升了大语言模型训练的稳定性和效率。
-
Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
Grok 4 在半决赛中击败 Gemini 2.5 Pro,晋级总决赛。尽管Grokk在比赛中表现混乱,最终通过加赛以和棋收场晋级。另一边,o3 以 4-0 战胜 o4-mini,顺利晋级决赛。总决赛将在 Grok 4 和 o3 之间展开。
-
首届大模型对抗赛:DeepSeek、Kimi首轮出局
谷歌近日举办了首届大模型国际象棋对抗赛,参赛者包括多个知名AI模型。首轮比赛结束后,Grok 4、Gemini 2.5 Pro、o4-mini 和 o3 均以 4-0 的战绩晋级半决赛,其中 Grok 4 表现最为出色,被视为夺冠热门。
-
阻击OpenAI,Claude抢先发布4.1版
Anthropic 发布的新模型 Claude Opus 4.1,在智能体任务、编程和推理能力上显著提升,具有 200K 上下文窗口。该模型已面向 Claude Pro、Max、Team 和 Enterprise 用户开放,并通过多个平台提供使用。尽管性能优越,但高昂的定价引起用户吐槽。
-
OpenAI深夜再推两款推理模型,达o4-mini水平,适配笔记本与手机运行
OpenAI 开源了两个新的语言模型 gpt-oss-120b 和 gpt-oss-20b,具备强大的推理能力和高效的硬件适应性,支持宽松的 Apache 2.0 许可证,可自由构建和调整。这两款模型在编程、医疗和工具使用等多方面表现优秀,超越了同等规模的开源模型。
-
电商战场:卖家以AI假图吸引订单,买家用AI烂水果骗取退款
买家利用AI制作瑕疵图要求退款,商家因退货成本高而选择退钱。AI技术的发展使这种骗术更难被发现,平台和商家正探索多种技术和策略组合,如引入数字水印和内容溯源技术,以应对这一信任危机。
-
全球首个集成云端Agent团队的IDE亮相,项目级开发全程自动化
Replit 由于 AI 删库引发争议,但 AI 编程工具迭代迅速。本周,国内公司芸思智能推出 Vinsoo Code,实现云端多 Agent 安全并行运行,全面提升开发效率。该系统支持项目级开发,本地 IDE 与云端 Agent 协同作业,提供 Vibe Mode 和 Full Cycle Mode 两种模式,确保代码生成、测试调试、部署等全流程自动化。
-
马斯克:研究者不复存在,唯有工程师;LeCun:大错特错
科学家和工程师的角色传统上泾渭分明,前者致力于发现自然规律,后者则将科学原理转化为技术。然而,马斯克宣布 xAI 不再区分研究员和工程师,引发争议。支持者认为这种区分无意义,反对者则强调研究和工程在方法论、开放性和评估标准上的显著差异。