科技
-
Claude Code凭什么牛?大模型团队自用产品,发现bug直接修复
Anthropic 宣布 130 亿美元融资,但其产品 Claude Code 面临降智争议。Claude Code 通过真实使用评估性能,强调易用性和扩展性,未来将实现手动与自动的深度融合,鼓励用户先问问题后写代码。
-
特斯拉下一代金色Optimus原型亮相,「假手」成最大争议点
Salesforce CEO 发布视频展示特斯拉的金色 Optimus 机器人,称赞其为生产力变革者,但价格高达 20 万到 50 万美元。马斯克评论互动,有网友发现他本人出现在视频背景中。Optimus 表现略显迟钝,但动作稳定,手部设计引发猜测。Figure 机器人则展示精准将碗碟装入洗碗机,两家公司在机器人领域展开竞争。
-
宇树科技官宣:年内冲刺科创板IPO
宇树科技预计于2025年四季度提交上市申请,公司主要产品包括四足机器人和人形机器人,分别占销售额的65%和30%。四足机器人主要用于科研、教育和消费领域,人形机器人则全部应用于这些领域。公司自2020年起每年保持盈利,预计未来几年全球人形机器人出货量将翻番。
-
Anthropic 在争议中获得 130 亿美元融资,估值达 1830 亿美元
Anthropic 完成 130 亿美元融资,投后估值达 1830 亿美元,为科技行业第二大规模私募融资。此轮融资由 Iconiq、富达管理研究公司和光速创投领投,年度化营收超 50 亿美元,Claude Code 创造 5 亿美元运营收入,用户增长近 7 倍。虽然存在用户数据收集、用量限制等争议,但投资者信心未受影响。
-
苹果新研究:提升AI提问效率6.5倍的方法
苹果与牛津大学和香港城市大学合作提出了一种名为 BED-LLM 的新方法,通过序贯贝叶斯实验设计框架,使 AI 能够自适应地提出最大化信息增益的问题,从而将解决问题的成功率从 14% 提升至 91%,无需微调或重新训练。
-
14B击败671B,微软rStar2-Agent数学推理胜过DeepSeek-R1
微软研究团队通过主动式强化学习(agentic reinforcement learning)开发了rStar2-Agent模型,该模型在14B参数规模下,性能媲美甚至超越了671B参数的DeepSeek-R1。rStar2-Agent的三大创新包括高效可靠的基础架构、基于正确重采样的组相对策略优化(GRPO-RoC),以及高效的训练方案,使其在数学推理和泛化能力上表现出色。
-
这个荒诞网站藏着30个AI「鬼点子」,但我猜它活不长
一个绝妙的点子往往是公司最危险的毒药。创意虽好,但实现过程中会遇到无数问题,需要不断调整和优化。许多 AI 项目因缺乏有效推广、用户粘性和实际需求而夭折,仅凭创意难以成功。
-
NeurIPS 2025:高分论文也可能被拒,只为维持25%左右的接收率
NeurIPS 2025 面临接收率控制压力,高分论文仍可能被拒。官方要求领域主席严格执行专业对口原则,导致投稿人和评审人对评审标准和公平性产生质疑。
-
LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化
研究发现,当告诉大型语言模型(LLM)它们正在与“自己”对战时,其合作倾向会发生显著变化。在集体提示词下,LLM倾向于背叛;在自私提示词下,LLM反而更倾向于合作。这表明 LLM 在某种程度上能够“自我识别”,这种认知影响其决策。研究对未来设计多智能体系统有重要启示,AI 之间的“无意识”相互歧视可能影响合作或背叛的倾向。
-
Meta考虑与Google和OpenAI合作
Meta 在 AI 领域的投资和管理面临巨大挑战。斥资 143 亿美元引入 Scale AI 和 Alexandr Wang,却遭遇数据质量低、核心人才流失和 AI 伦理丑闻。内部管理混乱,模型表现不佳,甚至考虑使用竞争对手的模型,前景堪忧。