# Transformer
-
Transformer之父:AI未来一两年将飞速发展,推理模型是核心动力
Transformer之父Yoshua Bengio“预言”:AI的“奇点”近在咫尺,推理能力的爆发才是未来 在人工智能飞速发展的时代,每一个微小的进步都能引起行业的广泛关注,更何…
-
Meta新突破:Transformer与Mamba融合,打造高效长文本处理AI新架构
AI 领域的竞争,正以前所未有的速度升级。就在我们还在津津乐道于大型语言模型(LLM)的参数规模与性能飞跃时,一场关于底层架构的革新浪潮,已然悄然兴起。近期,Meta AI 研究院…
-
Transformer 作者预警:只卖模型玩不过 OpenAI!
预言5年内机器人领域将迎来大突破! 叨乐 发自 凹非寺 AI快讯网 | Transformer八子中最年轻的Aidan Gomez在最新的采访中感叹: 只卖模型真的不赚钱! 谷歌版…
-
Transformer之父重返谷歌,出任Gemini联合技术主管
出任Gemini联合技术主管! 这就是Transformer“贡献最大”作者Noam Shazeer(诺姆·沙泽尔),重返谷歌后的最新动向。 据The Information的更多…
-
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
Attention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一点,还多亏了Transforme…
-
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制,解答8大问题
ViT作者等一众学者点赞 西风 发自 凹非寺 AI快讯网 | Transformer中的信息流动机制,被最新研究揭开了: 所有层都是必要的吗?中间层在做同样的事吗?层的顺序重要吗?…
-
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
好家伙!为了揭秘Transformer内部工作原理,陈丹琦团队直接复现—— 第一个经典聊天机器人ELIZA。 ELIZA编写于20世纪60年代,主要用于心理治疗,在当时似乎已经能“…
-
Mamba写代码真的超越Transformer! 原始论文入选顶流新会议
Mistral AI和Mamba强强联合 西风 发自 凹非寺 AI快讯网 | “欧洲OpenAI”和“Transformer挑战者”强强联合了! Mistral AI刚刚推出了其第…
-
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
与其让隐藏状态被动地储存信息,不如让它主动学习 新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所以该方法…
-
拆分Transformer注意力,韩国团队让大模型解码提速20倍
内存开销也大幅降低 克雷西 发自 凹非寺AI快讯网 | 公众号 QbitAI 只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人…