# Transformer
-
Transformer 作者预警:只卖模型玩不过 OpenAI!
预言5年内机器人领域将迎来大突破! 叨乐 发自 凹非寺 AI快讯网 | Transformer八子中最年轻的Aidan Gomez在最新的采访中感叹: 只卖模型真的不赚钱! 谷歌版…
-
Transformer之父重返谷歌,出任Gemini联合技术主管
出任Gemini联合技术主管! 这就是Transformer“贡献最大”作者Noam Shazeer(诺姆·沙泽尔),重返谷歌后的最新动向。 据The Information的更多…
-
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
Attention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一点,还多亏了Transforme…
-
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制,解答8大问题
ViT作者等一众学者点赞 西风 发自 凹非寺 AI快讯网 | Transformer中的信息流动机制,被最新研究揭开了: 所有层都是必要的吗?中间层在做同样的事吗?层的顺序重要吗?…
-
陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手
好家伙!为了揭秘Transformer内部工作原理,陈丹琦团队直接复现—— 第一个经典聊天机器人ELIZA。 ELIZA编写于20世纪60年代,主要用于心理治疗,在当时似乎已经能“…
-
Mamba写代码真的超越Transformer! 原始论文入选顶流新会议
Mistral AI和Mamba强强联合 西风 发自 凹非寺 AI快讯网 | “欧洲OpenAI”和“Transformer挑战者”强强联合了! Mistral AI刚刚推出了其第…
-
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
与其让隐藏状态被动地储存信息,不如让它主动学习 新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所以该方法…
-
拆分Transformer注意力,韩国团队让大模型解码提速20倍
内存开销也大幅降低 克雷西 发自 凹非寺AI快讯网 | 公众号 QbitAI 只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人…
-
全面超越Transformer!清华蚂蚁纯MLP架构,长短程时序预测大提升 | AI快讯网
Transformer很强,Transformer很好,但Transformer在处理时序数据时存在一定的局限性。 如计算复杂度高、对长序列数据处理不够高效等问题。 而在数据驱动的…
-
张亚勤:Transformer五年内会被逐步重构,15-20年内实现AGI | 清华AIR无锡创新中心成立 | 量子位
将通过“新图灵测试” 在“太湖对话:人工智能+”暨清华大学AIR无锡创新成立仪式上,张亚勤院士给出这样的趋势判断,并点名了包括多模态、具身智能、生物智能、Agent智能、边缘智能这…