比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
作者:时尚 来源:焦点 浏览: 【大 中 小】 发布时间:2024-11-19 16:23:50 评论数:
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的更好更强硬件功能 。
从 BERT、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子 ,更好更强Transformer 正以所向无敌之势席卷这个天下,更好更强但人们也不禁会问 :Transformer 是更好更强仅有抉择吗?
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底