新智元报道
编辑:泽正 英智 【新智元导读】谷歌团队提出的Titans架构通过引入神经长期记忆模块,突破了传统Transformer架构在长序列处理中的局限。该架构通过创新的记忆整合和遗忘机制,在语言建模、常识推理、时间序列预测等任务中展现了显著的性能提升,在长上下文任务中的优势突出。
Transformer后继者终于现身!
2017年,Attention Is All You Need首次引入注意力机制,成为现代LLM诞生标志。
虽然Transformer依然大行其道,但其架构的缺陷却饱受诟病,尤其是无法扩展更长上下文。
正所谓,「风浪越大,鱼越贵!」
近日,谷歌研究团队迎难而上,提出支持200K上下文处理窗口的新架构——Titans。
最重要的是,轻松扩展到2M上下文的Titans架构,要比Transformer和线性RNN更加有效。
Titans架构通过引入神经长期记忆模块,显著提高了模型在处理长序列数据时的性能和效率。
实验结果表明,Titans架构在语言建模、常识推理、时间序列预测和DNA建模等任务中均表现出色,特别是在处理超200万上下文窗口任务中,能够有效地利用历史信息,提高模型的准确性。
作者介绍 Ali Behrouz
Ali Behrouz目前是康奈尔大学计算机科学系的二年级博士生,同时也是Google Research的研究实习生。在加入康奈尔之前,他在哥伦比亚大学师从Margo Seltzer教授,取得计算机科学硕士学位。
他对多样化的研究主题感兴趣,目前正致力于深度学习架构、图表示学习、医疗保健中的机器学习以及计算神经科学等领域的研究。 Peilin Zhong