Attention Is All You Need

Transformer
NLP
Published

January 8, 2026

📍 NeurIPS 2017 👥 Vaswani, Shazeer, Parmar, et al. 📄 arXiv
transformer attention sequence-modeling

一句话总结

用自注意力替代 RNN/CNN,实现更高效的序列建模。

关键点

  • 结构:Encoder-Decoder,多头注意力 + 前馈网络
  • 训练技巧:残差、LayerNorm、位置编码

我关心的问题 / 复现计划

  • 在我的数据集上与 RNN baseline 的速度与效果对比
No matching items