5 分钟搞懂 Transformer 的自注意力机制

Fri, 02 Jan 2026 00:00:00 +0000

Transformer 是几乎所有现代大模型的基石。理解它的核心——自注意力机制（Self-Attention），是入门 AI 的必经之路。

核心思想

一句话概括：让每个词都能"看到"句子中的所有其他词，并决定该关注谁。

传统的 RNN 只能按顺序处理文本，信息传递像接力赛。而自注意力让所有位置并行交互，效率和效果都大幅提升。

计算过程就是 Q 和 K 做点积算相似度，再用这个权重去加权 V，就得到了融合了上下文信息的新表示。

就这么简单。剩下的多头注意力、位置编码都是在这个基础上的扩展。