-- -- --

← 返回首页

5 分钟搞懂 Transformer 的自注意力机制

AI 基础 · 2026-01-02 · 1 min

Transformer 是几乎所有现代大模型的基石。理解它的核心——自注意力机制（Self-Attention），是入门 AI 的必经之路。

核心思想

一句话概括：让每个词都能"看到"句子中的所有其他词，并决定该关注谁。

传统的 RNN 只能按顺序处理文本，信息传递像接力赛。而自注意力让所有位置并行交互，效率和效果都大幅提升。

Q、K、V 三剑客

Query（查询）：我在找什么？
Key（键）：我有什么特征？
Value（值）：我的实际内容是什么。

计算过程就是 Q 和 K 做点积算相似度，再用这个权重去加权 V，就得到了融合了上下文信息的新表示。

就这么简单。剩下的多头注意力、位置编码都是在这个基础上的扩展。