图灵派对 图灵派对
-- -- --
← 返回首页

5 分钟搞懂 Transformer 的自注意力机制

Transformer 是几乎所有现代大模型的基石。理解它的核心——自注意力机制(Self-Attention),是入门 AI 的必经之路。

核心思想

一句话概括:让每个词都能"看到"句子中的所有其他词,并决定该关注谁。

传统的 RNN 只能按顺序处理文本,信息传递像接力赛。而自注意力让所有位置并行交互,效率和效果都大幅提升。

Q、K、V 三剑客

  • Query(查询):我在找什么?
  • Key(键):我有什么特征?
  • Value(值):我的实际内容是什么。

计算过程就是 Q 和 K 做点积算相似度,再用这个权重去加权 V,就得到了融合了上下文信息的新表示。

就这么简单。剩下的多头注意力、位置编码都是在这个基础上的扩展。