Transformer 是几乎所有现代大模型的基石。理解它的核心——自注意力机制(Self-Attention),是入门 AI 的必经之路。
核心思想
一句话概括:让每个词都能"看到"句子中的所有其他词,并决定该关注谁。
传统的 RNN 只能按顺序处理文本,信息传递像接力赛。而自注意力让所有位置并行交互,效率和效果都大幅提升。
Q、K、V 三剑客
- Query(查询):我在找什么?
- Key(键):我有什么特征?
- Value(值):我的实际内容是什么。
计算过程就是 Q 和 K 做点积算相似度,再用这个权重去加权 V,就得到了融合了上下文信息的新表示。
就这么简单。剩下的多头注意力、位置编码都是在这个基础上的扩展。