大模型微调入门：LoRA / QLoRA 原理与实践

Fri, 20 Mar 2026 00:00:00 +0000

全参数微调一个 7B 模型需要 ~56GB 显存，这对大多数人来说不现实。LoRA 和 QLoRA 让你用一张消费级显卡就能微调大模型。

LoRA 原理

LoRA（Low-Rank Adaptation）的核心思想：冻结原模型参数，只训练一组低秩分解矩阵。

对于原始权重矩阵 W，LoRA 添加一个低秩更新：

W' = W + α × (B × A)
# W: 原始权重 (d × d)
# A: 降维矩阵 (d × r)，r << d
# B: 升维矩阵 (r × d)
# α: 缩放因子

当 rank r = 16 时，可训练参数只有原来的 0.1% 左右。

QLoRA 在 LoRA 基础上增加了：

这使得在单张 24GB GPU 上微调 70B 模型成为可能。