<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>微调 on 图灵派对</title><link>https://turingparty-ai.pages.dev/categories/%E5%BE%AE%E8%B0%83/</link><description>Recent content in 微调 on 图灵派对</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 20 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://turingparty-ai.pages.dev/categories/%E5%BE%AE%E8%B0%83/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型微调入门：LoRA / QLoRA 原理与实践</title><link>https://turingparty-ai.pages.dev/posts/20260320/</link><pubDate>Fri, 20 Mar 2026 00:00:00 +0000</pubDate><guid>https://turingparty-ai.pages.dev/posts/20260320/</guid><description>&lt;p&gt;全参数微调一个 7B 模型需要 ~56GB 显存，这对大多数人来说不现实。LoRA 和 QLoRA 让你用一张消费级显卡就能微调大模型。&lt;/p&gt;
&lt;h2 id="lora-原理"&gt;LoRA 原理&lt;/h2&gt;
&lt;p&gt;LoRA（Low-Rank Adaptation）的核心思想：&lt;strong&gt;冻结原模型参数&lt;/strong&gt;，只训练一组低秩分解矩阵。&lt;/p&gt;
&lt;p&gt;对于原始权重矩阵 W，LoRA 添加一个低秩更新：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#cdd6f4;background-color:#1e1e2e;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;W&amp;#39; = W + α × (B × A)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;# W: 原始权重 (d × d)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;# A: 降维矩阵 (d × r)，r &amp;lt;&amp;lt; d
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;# B: 升维矩阵 (r × d)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;# α: 缩放因子
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;当 rank r = 16 时，可训练参数只有原来的 0.1% 左右。&lt;/p&gt;
&lt;h2 id="qlora更进一步"&gt;QLoRA：更进一步&lt;/h2&gt;
&lt;p&gt;QLoRA 在 LoRA 基础上增加了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;4-bit 量化&lt;/strong&gt;：将基础模型量化到 4-bit NormalFloat&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;双重量化&lt;/strong&gt;：对量化常数进行二次量化&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;分页优化器&lt;/strong&gt;：自动管理 GPU 内存&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这使得在单张 24GB GPU 上微调 70B 模型成为可能。&lt;/p&gt;</description></item></channel></rss>