小型 LLM 的实用提示工程

大型语言模型的有效性在很大程度上取决于我们给它的指令。提示工程是以一种能够从 LLM 获得最佳输出的方式来设计问题的过程。这是实现基于 LLM 功能的关键步骤。

提示工程是一个迭代过程。如果您尝试过不同的 LLM,您可能已经注意到您需要调整提示才能获得更好的结果。

对于不同规模的模型来说,情况也是如此。

由大型 LLM(如 Gemini 或 ChatGPT)支持的聊天界面通常只需极少的提示工作即可产生令人满意的结果。但是,当使用未经微调的默认小型 LLM 时,您需要调整您的方法。

小型 LLM 的功能较弱,并且可从中提取的信息池也较小。

我们所说的“小型 LLM”是什么意思?

定义 LLM 规模很复杂,而且制造商并不总是公开这些信息。

在本文档中,“小型 LLM”是指任何参数少于 300 亿的模型。截至今天,参数为数百万到数十亿的模型可以在浏览器和消费级设备上实际运行。

小型 LLM 用在哪些地方?

  • 设备端/浏览器内生成式 AI,例如,如果您将 Gemma 2B 与 MediaPipe 的 LLM 推理 API(甚至适用于仅 CPU 设备)或浏览器中的 DistilBert 与 Transformers.js 结合使用。为了保持 Web 下载的合理性并适应设备的内存和 GPU/CPU 限制,只有使用这些较小的 LLM 才有可能在用户设备上下载模型并运行推理。
  • 自定义服务器端生成式 AI。Gemma 2B、Gemma 7B 或 Gemma 27B 等小型开源权重模型可供您在自己的服务器上运行(并可选择进行微调)。

开始使用

由大型 LLM(如 Gemini 或 ChatGPT)支持的聊天界面通常只需极少的提示工作即可产生令人满意的结果。但是,当使用较小的 LLM 时,您需要调整您的方法。小型 LLM 的功能较弱,并且可从中提取的信息池也较小。

提供上下文和精确的格式说明

为了使用小型 LLM 获得最佳结果,请设计更详细和具体的提示。

例如

Based on a user review, provide a product rating as an integer between 1 and 5. \n
Only output the integer.

Review: "${review}"
Rating:
输入(评论) 输出(评分)
  大型 LLM (Gemini 1.5) 小型 LLM (Gemma 2B)
非常喜欢这款的贴合度!重量分布均匀,即使在全天徒步旅行中也出乎意料地舒适。值得推荐。 5 4 星(满分 5 星)**
肩带很脆弱,而且在重负载下开始勒我的肩膀。 1 2/5

虽然 Gemini 1.5 使用这个简单的提示提供了所需的输出,但 Gemma 的输出并不令人满意

  • 格式不正确。我们要求评分使用整数。
  • 评分似乎不太准确。第一个评论足够热情,表明是 5 星评价。

为了解决这个问题,我们需要使用提示工程技术,单次、少次和多次提示以及思维链提示。我们还必须提供清晰的格式说明,并坚持模型应使用完整的评分范围。

例如

`Analyze a product review, and then based on your analysis give me the
corresponding rating (integer). The rating should be an integer between 1 and
5. 1 is the worst rating, and 5 is the best rating. A strongly dissatisfied
review that only mentions issues should have a rating of 1 (worst). A strongly
satisfied review that only mentions positives and upsides should have a rating
of 5 (best). Be opinionated. Use the full range of possible ratings (1 to
5). \n\n
    \n\n
    Here are some examples of reviews and their corresponding analyses and
    ratings:
    \n\n
    Review: 'Stylish and functional. Not sure how it'll handle rugged outdoor
    use, but it's perfect for urban exploring.'
    Analysis: The reviewer appreciates the product's style and basic
    functionality. They express some uncertainty about its ruggedness but
    overall find it suitable for their intended use, resulting in a positive,
    but not top-tier rating.
    Rating (integer): 4
    \n\n
    Review: 'It's a solid backpack at a decent price. Does the job, but nothing
    particularly amazing about it.'
    Analysis: This reflects an average opinion. The backpack is functional and
    fulfills its essential purpose. However, the reviewer finds it unremarkable
    and lacking any standout features deserving of higher praise.
    Rating (integer): 3
    \n\n
    Review: 'The waist belt broke on my first trip! Customer service was unresponsive too. Would not recommend.'
    Analysis: A serious product defect and poor customer service experience naturally warrants the lowest possible rating. The reviewer is extremely unsatisfied with both the product and the company.
    Rating (integer): 1
    \n\n
    Review: 'Love how many pockets and compartments it has. Keeps everything organized on long trips. Durable too!'
    Analysis: The enthusiastic review highlights specific features the user loves (organization and durability), indicating great satisfaction with the product. This justifies the highest rating.
    Rating (integer): 5
    \n\n
    Review: 'The straps are a bit flimsy, and they started digging into my shoulders under heavy loads.'
    Analysis: While not a totally negative review, a significant comfort issue leads the reviewer to rate the product poorly. The straps are a key component of a backpack, and their failure to perform well under load is a major flaw.
    Rating (integer): 1
    \n\n
    Now, here is the review you need to assess:
    \n
    Review: "${review}" \n`;
输入(评论) 使用小型 LLM (Gemma 2B) 的输出

非常喜欢这款的贴合度!重量分布均匀,即使在全天徒步旅行中也出乎意料地舒适。值得推荐。

分析:此评论非常积极,强调了产品的贴合度和舒适度,表明对产品非常满意。这证明了高评分的合理性。

评分(整数):5

肩带很脆弱,而且在重负载下开始勒我的肩膀。

**分析:** 该评论强调了肩带的重大舒适性问题。它还表明该产品可能不适合重负载或长时间的郊游。

**评分:** 1(最差)

我们更详细的提示,结合少次提示和思维链提示技术,可以提供更准确的评分。

预计手动解析输出

虽然您应该始终手动清理和解释 LLM 的输出,但对于可能产生不太完善的结果并且可能需要思维链提示的小型 LLM 来说,尤其如此。

在第一个示例中,我们使用了思维链提示,因此输出既包含分析又包含评分,我们需要手动解析评分。另请注意上一节输出中不一致的格式:模型有时输出 markdown,但并非每次都输出。

// Use try/catch to catch (parsing) errors
try {
  // Parse the output for a rating
  const int = /[1-5]/;
  const ratingAsString = llmOutput.match(int)[0];
  // Parse as int
  const ratingAsInt = parseInt(ratingAsString);
  // `checkRating` checks the rating is a number between 1 and 5, since the
  // regEx may catch a number like "100"
  const finalRating = checkRating(ratingAsInt);
} catch (e) {
  console.error('Error', e);
}

注意 API 差异

LLM 云 API(如 Gemini API 或 OpenAI)通常是大型 LLM 的入口点,它们提供方便的提示功能。例如,Gemini 1.5 Pro 提供系统指令JSON 模式

目前,这些功能并非总是可用于自定义模型,或者用于通过浏览器内 AI API 访问的较小 LLM,例如 MediaPipe LLM 推理 APITransformers.js。虽然这不一定是技术限制,但浏览器内 AI API 往往更精简。

注意令牌限制

因为您针对小型 LLM 的提示需要包含示例或更详细的说明,所以它可能会更长,并占用更多的输入令牌限制(如果有)。

此外,较小的模型往往具有较小的输入令牌限制。例如,Gemini 1.5 Pro 具有 100 万个输入令牌的限制,而 Gemma 模型具有 8K 上下文窗口

使用令牌计数函数以避免达到限制。

调整您的时间估算

在您的工程时间估算中考虑提示设计和测试。

由于 API 差异和令牌限制,与大型 LLM 相比,您可能需要更多的时间和精力来为小型 LLM 设计提示。测试和验证 LLM 的输出也可能需要付出更多努力。

提示工程与微调?

对于 Web 开发者来说,提示工程是我们利用生成式 AI 的首选方式,而不是自定义训练和微调。但是,即使是高级提示工程在某些用例中也可能不足够,尤其是在您使用较小的 LLM 时。

在以下情况下使用微调

  • 您需要针对特定任务获得一流的准确性和性能。微调直接调整模型的内部参数以获得最佳结果。
  • 您拥有与您的任务相关的、经过精心整理的数据,这些数据已经用首选输出进行了标记。您需要此数据才能进行有效的微调。
  • 您重复使用该模型以达到相同的目的。微调可以完成一次,并重复用于特定任务。