《Anthropic提示工程课程——第6章：预先思考（Thinking Step by Step）》

AI知识库2年前发布 AI分享圈

36.6K 00

课程

如果有人突然叫醒你，并立即问你几个复杂的问题，而且你必须马上回答，你的表现会如何？可能不如你有时间先思考一下再作答来得好吧。

猜猜看？Claude 也是一样的。

给 Claude 时间逐步思考有时会让它的回答更准确，尤其是对于复杂的任务。然而，思考必须是外显的。你不能要求 Claude 思考但只输出答案——在这种情况下，思考实际上没有发生。

示例

在下面的电影评论提示中，人类读者很容易看出第二句和第一句相互矛盾。但 Claude 过于字面地理解了“无关”这个词。

示例：

输入：
提示
用户：这篇电影评论的情感是积极的还是消极的？

这部电影以其新颖性和原创性让我大为震撼。无关的新闻是，我自 1900 年以来一直住在石头底下。

输出：
Claude 的回应
这篇电影评论的情感是积极的。

评论中提到电影“以其新颖性和原创性让我大为震撼”，这表明对这部电影有非常积极和热情的反应。

评论的第二部分关于自 1900 年以来住在石头底下可能是幽默或自嘲的说法，但它并没有否定评论中对电影特质的总体积极情感。

为了提升 Claude 的回答效果，让我们允许 Claude 在回答前先进行思考。我们可以通过明确列出 Claude 需要执行的步骤来帮助其处理和思考任务。再加上一点角色提示，这能够让 Claude 更深入地理解评论。

示例：

输入：
System Prompt
你是一位精明的电影评论读者。

Prompt
User: 这篇评论的情感是正面的还是负面的？首先，请分别在 <positive-argument> 和 <negative-argument> XML 标签中写出每一方的最佳论点，然后再作答。  

这部电影以其新颖性和原创性震撼了我。在完全不相关的新闻中，自 1900 年以来我一直住在石头下。

输出：
Claude's Response
<positive-argument>  
- 该评论暗示电影具有新颖性和原创性，这可以被视为积极的特质。  
- 评论者提到自己自 1900 年以来一直住在石头下，可以理解为一种幽默的自我调侃，表明电影的概念可能并不像最初看起来那样新颖或突破，显示出开放和自知的态度。  
</positive-argument>  
  
<negative-argument>  
- 评论者承认自 1900 年以来一直住在石头下，这暗示了对电影行业最近趋势和发展的缺乏了解，可能削弱了其对电影“新颖性和原创性”评价的可信度。  
- 关于住在石头下的讽刺语气表明，评论者可能认为这部电影并不那么新颖或有创意，反而是平庸的。  
</negative-argument>  
  
基于该评论，情感似乎是更偏负面的。评论者自嘲地承认其视角有限，并且语气中潜在的讽刺意味暗示他们可能并未觉得这部电影如最初所声称的那样新鲜和原创。

Claude 有时对顺序很敏感。这个例子展示了 Claude 在理解细微文本方面的能力边界，当我们将论点顺序从之前的示例中交换为先负面后正面时，这会改变 Claude 的整体评估结果为正面。

在大多数情况下（但并非所有，令人困惑的是），Claude 更有可能选择第二个选项，可能是因为其从网络上的训练数据中得知，第二个选项更有可能是正确的。

示例：

输入：
Prompt
User: 这篇评论的情感是负面的还是正面的？首先请分别在 <negative-argument> 和 <positive-argument> XML 标签中写出每一方的最佳论点，然后再作答。  

这部电影以其新颖性和原创性震撼了我。在完全不相关的新闻中，自 1900 年以来我一直住在石头下。

输出：
Claude's Response
<negative-argument>  
评论者声称电影“震撼了他们”，这可能被视为夸张的言辞，暗示缺乏客观性或批判性分析。此外，评论者承认自 1900 年以来一直住在“石头下”，这让人质疑他们对当代电影的熟悉程度，可能削弱其评价的可信度。  
</negative-argument>  
  
<positive-argument>  
评论者对电影“新颖性和原创性”的热情表明了积极的情感，暗示电影提供了独特且吸引人的体验。评论者关于住在“石头下”的自嘲言论可以被理解为对自己有限接触现代电影的轻松承认，这可能让他们对电影创新品质的赞美更加有说服力。  
</positive-argument>  
  
基于该评论，情感似乎是正面的。评论者对电影“新颖性和原创性”的赞美以及“震撼了我”这样的用语表明他们对这部电影印象极好，尽管评论者承认自己对当代电影的接触有限。

让 Claude 思考可以将 Claude 的答案从错误转为正确。 这在许多 Claude 犯错的情况下非常简单！

让我们通过一个 Claude 答错的示例，看看如何通过让 Claude 逐步思考来修正它。

示例：

输入：
Prompt
User: 说出一部由1956年出生的演员主演的著名电影。

输出：
Claude 的回答
这是一部由1956年出生的演员主演的著名电影：

《肖申克的救赎》（1994年），由蒂姆·罗宾斯主演。蒂姆·罗宾斯出生于1958年10月31日。

让我们通过要求 Claude 逐步思考来修正这个问题，这次使用 <brainstorm> 标签。

示例：

输入：
Prompt
User: 说出一部由1956年出生的演员主演的著名电影。首先在 <brainstorm> 标签中想想一些演员和他们的出生年份，然后给出你的答案。

输出：
Claude 的回答
以下是一些演员和他们的出生年份的头脑风暴：

<brainstorm>  
- 汤姆·汉克斯（1956年）  
- 丹泽尔·华盛顿（1954年）  
- 朱莉娅·罗伯茨（1967年）  
- 哈里森·福特（1942年）  
- 梅丽尔·斯特里普（1949年）  
</brainstorm>

一部由1956年出生的演员主演的著名电影是：

《阿甘正传》，由汤姆·汉克斯主演。

如果你准备好了进行章节练习，请点击下面的链接。如果你想尝试本课中的任何示例，向下滚动！

练习

练习 6.1 - 分类电子邮件

在本练习中，我们将指示 Claude 将电子邮件分类为以下几类：
(A) 售前问题
(B) 损坏或有缺陷的物品
(C) 账单问题
(D) 其他（请解释）

在练习的第一部分，将黄色高亮的提示模板框中的提示更改为让 Claude 输出正确的分类，并且 只输出分类。你的答案需要包括正确选择的字母（A - D），并带有括号，以及类别名称。

请参阅 K 列中的“正确分类”，了解哪些电子邮件应该归入哪个类别。如果你的提示生成正确答案，Claude 的响应会变为绿色。

提示： 使用你在本章中学到的预见性等技术！记住，思考只有在外显时才算数！

示例：

输入：
提示模板
用户：请将此电子邮件分类为以下类别：{{EMAIL}}  
  
不要包含除类别以外的任何额外词语。  

<categories>  
(A) 售前问题  
(B) 损坏或有缺陷的物品  
(C) 账单问题  
(D) 其他（请解释）  
</categories>  
助理：(

变量：
输入 - {{EMAIL}}
---
嗨——我的 Mixmaster4000 在操作时发出奇怪的声音。而且它闻起来有点烟味和塑料味，像烧坏的电子元件。我需要更换它。
---
我可以用我的 Mixmaster 4000 混合油漆吗，还是它只能用来混合食物？
---
我已经取消了4个月了，为什么每个月还在收取费用！！到底怎么回事？？？
---
我不擅长电脑，怎么弄到这里的。救命。

输出：
Claude 的回应
---
B) 损坏或有缺陷的物品
---
D) 其他
---
C) 账单问题
---
D) 其他（寻求技术支持）

正确分类
---
B
---
D 或 A
---
C
---
D

附加问题： 是时候像数据科学家一样思考了！为什么第二封电子邮件最难正确分类？如果分类对人类来说是有争议的，那么 Claude 也很可能难以分类！

练习 6.2 - 邮件分类格式化

在这个练习中，我们将完善上述提示的输出，以获得我们所期望的格式化答案。

使用你最喜欢的输出格式化技术，使 Claude 仅将正确分类的字母包裹在 "" 标签中。如果你忘记了每封邮件的正确字母，请参考上述练习。

如果你的提示产生了正确的答案，Claude 的响应将变为绿色。例如，第一封邮件的答案应包含确切的字符串 "B"。

提示： 作为第一步，将练习 1 的最终正确版本提示复制到下面的高亮提示模板框中。然后从那里编辑和完善你的初始提示。

注意： 在这个练习中，你可以看到 Claude 在 Sheets 中是一个强大的提示评估工具。 使用替换，你可以通过仅修改一个提示并从 Claude 处获得多个响应，轻松检查一个提示在多个上下文中的表现。在这里，我们评估了四个实例的提示，但你可以轻松地将此评估扩展到所需的任何行数。

示例：

输入：
提示模板
用户：请将此电子邮件分类到以下类别中：{{EMAIL}}  

除了类别之外，不要包含任何额外的词汇。回答前请逐步思考。  

<categories>  
(A) 售前问题  
(B) 损坏或有缺陷的物品  
(C) 账单问题  
(D) 其他（请解释）  
</categories>  

仅用包裹在 <answer> 标签中的字母作答，例如 <answer>B</answer>。

变量：
输入 {{EMAIL}}
---
嗨 -- 我的 Mixmaster4000 在操作时发出奇怪的声音。它还有点冒烟和塑料味，就像电子产品在燃烧。我需要一个替换件。
---
我可以用我的 Mixmaster 4000 来混合油漆，还是它只适用于混合食物？
---
我已经等了 4 个月，取消后我的月度费用还没结束！！到底发生了什么？？？
---
我怎么到这儿了，我不擅长使用电脑。帮忙。

输出：
Claude 的响应
---
逐步分析邮件：  
1. 电子邮件是关于 Mixmaster4000 产品的问题，表明这是一个损坏或有缺陷的物品。  
2. 电子邮件没有提到售前问题、账单问题或其他话题。  

<answer>B</answer>
---
为了对这封邮件进行分类，我将考虑以下内容：  

1. 电子邮件在询问一个产品的预期用途，即 Mixmaster 4000。这表明这是一个售前问题，而不是与损坏或有缺陷的物品或账单问题有关。  

<answer>A</answer>
---
根据电子邮件的内容，适当的类别是：  

<answer>C</answer>
---
分析电子邮件内容：  
- 电子邮件没有提到售前问题、损坏或有缺陷的物品或账单问题。  
- 电子邮件表达了对电脑技能的一般缺乏和对帮助的需求。  

根据提供的信息，适当的类别是：  

<answer>D</answer>