大家好,我们未来力场是一个搞 AI+ 的团队——「AI + 用例, AI + 专家,AI + 场景」。这个行业的历史也就从 2023 年开始,所以其实到底什么叫 AI+,可能每个人的理解都不一样。这次来分享属于抛砖引玉,希望多和大家交流。
从五月开始我们就很积极在做分享,第一波主要是出去讲基础的东西,比如怎么写 prompt。然后和一些卖家聊了聊,发现跨境电商有很多场景,场景里有各自的具体的业务洞察。所以我们就升级了一下,开始讲怎么把自己的业务洞察融入进 prompt 中。今天我们分享的是三次升级之后的版本。
所谓提示词,Prompt,是指 对大语言模型提出的问题或任务描述。大白话说,就是你给 AI 的吩咐。现在大家都在致力于优化提示词。但好像很多人对“优化”的理解是,把提示词写得又长又复杂。另一部分人认为应该让提示词更容易写、更简短。以便形成工作流更容易在团队里复用和推行。
我认为怎么做都是可以的,写得更长或者写得更短都行,这些似乎都不是重点。重点永远是:“使大语言模型输出让你满意的结果” 。 因为现在在我们看到的 大量的情况下,大语言模型输出的内容,仍然是不够用或者不够好的。
我有很多群,我看群里面总有人天天说,是不是以后人写的东西都没有了,我们天天就看 AI 生成的精神饲料啊?每次我都很想问啊——谁能给我举出一本 AI 写的,能看下去的,像样的小说,文章,什么都行。哪儿呢?然后说美国编剧都在罢工。好莱坞哪个剧本是 AI 写的,能给我看一下吗?哪儿有啊?没到那儿呢吧。
所以说,本来我想了一些词儿来形容这次的分享,比如:“这次讲的比 Prompt 初级用法 高级 一点”。但是后来我觉得好像也不是这样的。Prompt 本身就是最简单的一种交互方式了。它还要内部区分啥高级不高级呢。而且,谁也没规定说高级的 Prompt 就是要长,就是要结构化。
我的 Prompt 就一句话,你的也是一句话,两句话仅仅是不太一样,但我生成的内容就是比你好。这就足够了。
写 Prompt 这个事情更类似于打架,而不是跳舞。动作不在多,够用就行。
“大模型输出的内容总是不够好”
下面举两个例子说明大语言模型输出的内容经常是不够好的。
1. 多语言商品介绍
天底下所有在亚马逊开店的公司,首先要做的一个事情就是上货。如果这个公司目标市场比较大,只要开始做欧洲了,语种数量一下就上去了。比如什么德语、俄语、波兰语。有一个公司,就是日常要 写十几种语言的 listing。现在决定都让 GPT 去写,因为自己也不可能招这么多小语种人才。
当 ChatGPT 输出很长的一段话时,我们虽然看不懂,但毕竟这么长一大段,总觉得它看起来像模像样的。
但后来有一天老板无意中发现,所有已经上线到亚马逊的商品介绍,最后一句都是:“请您注意,我只是一个大语言模型…” 老板看到的时候要晕过去了。然后大家就研究怎么 让它不要再说这句话了,然后就发现 连这个问题都很难解决。
2. 写产品好评
当我让 ChatGPT 给随便一个产品,比如 Anker 的充电宝,写一个 英文好评。跨境电商行业内默认会自己给自己刷好评。之前都是运营自己瞎写,写出来的东西闭着眼看都知道是自己刷的。现在肯定这玩意儿让 AI 写嘛。往往写出来也不行,还是瞎写,只不过是写得很长的瞎写。
因为如果你只是告诉 GPT 说,我那个什么什么产品,你给我写个好评。ChatGPT 就会给出下面这样一段话:
大家看,这个就叫 无脑吹。你真的想象一下你把这个东西刷到你的网站上去,看到的美国人我相信他们一定也是要用脚趾抠地的。首先画横线的部分是产品名 + 型号,出现三次,每次都工工整整,产品的小名写在括号里。另外,加粗的部分,太严谨了,新东方教你写雅思作文就这么写。最后,标红的部分…你仔细读一遍就知道太可怕了。
哎,都说种草博主最好的恰饭方式是不要让人看出来你在恰饭。这个就是反向操作啊。
这段英文的 product review,类比到中文里,相当于下面这段话:
现在我们都可以在出去吃饭的时候用文心一言生成好评来换大众点评的积分。不知道你们注意过没有,大众点评上已经出现很多长成这样的评价了。
反正一个正常的中国人是不会写出这种东西来的。只有机器才会如此地不辞辛劳,把这么多好听的词儿搬到一段话里。
实际上要让自己写出来的 review 不假,也很容易。Prompt 只需要提一嘴,说要 “中性的感情色彩”,就可以了。
下面这是一个我生成的 正例,感觉当成 Facebook 广告文案去投也是可以的:
Sleek, compact, easy to carry around. Looks good, feels good. A+ for portability
懂得写 Prompt 的原理,也不能替代你对具体任务的洞察
所以,上面是说,能达成目标的 prompt,和达不成目标的 prompt,实际上可能是差不了多少的。这里就差一个词,“中性”,而已。可能你没意识到这个点对于这个任务很重要,但并不是说你不懂得怎么写 prompt。你可能已经把吴恩达的课看了好几遍了,但是这不能代替你对具体的任务的洞察。
总之,在未来很长的一段时间里,“如何让大语言模型生成你想要的结果”这件事仍然是重点。就像好的团队 leader 往往知道怎么交代任务能让团队成员拿到更好的结果,我认为,我们只要能让 AI 输出我们想要的结果,就叫好。
另外,你如果是打算自告奋勇当上你团队里的 Prompt Engineer,除了研究怎么优化提示词,我认为,你还可以做下面这些事情:
- 批量优化提示词
- 制作提示词模板(这样你下次不用再写一遍,直接复用就行了)
- 逆向提示词
- 主动收集样本
- 控制变量进行比较
…
我们之前有一个金句说,你只要不拿 ChatGPT 当天猫精灵用,你就超过了 80% 的人。后来有一些同学在交流群里说,我想把团队里积累下来的一些知识、know-how 翻译成提示词。这很好,很重要。
但除此之外我还有一个推荐的做法:让我们把「绞尽脑汁写一个好的、长的、具体的、详细的 prompt」这件事儿,也交给 AI 去做。
我们去年有一个项目是做重磅桑蚕丝产品,出海到欧美,开独立站。这是一个中道崩殂的伤心项目。但我贼心不死,今年我决定利用业余时间,从 toC 改成 toB 试试。所以我首先需要一个 ToB 的新版品牌手册。我打算让 AI 先起草一个版本。
其实我英语很差,我想在手册里面写我们是一个 ToB 的品牌,不卖给 C 端用户,这我他妈都不知道用英语怎么说。但是没关系,我深信这个时代不需要我英语有多熟练,有基本的 sense 就够。
所以我写了这么一小段。虽然我知道写成 business 应该是不对的,但是我觉得 AI 能看懂:
给我的重磅丝绸床品品牌写一个品牌手册。注意,我仅向 business 客户提供产品,不服务 personal 个人客户。
我接下来用到一个自动提示词优化工具 PromptPerfect。我们在我们自己的跨境电商任务上高频使用了它。所以我就是把要做的任务简单地先写一句话,像上面那句。然后放到 PromptPerfect 里做一键优化,这是优化后的结果:
产品网址:https://promptperfect.jinaai.cn/a/NEW
Please create a brand brochure for one of my brands based on high-end silk bedding. The brand’s top selling points include its superior product quality, the best materials used, a global delivery chain and a refined design. Also note that this brand only serves business customers and not any individual customers.
Your brochure should include the following sections: brand story, brand values, target market, most typical customer image, product range, design philosophy, and how we serve business customers. It may also include voice, visual abuse (including logos, color palettes, typography), and any other information you think is important to business customers.
Please note that your feedback needs to be professional and compelling. Your language should be encouraging, positive and engaging. Use compelling language as much as possible while maintaining conciseness and consistency. Your description should give business customers a deep understanding and a high level of interest in our company’s products.
优化过程:实际上是把这一句话变成了三段话。它 自行补充了非常多上下文和背景细节。这些细节通过阅读,我觉得没什么问题。当然,如果我觉得有问题,我也是可以编辑的。当然表达方式是都会改过来,比如这里 ToB 叫做 to commercial customers,not individual customers。
所以运营的英文不好,或者需要拓展更多小语种市场时,也不用非得纠结字词表达。不如让 AI 自己去猜一猜。只要不是太偏门,都没什么问题。
最后一步是输出结果。这里还有个功能,让我可以看到不同的模型的结果。我主要是对 GPT 和 Claude 进行比较。不知道大家觉得哪个模型的结果更好?我自己是更喜欢 Claude,Claude 更像人。
所以我们会发现,同一个 Prompt 在不同的情况下输出结果也可能是不同的。
不同的情况包括:
1 模型:不同的模型输出的结果是不同的。普遍反馈 Claude 更像人一些。
2 提示词语言:用英文写和用中文写输的结果可能是不同的。
3 样本:你给 AI 举几个例子,能让 AI 的表现大幅提高。
接下来就分享一个提供样本完成任务的用例。
如何用“小样本”功能完成一个简单的社交媒体舆情分析任务
我之前对 Few-Shot,也就是小样本的所有理解就是:在我自己的聊天框里面,和 GPT 说“照着下面我给它的示例写”。
后来发现,相当于通过 PromptPerfect 这个工具,通过一些简单的点击,训练了一个自己的小模型(没错,你是可以这样号称的)。然后它可以简单地完成一些结构化批量输出的工作。
这个工具其实很简单。下图是把电影标题改成 Emoji 的例子(举这个例子是因为相对好理解,倒不是因为它有什么用):
这里我们要 填入三个要素:
1 指令 Instruction,也就是 prompt。你就理解成是 题型。
2 Examples,你就理解成是 题库,或者例题。input-output 的形式。
3 Target task 目标任务,你就理解成是你给 AI 出的 新题。新题,之所以叫做新题,当然不在题库里。因为你是希望 AI 自己从中找规律,然后自己去解决新题的。
那么接下来套用到我们真正的工作里——做一个 Sentiment Analysis,情感分析。
很多公司都要求员工 关注社交媒体舆情,或者 调研不同市场的消费者对于某个产品的需求。但实际上 总会遇到一些困难:比如小语种你不会,用谷歌翻译会判断出错(外国人也是会阴阳的。它也偶尔有那种“啊对对对”的情况);以及,很多评论很长,一篇小作文里也是有相当多的重点信息,人工阅读+打标签需要很长时间。几年前我在 TikTok 工作的时候,有一个组就是专门干这个,招聘小语种人才然后手动打标签去划重点。现在这个工种不知道还有没有了。因为在今天,你会发现这是一项非常适合交给 AI 去做的工作。
还是以丝绸床品为例,我想要 收集一下德国人对这种产品的观点,并寻找在德国市场上提供产品的商业机会。
如果这个东西在德国根本无人有好感,甚至没有人愿意认真花时间讨论,那就是红黑俱灭,我就最好谨慎思考一下是否还要进入这个市场。
于是我首先在 德国版本的百度知道,就是 gutefrage.de 这个网站上面找了一个相关的问题:
大意是:“谁家里有丝绸产品,尤其是丝绸床品——你们用之后觉得怎么样?”这个问题下面有三条回答,这就是我们一会儿可以用到的 语料库。我把它们复制到一个 excel 里。
回到 PromptPerfect 中。我想了一下,我希望它做的事情是:“识别分析和评估该段文本中对丝绸产品的情感和要点”。好,这就是我的 题型,其实也就是 prompt。一句话已经足够了。
当然,优化工具依然是帮我优化成了两段话:
接下来,需要我手动输入一个 例题。我从这个问题的三条回答里找了一句比较短的,自行阅读并总结了一下他的意思。这位网友说的是,被子太光滑了,会掉到地上,所以他不喜欢,就把丝绸被套扔掉了。
OK,这段话要简单 概括一下,是很容易的,但是好像听下来也略啰嗦。而且这是原文很短的情况下。如果段落很长,逻辑跳跃(毕竟国外的 UGC 内容也不见得都是条理通顺逻辑严谨的),可能会丢失部分信息。
所以,设身处地地思考一下,如果我是老板,给下属布置工作,我肯定不希望我的下属把这段话 简单转述 一下给我。我希望:他给我一个更 工整 的输出格式。比如说:态度、行为、原因——
「态度:消极。行为:把丝绸产品扔了。
原因:太光滑了,总是滑落到地上。」
好,这就是我想要的。我把我刚才的这段列在一个 excel 里面,这样写成一个 input-output 示例,保存。这就是算作我的 examples 表格。我决定也是用 .csv 文件的形式上传:
最后一步,我们把另外的两条要分析的德文文本复制粘贴过来,让 AI 按照刚才的例题,帮我分析这两段很长的话。
这两段话,如果要我自己读,铁定是花很长时间。大语言模型只需要几秒钟,而且它的结果一如既往地工整。
这是输出的结果:
态度:中性的。没有表明对丝绸产品的任何明确态度和情绪。
行为:体现了对棉缎床单的偏好。
原因:因为比丝绸更便宜,真丝作为织物很精致,容易损坏,不建议当床单使用。
这些就是我想要它生成的结果!这是一个还不错的任务实现。
任务完成后的 Q&A:这个过程是不是太麻烦了?
好,现在有同学说:你这里就区区三条评论要分析,但是你还要折腾这么半天?我直接跟 GPT 说给我总结一下不是更好?
是的,但是如果我们 有一千一万条评论 呢?如果所有的评论的 语种你都不掌握 呢?如果你每周都需要给老板生成这么一个 周报 呢?如果你的 市场和品类选择 对你公司的业务 至关重要 呢?如果你专门有一个运营同学负责舆情分析,你计算过 TA 的 工资和人效 吗?
PromptPerfect 实现的是低成本、大批量、标准化地生产提示词。
过去,你可能需要一些 挺贵的付费 SaaS 工具才能完成这项任务。尤其对于规模不大的团队来说,你一年可能只需要搞两三次舆情分析,但却要一下付几百美金的年账单,对于很多创业公司,这项费用申请未必会被批准。
因为 PromptPerfect 还额外提供了一个 部署提示词 的功能,我们确实可以把这个所谓的“小模型”部署起来,然后,通过简单的爬虫把 gutefrage.de 网站上所有和丝绸床品有关的内容都爬取下来,做成一个 Excel 表格上传,然后 批量得到社交舆情的分析结果,这样这个工作只需要付出爬虫的成本和 token 的处理费用(AI 赋能穷人啊)。
总之,希望上面两个用例的分享能帮大家得到一些关于提示词工程的启发。谢谢!
工具链接
PromptPerfect 地址(建议 PC 登陆):https://promptperfect.jinaai.cn/a/NEW
- 新用户注册送的 20 积分,加上每天登录的赠送积分,对于轻度尝鲜使用者基本够用了,先来薅我们的羊毛。
- 如果你到了要付费的地步,那你很厉害啊!可以添加文末小助手,了解更多产品优惠信息。