OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

1,232次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

除了OpenAI自己,居然还有别人能用上GPT-4-Base版??

也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

也就是不用监督微调、也不用RHLF或其他强化学习对齐方法,只靠提示词能走多远?

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或AI助手?

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

如果可行,将大大降低类ChatGPT大模型的开发难度。

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。

目前的SOTA方法URIAL来自艾伦研究所,使用系统提示词+少数风格示例就能达到不错的效果。

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

但EPFL团队发现,URIAL仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。

实验中,在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。

其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

EPFL团队从这里出发,尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0基准测试中。

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。

也就是说,不同的示例适合不同的模型

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

团队还进行了一系列消融实验,以更多地了解上下文学习的工作原理。

他们发现,在MT-Bench这样的综合评测中,示例包含正确的“问题-答案对”至关重要

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

所以最终得出的结论是:

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。

想让AI助手更“听话”,暂时还是很难有捷径可走。

论文地址:

https://arxiv.org/abs/2405.19874

参考链接:
[1]https://x.com/maksym_andr/status/1796574297894318136

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 6 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...