百度现场演示大模型微调全过程,要把战火烧到应用端

2,149次阅读
没有评论

当一部分巨头和创业企业还在思索,如何买算力、找数据、做算法,从头训练自己的大模型,另一部分企业如OpenAI百度等,想把领先优势进一步扩大,推出全套大模型产品,抢占企业服务的落地场景。

在5月9日举办的文心大模型技术交流会,面对台下上百家企业客户,百度现场展示了大模型微调全过程。

当文心一言遇到无法理解的问题时,百度使用可视化开发工具链,提供了数据生成、标注、回流的数据闭环管理功能,以少量数据即可发起模型微调,最快几分钟就可获得自己的专属大模型。

正在内测的“文心千帆大模型平台”,就是百度提供给客户的企业级大模型生产平台,不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链。

百度现场演示大模型微调全过程,要把战火烧到应用端

企业怎么用大模型?

与3月16日文心一言大模型的发布相比,本次百度强调微调,大模型的战火迅速燃到商业化落地层面,企业不止想和文心一言做基础的对话交互,更想知道能不能深度使用大模型,把自己的数据和场景融入进去。

百度现场演示大模型微调全过程,要把战火烧到应用端

并不是所有企业都需要自己训练一个大模型,训练一个大模型,动辄时间周期三个月,成本花费一两千万美元,这既不现实,也不经济

“对企业来说,做大模型可能有点贵,用大模型没有那么贵。另外,不管是做再训练还是微调,所使用的数据规模和处理数据的算力规模,都和从零开始训练千亿大模型完全不在一个量级。”百度集团副总裁侯震宇表示。

微调是一种现实路径,其中P-tuning是少量参数参与微调的一种fine-tuning技术,适合低数据量及低计算资源场景的业务需求,fine-tuning一般指全量参数微调,会更改整个网络模型的参数,通常能获得更好的调优效果,同时需要更大规模的训练数据,适合有大量行业标注数据的优化场景。

微调也是一种定制,其所需要精标数据是问答格式,最少只需要几百条数据即可。P-tuning算力方面,如果是百亿模型,最少需要一台8卡A100的服务器,如果是千亿模型,最少需要4台8卡A100的服务器。

如果客户想要训练行业大模型,通常需要500GB+的数据(按纯文本算,例如一个pdf10MB,转换成txt只有100kb),大概2500亿汉字,训练行业大模型需要10-50万卡时。

“如何把大模型在垂直行业做好,是目前各个企业都要考虑的问题,多数企业无法像百度一样有能力建设大模型。怎么能够把百度的大模型能力和企业业务有效结合起来,创造更强的价值,是企业非常好的弯道超车机会。”北京宝兰德软件董事长易存道的话语,表达出大部分企业的心态。

百度迅速从天马行空的想象,转为聚焦到实际的企业服务,依托的就是文心千帆。

文心千帆——企业级大模型生产平台

大模型是一个新鲜事物,把大模型的能力快速输入到企业端,需要一整套解决方案。侯震宇表示,文心千帆大模型平台是全球首个一站式的企业级大模型平台。

之所以称为全球首个一站式平台,是因为它不但提供包括文心一言在内的大模型服务,还提供大模型开发和应用的整套工具链。此外,该平台还支持各类第三方大模型,未来将成为大模型生产和分发的集散地。

以目前企业应用大模型面临诸多难点为例:模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,数据质量参差不齐。

百度现场演示大模型微调全过程,要把战火烧到应用端

大模型产业化需要云计算厂商将模型开发、训练、调优、运营等复杂过程封装起来,具体来看,文心千帆大模型平台包括海量数据处理、高质量数据标注,再训练/微调/强化学习,大模型评估及高效压缩,自动化prompt工程,快速应用编排等能力,同时还将提供大模型托管服务和大模型在线推理服务。

目前,文心千帆大模型平台提供公有云服务、私有化部署两大交付模式。

在公有云服务方面,将提供:推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务,大幅降低企业部署大模型的门槛。

在私有化部署方面,文心千帆大模型平台支持软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施),租赁服务(提供机器和平台的租赁满足客户低频需求)三种方式。私有化部属能够满足对数据监管有严格要求的企业客户需求。

“文心千帆大模型平台能够大幅度降低成本,在接下来几个月还会有大规模的成本下降,不管是在模型使用,还是在模型微调,甚至在模型再训练方面,文心千帆会把整个成本大幅拉下来,价格应该不会成为大家使用或者拥抱大模型的瓶颈。”侯震宇表示。

已有300余家生态伙伴参与文心一言内测

百度透露,百度内部产品正在基于文心一言升级。比如,在百度员工内部的智能工作平台“如流”上,很多程序员会就一些产品或技术难题询问产品经理、研发同事,过去获得一个答案平均时间约5分钟,现在如流打造了文心千帆AI小助手,可以代替同事自动回答各种问题,平均5秒就可以解答一个难题。

百度现场演示大模型微调全过程,要把战火烧到应用端

同时,百度智能云的金融行业应用、政务行业应用、智能创作平台、智能客服、企业知识管理、数字人直播平台等六大智能产品系列,将基于文心大模型全面升级,未来将在安全评估完成后上线。

在外部客户方面, 文心千帆大模型平台面向首批企业客户内测以来,正在与不同领域客户联合研发,在智能办公、旅行服务、电商直播、政务服务、金融服务五大领域打造行业样板间。

百度现场PPT显示,在某政务场景的智能导办、就业创业智能咨询,汉得的设备检修、智能客服、销售助理、内容生成,微盟的营销文案撰写、领域知识问答,金山办公的PPT大纲生成、文生图等多模态生成,文心千帆将在多个行业落地应用。

百度集团副总裁袁佛玉表示:“截止目前,已有超过300家生态伙伴参与文心一言内测,在400多个企业内部场景取得测试成效。”

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 5 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...