9月20日,“2023创业黑马科创峰会暨黑马营周年庆”在深圳圆满举行,澜舟科技创始人兼CEO、中国计算机学会CCF副理事长、创新工场首席科学家周明,在现场进行了《以场景优势实现大模型应用的弯道超车》主题分享。周明博士是世界NLP领域的领军人物,世界上发表ACL论文最多的学者之一(H-Index 107)。曾任国际计算语言学学会主席、微软亚洲研究院副院长,在计算机创作、机器翻译、搜索、推荐、预训练模型(大模型)等领域都曾获得世界领先的研究成果。图注:周明在演讲中提到的L1、L2、L3、L4以下为澜舟科技CEO周明的分享内容,编辑做了不改变原意的整理:很多人问我为什么要创业?
我说,创业本身是一个求实和养身之路。
今天跟大家分享一下我们关于大模型的实践和思考。大模型火了之后,很多人好奇如何拿它创业,怎么把它很好地用起来,我希望在我的分享里,能够回答这些问题。
我今天的分享分为三部分:首先是大模型的认知和发展状况,第二是产业型企业如何用大模型赋能升级,第三是讲讲未来的想法。01
大家都知道,现在大模型热。
大模型也不是无缘之木,是由很长时间的人工智能发展而来的。
深度学习在2012年在ImageNet(图像识别评测)取得突破。当时我在微软研究院的同事先把深度学习用在语音识别上取得很好的进展。我们自然语言处理领域的人又接着把深度学习的技术用在自然语言上,在机器翻译等等也得到很好的发展。之后强化学习在自动驾驶取得进展。现在的大模型(LLMs),是人工智能一路发展过来在现阶段最具代表性的技术,它将产生很多机会,最重要的是AIGC的机会,文生文、图、视频等等,也将催生一系列新的创新。
现在的大模型一般而言指的是NLP大模型。它是自监督训练,比如用前面的词预测后面的词。2017年谷歌提出Transformer技术后,NLP预训练模型开始出现,比如BERT、GPT-1等等,但规模较小,性能有限。此后模型规模越来越大,训练数据也节节攀升。2022年以后,随着ChatGPT模型(175B参数规模)发布,大模型在各行业应用广泛,性能持续优化。
这里要提到大模型带来的影响。AI的1.0到2.0的观点,是李开复博士在今年三月份提出来的。在大模型之前,AI模型绝大多数是一个模型一个任务,大模型之后一个模型管N个任务。在AI 2.0时代,你把模型做得非常强大以后,你做下游任务不用对每个任务使劲标注数据一个个训练模型,而是用提示词的技术就可以很快完成任务,效率大幅度提升。
跟大家分享一下大模型的生态,基础层、模型层、应用层。如果企业想做大模型,要经历几个事情,一个是硬件,包括芯片,第二是云,云提供各种服务,帮你训练和部署。再往上要么用开源大模型,或者训练自己的模型。在往上就是建立各种应用,为ToB或ToC提供很多创新和服务。我们澜舟公司是硬核创业,要把核心技术要把握在自己手里,我们是炼模型和模型应用都做了,炼模型的时候,要适当考虑用户的需求,用模型的时候要理解大模型的长板和短板,用其长,克其短。我希望炼和用要形成闭环,互相促进。
大模型赋能千行百业,有不可限量的商业机会。
客服行业:基于大规模语言模型的意图理解、上下文对话和高质量内容生成技术能力,升级行业智能客服客户服务体验。
保险行业:利用大模型可以为保险公司提供更加智能化、个性化和便捷的营销服务,提高保险销售效率和客户满意度。
律师行业:用大模型找到相似的判例,或者提供法律的咨询服务;
教育行业:可以自动出题和判卷,并提供千人千面的教育反馈;
凡是有企业的地方,都可以有大模型的用武之地。其中,大模型在一个时刻点,总有其存在的问题,关键是怎么样把大模型用得好。现在并没有说大模型一定要这么用或那么用,并没有一个权威。在座黑马的兄弟们,大家都有机会,核心在于大模型技术怎么在客户那里得到非常好的应用。
我们说,大模型在千行百业都可以用起来。但是大模型现在处在什么阶段?
第一层,大家都在炼通用大模型,包括ChatGPT。可是这些能力在企业服务中不是马上就能用的。可以想象,这些能力约等于人们的理解能力和常识能力,解决专业问题需要专业的人做专业的事。
第二层,我们在通用模型基础上的训练专用大模型,我们把各行各业的知识、数据灌输到大模型中,从预训练开始出发,加上强化学习的能力,才得到各行各业的大模型。做一个通俗的比喻,通用大模型相当于高中毕业生,专用大模型相当于大学毕业生。
第三层,要综合考虑其它要素,还需要有一个场景大模型,这是L3。
第四层,在此基础上还要有一个L4,AI Agents。用户只想完成任务,我把任务用自然语言描述出来之后,你自己去分解任务,决定每一个任务要用哪个模型,这些任务谁先执行谁后执行,最后把我的任务完成。
这样有点像自动驾驶,有L1、L2、L3、L4,难度越来越大。
它背后每一层对应不同的客户。比如说L1和L2可以对应开发者,L3是专业人员,L4是普及性人员或者管理人员。真正做L4的时候,我们要从专业和领域出发去做,如果泛泛地说做没有任何边界,什么都可以做的L4,目前来讲做不到。我们在企业发展的时候,要先从具体的行业和场景出发,再一点点拓宽边界。
02
产业型公司如何借助AI和大模型实现升级
大模型来了,怎么把它用好?产业型AI公司的机会在哪里?
1)利用AI技术优化生产流程,提高生产效率;
2)利用AI技术进行产品创新,提高产品竞争力;
3)利用AI技术进行市场分析,提高市场洞察力;
4)利用AI技术进行客户服务,提高客户满意度;
5)利用AI技术进行风险管理,提高企业抗风险能力;
6)利用AI技术进行人力资源管理,提高员工工作效率和满意度。再跟大家详细分享一下,产业型公司的AI升级路径。
1)评估公司业务需求,确定AI应用场景。
2)收集和整理数据,构建AI模型所需的训练数据集。
3)选择合适的AI算法和模型,进行模型训练和优化。
4)将训练好的AI模型部署到实际业务系统中,进行测试和优化。
5)持续监控和优化AI模型的性能,确保其满足业务需求。
6)定期评估AI技术的发展,及时更新和升级AI模型和系统。这时候我们要考虑,我们做这个大模型是自己去做,还是请人做?
由于最近开源越来越热,很多企业自己拿开源模型加上数据,做一个SFT就行了,看似节省成本,但是真做起来难度大很多,很多例外的情况是没法预见的。你快速给领导做一个样板还行,但是真正用起来要长期稳健、安全、可靠还是很困难的。
产业型公司和大模型公司和如何合作?主要有这几种方式。一个是两个团队看看怎么合作,走在一起。第二是找应用场景合作,不一定所有场景都要合作,要找最合适的场景先落地再图更多的场景。第三是大模型团队给企业提供技术支持,使得企业可以心无旁骛去弄数据。最后你产生的成果要尽快在一定范围内铺开,然后铺开到更多客户中。03
结合国内外大模型进展,对未来的判断
大模型时代,要么你做大模型创业,好好炼大模型。要么你把大模型好好地用起来。大模型分为L1到L4四个技术层级,那么你的定位在哪里?你定位在通用大模型,还是专用大模型,还是场景大模型?大家的基因和能力不一样,要做出不同的选择。我给大家几点建议。
第一,越是通用的大模型,做的人越多。通用大模型的竞争是非常激烈的,通用大模型遍地开花,开源到处都是。但是,越是专业模型的话,做的人越少,一旦做起来,就有一定的机会壁垒。所以,中上小团队可直接利用开源通用模型,尽快从专业模型入手,做典型的用户场景,建立客户关系,尽早有一定的技术壁垒,防止大模型团队看明白之后,突然出来碾压你。他们做好之前,你可能在某些领域已经非常深入了,形成自己的壁垒。
第二,是大模型和应用的关系。不用指望大模型团队建好之后你自己拿来用,你不能等L1到L4在这个领域搞完之后再接入大模型,你就没有话语权了,随时就可能被别人碾压。如果小团队创业的话,要了解客户痛点,从痛点出发,反过来推应该用什么模型,在客户和哪个场景先发力,研发和应用最好同步起来,不要互相打架。
第三,是开源和闭源,初创团队没那么多算力,建议尽量用开源,你是使用单位的话,从开源出发,因为开源模型相对便宜,闭源模型报价比较高,所以你可以先从开源起来。
第四,你要做多大的模型?需要什么技能?要不要做行业模型?要不要在行业模型上做场景模型?这也是大家要考虑的。
我们做2B业务,模型不要做太大,否则的话推理成本、部署成本太高,一般创业团队包括你的客户都承受不了。在完成任务的基础上,模型越小越好。这么做要有什么样的技能?由于大模型存在一种幻像,它可能是胡说八道。而你需要的是其稳定的功能,最稳定的大模型是语言理解能力,语言理解能力要达到基本的能力和多轮对话,为了达到大多数ToB场景需要,除非特别难得场景,训练这样的能力其实不需要特别多数据,或者特别大的模型。一般是100亿到500亿的模型,基本可以满足80%的场景需求。要不要做行业模型?如果你的应用可以用通用语言理解能力可以做,就不需要做行业模型,如果你的行业属性太强,要么你自己做行业模型,要么你用专业团队做的行业模型,譬如我们澜舟的行业模型,才能把所在的行业做得比较深和透,才有护城河。
未来大模型有一个重要的趋势,就是L4的AI agent。
智能化:AI agent将具备更高级的学习能力和决策能力,能够更好地理解和处理复杂的任务。
多样化:AI agent将应用于更多领域,如医疗、金融、教育等,满足不同行业的需求。
集成化:AI agent将与其他技术相结合,如大数据、物联网等,提供更加全面的解决方案。
安全化:AI agent将更加注重隐私保护、数据安全和伦理问题,确保技术的可持续发展。我们发现,AI agent的应用场景场非常多。我们目前做金融比较多,像客服、助手、推荐都有AI agent的应用。
最后简要介绍澜舟公司。我2020年底预感到大模型将成为千行百业的基础模型,因此从微软出来开始在创新工场支持下孵化大模型团队,2021年6月正式成立澜舟公司。过去两年多一直炼大模型,也一直用大模型。8月份发布我们发布了孟子400亿参数大模型。在几项重要评比中均名列国内大模型的前列。有人说为什么不发布千亿大模型?这是因为企业用途的时候,千亿大模型的训练和部署成本压力非常大。可是模型太小也不行,所以我们选择折中的400亿大模型,它具备千亿模型的能力,又能大大节省训练和部署的成本。我们也训练了金融行业大模型,文娱大模型、营销大模型和翻译大模型,并跟许多客户展开了合作。
最后,我想跟大家说,大模型时代已经到来,毫无疑问我们都要拥抱大模型。大家可能在做大模型和用大模型的时候有很多困惑。但是,与其慢慢等待不如去马上实践,就像毛主席说的那样“从实践中来,到实践中去”。我们从实际中了解客户痛点,再有针对性改进大模型,再反过来用在你的业务中。这样炼模型和用模型相互促进,不断提升,同时也给客户创造价值,我们自身得到成长。
让我们一起迎接大模型的时代!
”
澜舟科技官方网站
https://langboat.com
获奖与新闻
澜舟科技成功举办孟子大模型系列及澜舟智会产品发布会
澜舟科技完成Pre-A+轮融资
澜舟科技携手中文在线加码布局AIGC赛道
HICOOL 2021 创业大赛一等奖 | 周明博士专访
最新合作携手华夏基金 | 携手同花顺携手中文在线 | 携手数说故事
技术专栏一览
长期招贤纳士(含实习)
孟子开源社区微信群
开源项目地址
https://s.langboat.com/mengzi
期待您的关注与加入 :)