算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

1,418次阅读
没有评论

量子位智库 发自 凹非寺
量子位 | 公众号 QbitAI

“百模大战”已开启。

而在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。

无论是海外还是国内,当下涉足大模型的企业都在疯狂延揽人才。

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

围绕“如何选择和培养大模型人才”话题,量子位智库特别邀请澜舟科技合伙人&首席产品官李京梅,向读者分享对人才话题的看法,探讨大模型人才的发展现状机遇挑战以及未来发展前景

澜舟科技作为生成式大模型代表企业,致力于用场景优势驱动大模型应用超车,在大模型人才团队架构方面更具有贴合应用场景的特点。量子位智库希望通过此次分享,为AI企业搭建、培养大模型人才团队提供有益参考。

本文为量子位智库“大模型人才”系列深度访谈栏目,更多内容请关注即将发布的《2023 AIGC大模型人才发展全景报告》。

访谈人物介绍

李京梅,澜舟科技合伙人&首席产品官,北京大学学士、美国纽约州立大学硕士、美国宾州州立大学 MBA。

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

 澜舟科技合伙人兼首席产品官 李京梅

曾就职于微软美国和微软亚太研发集团,阿里云等头部软件、云计算公司,在云计算、大数据、人工智能城市大脑等领域具有丰富的产品和解决方案经验。

精彩观点

  • 今年企业对大模型训练效率、推理效率的提升需求更加明显,如何利用好有限算力成为关键。

  • 模型的效果好坏依赖算法人才,模型的效率高低取决于AI工程人才。

  • 对于算法人才,我们关注候选人在专业领域的认知、所在的学术团队、论文等学术成果。

  • 大模型是新兴技术,悟性好的年轻人可以快速学习并上手,不需要太多历史包袱。

  • 应用和基础研究强结合的培养方式,更适合国内对大模型人才的需求。

访谈实录

大模型人才如何划分

量子位智库:澜舟科技如何划分大模型人才?

李京梅:澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型,我们的定位是大模型+To B应用,面向金融机构、互联网公司等企业做行业应用落地。

澜舟科技面向企业的服务体系目前分为四层,L1、L2、L3、L4。L1是基础通用大模型,L2是行业大模型,目前主打的是金融、营销、文娱等领域,还包括机器翻译等垂直大模型。L3是聚焦具体的场景任务,比如金融行业里根据财经新闻写摘要或写研报。L4是自主智能体,或者称为数字助手,这四层体系与我们的人才是直接相关的。

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

量子位智库:有人按照模型部署中重要程度将大模型人才划分成三类:大模型核心研发人才、工程/产品人才、大模型应用人才,您怎么看这种分类方式?

李京梅:您所说的算法人员、工程支撑人员、产品人才和我们服务体系各个层级都相关。

算法人才而言,L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中,最核心的是通用大模型的算法人员,因为其他的模型都是继承自L1的通用大模型。

工程人才而言,与传统互联网岗位划分没有区别,包括前端、后端和测试人员。

产品经理而言,L1通用大模型的产品经理的作用是横向支撑,L2和L3的产品经理要继承通用大模型的能力,并基于金融行业或其他行业训练出大模型以及上层应用。

量子位智库:L1到L4这几类人才,哪种是相对比较稀缺的?

李京梅通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术,但这样的人才很少,Transformer技术是2017年才发布的,2017年后才陆续产生大模型研发人才。

L2层跟L1层的人在能力画像上差别不大,纯从技术层面,跟L1层的技术要求一样。但L2层因为行业和领域数据不同,需要业务场景,对L2层的人才的要求是训练出面向金融行业更好的模型。

L2人才基于内部协同和分工会有更多行业认知,比如对金融行业大模型做评测时,应该如何定义十项任务,除了L2技术人员,还有面向行业解决方案的产品经理,给出行业输入,L2的人才综合能力更强一些。

大模型训练环节中注重配置的人才

量子位智库:在基础通用大模型训练过程中,会更关注哪些环节技术?

李京梅:通用大模型训练过程中会更关注预训练、监督微调(SFT)、指令微调、基于人类反馈的强化学习(RLHF)、价值观对齐等环节。

预训练环节是基于无监督学习,利用海量数据去训练,我们会使用AI框架技术,比如PyTorch,目前也出现了针对大模型训练优化的框架,比如DeepSpeed、Colossal-AI、阿里云内置的框架等,我们也都会使用。

对于多模态技术,澜舟科技更多是偏重文本,但是现在文生图、文生视频、文生语音技术也变得更可行,我们会在开源的图片模型基础上进行二次训练,针对客户想要的图片风格进行可控图片生成,提高生成效率。

我们的多模态技术是在开源模型基础上,通过文字与其他模态结合,从而实现应用场景落地。

量子位智库:在训练过程中,如何应用规模化技术呢?

李京梅ChatGPT出来前,我们走的是轻量化,轻量化是指模型参数量比较小。截至2021年7月,我们大模型参数量达到10亿,效果就已经很好。我们目前在扩大参数量,推出7B和40B的模型,如果有客户需要我们训练更大参数量的模型,比如700亿、上千亿也是可以做到的。

更大规模参数的模型依赖的是资源,使用分布式技术,像一台机器一样高效训练几百、上千张英伟达显卡,这涉及整个算力、卡、机器之间的通讯效率等,都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量,我们的规模化技术已经相对成熟了。

量子位智库:对于中间件和工具链技术是如何应用的呢?

李京梅:有些客户除了有模型的购买需求还有掌握训练技术的需求,在数据基础上做Continue-Train,想自己做微调,我们会把工具链的技术对外输出。如果要实现模型流程闭环,必须是有这些工具的。

量子位智库:推理与部署环节技术是如何应用的呢?

李京梅:企业客户有高并发或多并发的需求,需要更高效缩短推理时间,如果大模型推理效率低,就需要多堆显卡,成本被推高;如果大模型推理效率高,就可以使用更少的显卡,缩短响应时间,提升并发效率,现在市面上也出现了推理加速的开源框架。

量子位智库:孟子大模型经历了多次升级,不同的升级过程当中会更注重哪些环节?

李京梅:在预训练技术、规模化技术、工具链技术、推理部署技术上,核心环节我们投入的时间更多,AI框架技术和多模态技术我们更多是适配和使用。

量子位智库:在这些环节当中会注重去配置哪些能力、哪些专业素养的人才?

李京梅:我们原来做轻量化,现在做更大参数量的大模型,所以就引进了更多在大厂实操过、跑过工程闭环的人才,这类人才更多来自成熟的互联网产业。

今年企业对训练效率、推理效率的提升需求更加明显,如何利用好有限算力就成为关键问题。这体现在商业化定价上,比如调用API接口的定价,如果训练推理的成本高,在定价上就不具备优势。如何用更少的算力,带来同样的用户体验,这就是技术降本的关键。技术不过硬,就需要更多的显卡,成本就高。我觉得这是需要AI工程人才来解决的问题。

预训练技术的好坏在于模型效果如何,但效果好并不代表效率高。效率高就依赖于AI工程人才,这些人不一定特别懂算法,但懂AI工程,很多云平台厂商的工程人才自身不做算法,但是懂算法,他们之前为千万用户到平台上训练、合作、推理提供支撑服务,为了服务好用户,平台需要帮助用户降本提效。像阿里电商,腾讯游戏等自身业务非常庞大,用户并发量都很高,都用自有模型,自己训练好自己用,也会遇到无数挑战,实验室里人才在实践方面还有待提升,很难接触到实际挑战,所以当下AI工程人才是市场所需的。

量子位智库:相比实验室的人才,AI工程人才更稀缺吗?

李京梅:不能说AI工程人才更稀缺,还是要分阶段来看。各家企业在专注训练模型时,更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来,大模型企业期望对外提供服务时,团队就更需要AI工程人才。

也有不少大模型厂商选择绑定平台厂商,根据其提供的工具来进行训练,也就不需要引进实验室人才或工程人才,我觉得这是看各家的选择。

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

大模型人才的选择

量子位智库:澜舟科技会更关注大模型研发人才的哪些方面?

李京梅:人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。

我们创始人周明博士就是行业的领军人物,在学术界、研究界的视野就足够。周老师在高校兼职博导,他的博士生、硕士生在学术研究领域有些成果。学术背景我们比较关注,所以硕士生和博士生会比较多。尤其是算法人才,我们关注人才在专业领域内的认知、所在的学术团队、论文等学术成果。

而且基于我们公司注重实践的定位,也看重实践经验丰富的人才,不管是合伙人还是VP都具备实操能力。同样,我们也十分重视专利。除了实践与研发,每年团队都产出几十个核心发明专利。

我们比较综合,不刻意补充纯学术研究的人才,研究也是依赖于实践,避免只做研究、只给客户服务的这些情况。 

量子位智库:刚才提到的能力要素,哪些更重要?

李京梅:我觉得要分阶段,因为大模型技术迭代非常快,现在和6个月以前相比会有很大不同。6个月前,大模型基础研究成果更加重要。如今有很多开源大模型,只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要,我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务,所以目前实践型人才占比较高。

大模型训练的效果的好坏通过两种方式来判断,一种是榜单评测,另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年,我们还是要以实践效果为导向。

量子位智库:您觉得市面上大模型人才的薪酬水平存在过高的情况吗?之后会有所回落吗?

李京梅:我认为目前的薪酬水平是有一点偏离实际情况的,人才市场的变化与整个技术趋势是相关,但不是完全合拍的。如果去年没有ChatGPT的问世,今年的人才市场并不会这么火热。

从目前来看,市场上已有130多个大模型,出现了百模大战的盛况。我们认为这些公司中,到今年年底或明年年初,不太坚定投入大模型的创业公司就会回归原本的核心业务,不会投入大量的时间、精力、财力押注大模型,所以随着时间的推移,对于大模型人才的需求会有所减缓,人才的薪酬也会有所回落。

大模型人才的培养方式

量子位智库:澜舟科技会选择吸纳刚毕业的人才吗? 

李京梅:其实这类人才我们大多会选择自己培养。这和我们基因背景有关系,周明老师2020年底从微软出来,到李开复老师创新工场孵化,会热衷于选拔实习生,一般是硕士、博士背景,很多实习一年多转为留用的人才。

量子位智库:我理解是让这些实习生成长为大模型研发人才,培养周期需要一年到两年左右。

李京梅:其实实习生工作半年左右,我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技,他现在成长为能够带领几位师弟的研发leader人才。

现在新技术瞬息万变,具体需要多长的培养周期我觉得要看潜力,半年到一年就能达到大模型研发要求的人才其实很多,他们可以独立完成很多事情,比如说指令微调,强化学习,还有监督微调(SFT)等,悟性强的实习生很快能掌握,但训练中间还是需要有经验的员工check,导师会带一点。

目前阶段,大模型面向企业落地其实是不容易的,但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。

量子位智库:您怎么看待“大牛带小牛”这种培养形式? 

李京梅:我觉得还挺有效的,现在的年轻人相对还是“白纸”,而且大模型这样的新技术不像传统的软件工程需要时间积累和学习,没有太多历史包袱。年轻人的基础好而且跟随自己导师也积累过相关项目经验,可以快速成长到一定的水准,后续接着磨炼,就能够成长成优秀的大模型人才。

量子位智库:澜舟科技吸纳的大模型人才大部分是在自然语言方向,有没有再细分一点的研究方向? 

李京梅:也有,比如机器翻译,文本生成搜索这些研究领域的人才比较多。

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

国内大模型核心研发人才规模

量子位智库:您觉得目前的大模型能够做核心研发的人才大概是在什么规模? 

李京梅:乐观点的话,国内做核心研发有几千人左右,OpenAI做核心能有几十人,投入已经是非常多的。中国大厂不超过10家,做核心大模型的也没有很多,创业公司就更少了。像王小川说100天招100人,也不是全部都研发大模型,所以几千人就已经很多了。 

量子位智库:您觉得未来这些核心研发人才会越来越多吗? 

李京梅:肯定会多,现在高中毕业生上大学选专业,他们会参考人才市场薪酬,从而决定选择什么专业,高校也会根据市场情况增加设置相关专业。
除了学生群体,还有很多潜在人才加入大模型行列。之前有很多候选人来找我,把自学大模型的学习笔记发给我,来询问应该补充学习哪些论文和文章。在这些方面有过积累的人才,我觉得都是可以发展成大模型人才的。 

量子位智库:您说的这些潜在人才我们看作是大模型的储备人才,那您认为大模型核心研发人才未来会成指数级增长吗? 

李京梅:我觉得不至于成指数量级增长,从我的角度来看,能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后,大模型作为基座来讲已经遍地开花了,未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上,所以其实做最底层的技术人员,全球范围内的人数都不多。所以我觉得大模型核心研发人员,可能没有之前想象的需要那么顶尖的人才,如今“百模”出现,就表明大模型的基础能力已开始趋同,现在投入大模型的人才不是大家想象说的那么顶尖,必须要OpenAI、Google、Meta出的大模型,可能就会更多围绕上层行业应用去落地。

今年上半年大模型落地很少,都在训练大模型本身,现在发现大家差不太多。大家都在做0-1的事,想要比别人走得更远,更多的人就会关注怎么把大模型应用到场景中。

大模型人才发展现状与未来

量子位智库:您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展,还是相对成熟的阶段呢?

李京梅:如果是指和大模型核心研发相关的人才,那我觉得已经迈过了刚刚起步的探索阶段,现在处于高速发展阶段,分水岭是“百模”情况的出现,意味着已经有很多大模型团队已经实现技术闭环。

量子位智库:您觉得迈向下一个阶段的标志性事件是什么呢?

李京梅:还是商业化事件,比如面向C端有第二个抖音这种现象级产品出现,面向B端稍微滞后一些,企业客户从内部使用到大范围推广还需要一些时间,目前很难说使用大模型给客户带来了多少效用。

量子位智库:关于大模型人才的分布,您觉得哪些地方是比较密集的?

李京梅:我觉得是北京、上海、深圳。北京肯定是最多的,这跟高校人才是密切相关的。然后就是华东、上海,再延展到杭州,因为有阿里在。再有是深圳,因为像华为、腾讯都在深圳。 

量子位智库:您觉得国内目前的这种培养模式可以从哪些方面进行提升?

李京梅:加强校企合作是很好的培养人才的方式,这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文,但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势,高校人才将自己的研究和实际场景结合会更有益,研究出成果也能继续发论文,对企业来说也能形成前瞻技术的沉淀。

当前一直在讨论产、学、研联动,其实现在很多企业和高校也在做这种合作,澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式,更可能是应用和基础研究紧密结合这种方式。 

量子位智库:除了实践型人才,您认为未来什么类型的大模型人才更受企业的青睐?

李京梅:我觉得是跨界人才。比如面向金融领域的大模型,就需要懂金融和大模型的人才。比如AI for science,需要既懂制药又懂AI的人才。未来大模型往产业落地,跨界人才是非常吃香的,至于是从科学家里培养AI人才,还是从AI人才里培养懂业务的人才主要是看大家的选择。

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...