海天瑞声:大模型高质量数据需要高质量人工支持

1,137次阅读
没有评论

海天瑞声董事长贺琳近日接受媒体采访时表示,大模型高质量数据的提供,需要高质量人工的支持。同时,数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习,也为模型的评估奠定了一个很好的基础。

据每经报道,海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中,贺琳对未来的思考依旧谨慎。

对预期审慎乐观

ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央。2023年初,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番。

而海天瑞声方面,则已多次在投资者互动平台发布提示,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候,这意味着其有真正的应用场景,而非伪场景。

同时,当行业落地时刻到来,数据的需求量也会迎来大规模提升。4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

差距依旧存在

贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点。

随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。

时至今日,贺琳觉得,彼时促使她创业的瓶颈依旧存在。在她看来,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地,就会有更多的数据需求爆发。

贺琳称,现在很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素,这个瓶颈依然存在。不同的是,自己创业之初,国内竞争对手少,海天瑞声得以在市场快速突围。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。

庞大参数支撑

海量数据如何最终成功支撑起庞大参数的大模型运行?答案就是数据集。贺琳介绍,数据集的产生是一个非常复杂的过程,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

在设计环节,需要先去了解数据集是为了解决哪个问题,这个问题需要什么样的数据,需要多大的量,需要什么样的场景,以及采集的样本、规模、内容,包括采集的设备、标注的规范等等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音,有可能是图像、图片,又或是手写的字、道路的场景。

采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集。这其中,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。

贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题。

贺琳认为,高质量的数据包括了数据的丰富度,场景的丰富度,数据的准确性、一致性等,这都是衡量高质量数据的标准。她也认同,高质量数据的提供,需要高质量人工的支持。

来源:Donews

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 7 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...