训练人工智能的中国县城工人

1,206次阅读
没有评论

训练人工智能的中国县城工人

图片来源@视觉中国

文|蓝字计划,作者|林石

全世界都在谈论ChatGPT将带来颠覆性的技术革命,但人工智能训练师李杰却一点也激动不起来。

为了完成单价4分钱的计件工作,李杰和几十个人坐在一间摆设如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。

他的职责是为训练人工智能模型准备“饲料”,将大量的文字、语音、图像打上标记——“眼珠”、“四川话”、“绿化带”。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。

李杰做得最多的是道路图片标注,亦即给道路图片上的物体标注好名称、颜色等详细信息,业内俗称“拉框”。

效率高的时候,他一天可以拉2000-3000个框,按照一个框4分钱计算,他一个月能赚三千块左右。对于职校毕业、身在西北县城的青年来说,这份收入还过得去。

同样的场景也出现在非洲的肯尼亚。该国首都内罗毕有30多名工人,成为了ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字,并标注出其中包含性、暴力与仇恨言论的内容。由于每天阅读大量极具冲击力的文字,有人会因为一段描写而做上一周噩梦。

这些工人能获得每小时1.32美元的税后收入,如果完成既定的任务,时薪可以上升至1.44美元,并有大约70美元的奖金,相当于一个月挣2500元—3000元人民币,比当地一般蓝领工作强些。

在人工智能产品卷起巨浪的时候,从肯尼亚、乌干达再到印度、中国,水下还有一群不被看见的“人工智能训练师”,在简陋的工作环境下,以最简单的技能,与最前沿的技术产生了联系。

伺候人工智能

李杰对人工智能的理解,是手机上的智能语音助手,“就好像苹果的Siri”。

他在职校念电子商务,同学大多去了电商公司当客服,他时常听到同学对工作的抱怨。相较之下,数据标注的工作枯燥,却也纯粹,他只需要按部就班地完成任务、“可以在办公室吹空调,也没什么难度,就是有点费眼睛”

训练人工智能的中国县城工人

汽车进行“拉框”,一张图片就要重复数次类似操作

在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份几乎零门槛的职业。

年过50岁的郭梅,原本在山西当地的煤矿上班,“抬头是山,低头是煤”。离开煤矿之后,她长时间找不到工作,最后成为数据标注基地中的一名员工,每天要拉两千个以上的框。“我从来没有想过自己会和无人驾驶、人工智能有关系。”

除了“拉框”,李杰也会接到语音标注的项目,通常是甲方采集到的不同地域、不同人群的语音,李杰必须戴上耳麦,仔细地辨认出每一个声音的含义。

一天下来,他要听来自几百个陌生人在不同场景下的发言,可能是伴随着车流声、喇叭声的中年男人在马路上大声质问,可能是讲着广东普通话的阿姨对着麦克风发出指令,有时候,他甚至会听到脏话。

这些声音被李杰一一转录成准确的文字,有时还需要打上说话人的性别、情绪等更细分的标签,最后教会人工智能模型理解人类的语言,用于智能客服、智能音箱、地图导航等产品中。

人工智能的三大基石是数据、算力与算法,数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。

人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片,俗话说,有多少智能,就得付出多少人工。

数据标注领域有过一个神话——ImageNet项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过20000种——包括120个不同品种的狗。

项目源于斯坦福大学的人工智能专家李飞飞。2009年,业内普遍研究方向都是模型与算法,她另寻蹊径,改进数据质量。如今,ImageNet已经是世界上最大的图像识别数据库,被用于成千上万个人工智能研究项目和实验。

而在ImageNet项目背后,是来自167个国家的5万名数据标注员,他们足足花了三年时间才完成了全部图片的标注。

李杰算是图片标注的老手了,通常发给他的数据包内通常会有数百张不等的道路拍摄照片,李杰需要按照项目方的要求,对道路上的车辆、行人、绿化带等物体标注。另外还有一种常见的标注任务,则是标注道路的车道线。

这种数据标注要求特别多,“框框不能超过也不能小于,更不能漏点,一出错误验收不合格就得重新拉”。这些数据的最大流向是用于自动驾驶的机器学习,要确保驾驶安全,通常需要提供数以百万计的标注数据对人工智能加以训练——背后则是无数在电脑前点击鼠标、敲击键盘的李杰们。

互联网版富士康

贵阳,大数据之城。

在距离贵阳市中心约50公里的惠水县百鸟河数字小镇,有一家拥有超过500名数据标注员的公司梦动科技——其中的一半人,是附近盛华职业学院的学生。

大三学生郑成安在梦动科技实习,公司里的全职员工只有十来个人,管理层也是学校里的老师,“上课就是上班,老师就是经理”

训练人工智能的中国县城工人

他很热爱这份工作,数据标注给了他生活多一种选择。他在上高职之前甚至没碰过电脑,现在却可以凭借一份电脑前的兼职,一个月能拿到1500元以上的收入。

郑成安所在的惠水县,在贵阳88个县区中经济水平排在中游,2020年时的GDP为139.16亿元,农村常住居民人均可支配收入12924元——相当于每月1000元出头。

有时候为了多挣一些生活费,碰上紧急的项目,郑成安会主动加班。他清楚地知道,标注员的工作很难一直做下去,他暗自下定目标,要成为管理标注员的人。

像贵阳这样的城市,中国不止一个。

数据标注产业的诞生最早可以追溯到2005年。当时,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。

在深度学习成为人工智能主流之后,日益增长的互联网大数据成为了人工智能的最好养分。

据数据公司IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%都是原始数据数据。这些在经过清洗和标注后,变成标准化格式数据,才能被人工智能所理解。

作为劳动密集型产业,数据标注企业更多地选在三四线城市落地,地方政府无论是为了扶贫或是搭上互联网的顺风车,都能与互联网公司们一拍即合。

2018年,位于太原的山西转型综合改革示范区就与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”,基地占地面积超1万平米,已经引进了至少35家数据标注公司,超过2000名数据标注员。

在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作,和田地区更是抛出了“数据标注产业之都”和10万人数据标注就业基地的目标。

在河南,数百家数据标注公司从无到有;在济南,山东第一个数据标注基地,已经容纳了1500名“人工智能训练师”;在新三板上市的数据堂,也在保定、合肥,分别建立了容纳数百名数据标注员同时工作的基地。

而数据标注员身上的标签是“互联网民工”、“赛博流水线”。而对于绝大多数身在其中的人而言,一个互联网版的富士康,已经是当下不可多得的选择。

“教会徒弟,饿死师傅”

当数据标注成为“风口”,淘金者也随之而来。

2017年,周华偶然在朋友口中得知,做数据标注能赚钱,刚刚创业失败的他,决定再赌一把。

他算过一笔账,一名数据标注员一个月的产值能到7000元,除掉3000元的工资和质检、场地设备等费用,还能赚1500元。“如果招100个人,一个月就赚15万元。”

他找来合作伙伴,采购电脑、确定场地,又迅速地招聘了一批没有学历、工作经验要求的数据标注员,紧锣密鼓地接单。

此时的数据标注产业,赶上人工智能创业潮。根据前瞻产业研究院统计,数据标注公司从2014年开始不断增加,并在2017年达到高峰,当年数据标注相关融资事件达到9起,到2021年4月,已经有有18家公司获得融资,投融资事件39起。

数据标注行业有三种不同的公司,一种是大型互联网公司内部的数据标注部门,处理公司内部的数据;一种是像数据堂这类有自己基地的数据标注公司,他们有独立承接订单的能力,甚至外包给第三方;数量最多的则是以工作室形态存在的小公司,他们通常只能在众包平台上接单,或者第三方中介公司转过来的层层分包的订单——在平台上,他们或被称为“公会”、“团队”。

周华的工作室便属于最后一种,当时主要依赖百度众测的平台订单,平台上会分发各类任务,在行业内称为“放题”,包括数据采集、图片标注、文本标注等。据百度众测的数据,平台上有2500万的注册用户。

但百度众测上的单并不是都能到周华的手里。有时候他必须主动承接一些二手乃至三手的订单,那些掌握渠道的公司则可以赚取差价。

同样和他一样撞上风口的,还有当时还是创业公司的星尘数据。

星尘数据的创始人章磊,在华尔街、硅谷工作10年,曾在投资平台CircleUp担任资深数据科学家。2017年回国时,他本想继续在投资领域创业,尝试打造一个投研机器人——通过对大量公司年报、招股书等金融文档的学习,辅助投资人决策。当时国内的数据标注往往往往只能机械化地完成客户需求,这种“新颖”的数据标注要求,业内难以实现。章磊却看到了机会。

他创办的星尘数据,号称为客户量身打造数据标注方案。这家位于北京三里屯的公司,早在2018年1月就完成1000万元人民币的Pre-A轮融资,最新在去年8月又完成了5000万人民币的A轮融资,如今更多是做“数据标注平台”的生意——他们会去竞标大公司给出的数据标注订单,再分包给类似一些小型的“数据工厂“,周华是他们的其中一个合作伙伴。

2005年成立的海天瑞声,在此次生成式人工智能风潮中更是“赚麻了”。这家在业内以语音数据标注著称的公司,21年在科创板成功上市,今年一月以来,股价从每股60元左右暴涨到了每股超过200元。

训练人工智能的中国县城工人

海天瑞声最早从语音标注项目起家

毕竟对于国内众多研发人工智能的大厂而言,基础的数据标注是刚需,却不可能永远自己来做。那么只要有订单,无论是周华这样的工作室,还是海天瑞声、星尘数据这样的大公司,都能赚个盆满钵满。并非所有入局者都能有周华的运气,周华就知道不少同行,因为订单缺乏、结算周期长,公司早早退场。

当然,随着GPT-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。

人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分标注数据,亦即“半监督学习”,而不依赖于人工标注的自监督学习与数据标注,也在业界开始出现实践。

去年6月底,美国加州圣马特奥县的特斯拉办公室,多名特斯拉员工在一次会议中被告知,他们被裁员了。最终被裁员的200人中,大多数都是数据标注员。特斯拉目前正在开发的计算机Dojo,就采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。

腾讯、阿里、字节跳动等一众大厂,也都在研发自监督学习的算法,甚至有些数据标注公司也都已经有60%内容来自于机器的自动化标注。

李杰听过一个说法,数据标注员是“人工智能的老师”,是他和同事们日复一日的拉框,教会了人工智能理解人类世界。

但他从没想过,当人工智能时代真正到来的那一天,取代他们的,恰恰会是自己曾经的学生。

(为保护隐私,文中人物均为化名)

参考资料:

  • TIME《OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic》
  • 财经《火爆“智能”下的惨淡“人工”》
  • 第一财经《人工智能背后的“人工”:谁在训练AI?》

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 3 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...