经济观察报 记者 郑晨烨 每当丈夫上班、儿子返校,家住武汉的全职妈妈吴海燕便会坐到电脑前开始一天的工作,在一个被称为“freespace鱼眼语义分割”的项目中进行标注工作。
之所以叫鱼眼语义分割,是因为吴海燕标注的图片全都来源于车载鱼眼摄像头所录视频。这些图片的场景大多在停车场中,吴海燕需要做的是利用点阵工具,将立柱、栅栏、机动车、行人等物体的接地点标出并链接,形成一块蓝色的封闭多边形区域,这块区域就是freespace(可行驶区域)。
当吴海燕将一段视频的300帧图像全部标注好,这些数据集便可用于训练智能汽车的自动驾驶算法,帮助AI(人工智能)理解在停车场哪些区域可以行驶、哪些区域可以泊车以及哪些区域不能触碰。
【资料图】
“现在看到新闻里很火的Chat-GPT都有种亲切感,好像是自己手把手教出来的。”2月15日,吴海燕告诉经济观察报。
这样一份可以被形容为AI“老师”的工作,在《国家职业分类大典(2022年版)》中被称为数据标注员,即通过对图片、语音、文本等数据进行标注和加工,为AI算法学习及优化提供样本。
像吴海燕这样的兼职数据标注员,仅在其工作的平台就有近两万人,他们的职业背景和社会身份各异,既有吴海燕这样的家庭主妇,也有大城市的基层白领,以及部分残障人士。
这些数据标注员正处在火热AI赛道的最底层,用日复一日的枯燥劳动,为如今大放异彩的各类AI应用提供重要的数据养料,他们所在的行业也被统称为“人工智能基础数据服务”。
根据IDC发布的数据,近5年中国AI基础数据服务市场规模年复合增长率达到47%,预期2025年将突破120亿元,占到中国人工智能市场规模总额约10%。
“数据标注员”
2月15日,经济观察报记者在兼职猫平台报名了一份数据标注员的兼职,当晚,项目负责人赵强杰电话询问了记者的基本情况,随后将记者拉至一个名为“试标”的微信群里。
“新进群的同学先看群公告,再看聊天记录里的视频,看完有想做(数据标注)的,私聊找我试标,只差三个人了。”
这是一份时长36分钟的标注培训视频,示范了如何在一帧车载鱼眼摄像头录制的视频中,通过将立柱、机动车、行人等障碍物的接地点连接到一块,从而精准标注出一块蓝色区域。
“标注人员需以封闭多边形的形式标出视频每一帧画面中障碍物接地点freespace的边界。”与教学视频配套的另一份培训文档上有对该项目的概述。
“freespace简单说就是可行驶区域,常见于泊车场景的数据标注,通过将栅栏、墙面等障碍物阻隔的近端区域,未被机动车占用的可泊车位等边界的像素坐标信息标注后,用于帮助AI定义可行驶区域,可以实现自动泊车、一键呼叫等功能。”上海一家智能硬件企业的算法工程师冯易向经济观察报解释。
赵强杰所说的试标,便是兼职数据标注员的面试,通过标注“实战”来测试应聘者的工作能力,在大致看完了标注项目的教学视频后,记者私聊了赵强杰,表达了想要试标的意愿,随后得到一个测试账号。
记者登录一个名为数加加众包的数据标注平台,并在其中打开了赵强杰指定的测试项目。在观看教学视频之初,这份标注工作的难度并不高,只不过是按照既定规则将画面中可行驶区域标注出来。
但在实际操作过程中,记者还是遇到了不少难题,例如画面中远处的立柱被遮挡,无法准确标出边界与接地点,抑或是画面远处过于模糊,无法区分标注物体所属类型。
用了将近10分钟,记者勉强完成了第一帧图像的标注,过程中,赵强杰多次催促了记者。
“你确定你看过视频了吗?看过视频是不可能还标成这样的,要像你这样标,AI学完车就直接撞柱子上了。”在收到了试标注的图像后,赵强杰向记者反馈。
他还告诉记者,通常一段鱼眼视频会有20帧图像需要标注,熟练的数据标注员一天需要标200-300帧画面,像记者这样的标注速度无法胜任兼职工作。
在记者进行试标的同时,一位在深圳上班的白领董程也加入了赵强杰的群。
他稍早前在社交平台上看到有关兼职数据标注员的介绍信息,随后被“下班兼职、工资日结、日薪300、就像连连看”等关键词吸引,在私聊发布信息的博主后,获得了赵强杰的联系方式并进群。
同记者一样,董程也在随后的试标中被赵强杰淘汰,记者对比了董程标注的截图与赵强杰提供的正确标注截图,发现除了个别点位的标注不同外,大致区域范围其实并没有太大差异。
“自动驾驶类的数据标注需求是很严的,不精细的数据甲方是不会验收的,你看起来可能就差一点点,但是人人都差一点点,累积起来给到AI训练那边可能就会是天大的错误,如果出现无效训练,轻则浪费一些成本,重则要出人命的。”面对记者的疑问,赵强杰说。
深圳一家AI企业的产品经理何茂对记者表示,在算力、算法和数据构成AI应用的三大要素中,训练的准备数据可以算得上是最重要环节,谷歌大脑创始人吴恩达就曾指出:“AI研究80%的工作应该放在数据准备上,确保数据质量是最重要的工作;业界如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。”
何茂告诉记者,当前主流的机器学习算法为有监督学习,即让机器通过标签化的数据进行学习训练,“就像人类一样,小时候有人告诉你什么是汽车,什么是飞机,教你学会了鉴别,这就叫有监督学习”。
而在有监督学习中,通过对大量原始语音、视频、文本及图片数据进行加工处理,从而使机器能够识别和学习这些信息的数据标注工作,便成了机器学习顺利进行的关键环节。“对经过标注的数据集进行模型训练,可以让AI在未来再次接收到对应数据时,能够进行简单分类并输出正确判断,例如freespace数据标注,便能够让AI在泊车场景下快速判断可行驶区域与可停泊车位,所以数据标注就像是AI的启蒙老师,教给不同场景下的AI最基础的鉴别和分类功能。”何茂解释。
冯易指出,对于有监督学习算法来说,训练数据的需求空间还很大,所以基础数据服务对模型算法发挥着关键支撑作用。
“训练”ChatGPT
根据应用场景的不同,数据标注也分很多类型,像赵强杰、吴海燕最近在做的鱼眼freespace标注就属于语义分割的一种。
“根据不同物体、区域的外形进行描边标注,将对应边界像素数据对应到具体类别和属性,使机器能够快速识别,相当于告诉机器什么样的是车、什么样的是路、什么样的是树等等,主要应用在自动驾驶、智慧安防等场景。”何茂告诉记者。
而近期大火的ChatGPT属于NLP(自然语言处理)模型的一种,这类模型的训练同样需要标注员进行对应的数据标注,赵强杰在去年底就曾接到过自然语义类型的标注任务,“那是一个十万条的新闻情感分类标注项目,要根据每条新闻的内容进行正面、中性、负面三种类型的标注”。
据了解,情感标注是指针对原始文本、语音等自然语言内容进行情绪倾向的判定,帮助NLP模型人类语境与情感。
赵强杰举例,“比如,机器收到了一句‘今天是周五’,这句话可能在传达正面情绪,如果后面紧接着补一句‘我还要加班’,就变成了负面情绪的表达,理解用户情绪能够帮助AI更好地组织回答”。
在赵强杰展示的项目说明文档中,记者看到了其团队去年所接新闻情感标注项目的具体要求,客户希望标注团队根据新闻内容,判断其对经济的影响好坏,从而进行三种类型的分类。
例如,在该文档中,有一则新闻内容是在去年北京市某场新冠疫情防控工作新闻发布会上,通报了多名违反疫情防控相关规定,及涉嫌妨害传染病防治罪的相关责任人,该则新闻的标注处有一个数字0,即此新闻表达的为负面情绪。
“情感标注的项目任务比较常见,除了在智能客服、智能家居领域,还可以用在舆情监测上,帮助企业快速锁定负面舆情,进行公关处理。”赵强杰说。
相较于略显简单的情感标注,吴海燕去年还曾参与过更为复杂的词性及句法标注,这类经过标注后的数据,便被用于训练类似于ChatGPT这类自然语言处理模型。
吴海燕回忆,该项目的原始数据主要为采集自各类社交平台评论区的语句,标注员要将语句中的词汇语法属性以及句中的依存关系进行标注。
以“今天凌晨苹果公司发布了i-Phone14”一句为例,该句中一共有“今天、凌晨、苹果、公司、发布、了、i-Phone、14”八个需要标注的词性以及依存句法,其中今天为时间词,标注为t,该短语又属于定中关系,需标注为ATT;凌晨同样属于时间词,标注为t,但在句法上属于状中结构需标注为ADV。
“原始的文本数据直接给到机器当然是识别不了的,所以需要进行标注,给每一个词语、句子进行定性,从而可以使用模型做分析和表达。”冯易向记者解释。
他告诉记者,目前中文领域主流的词性标注法,为北京大学计算语言所在2003年推出的语料库加工规范,其中将中文词性分为39类,包括“形容词、时间词、人名、地名、成语”等等,而中文作为典型的大字符集语言,仅仅标注词性仍难以用于高效训练模型,因此就需要进一步标注句法。
“常用的汉字可能都有七八千个,所有汉字加一块有10万个,还存在同音、同义、歧义等情况,这就需要将句法标注和词性标注结合起来,依存句法标注简单来说,就是分解一段句子,寻找其内部词语之间的依存关系,从而实现对不同语句结构的高效概括,让AI能够通过分析句子结构提炼出相关信息,以便更准确、自然地给到用户回复。”冯易表示。
何茂亦表示,诸如词性及句法标注只不过迈出了NLP模型训练的第一步,后续还要经过特征工程(将词句向量化,便于计算机识别)、选择模型、训练模型、评估模型及测试上线,如果没有高质量的优秀训练数据集作为基础,后面的所有工作都无从谈起。
“ChatGPT的诞生本质上还是属于‘大力出奇迹’的事情,依靠大数据、高算力、大模型硬堆出来的人工智能,背后包含了数不清的标注员、训练师的劳动成果。”何茂说。
如今,回忆起去年曾经参与的文本标注项目,再来看眼下到处都能刷到的有关ChatGPT的新闻,吴海燕觉得有些不以为然:“人工智能也没那么神奇,多少人把几百万、几千万的句子掰开揉碎了教它才教明白,教人才没这么费劲。”
“企业工会”的众包
“你是数加加公司的人吗?是代表数加加招人是吗?”在记者加入的试标群中,有应聘者艾特了赵强杰提问。
“我们是数加加旗下的企业公会,就是以团队形式领取任务的众包组织,群里只有我一个对接人,其他人找你们都不要相信。”赵强杰回答。
众包即一家企业或机构将工作任务拆分包装为不同的项目,以自愿自由的形式通过互联网外包给非特定群体。
国内最早让大众了解到众包的,便是每日穿行在大街小巷的百万外卖小哥,对企业来说,众包降低了用工成本,提高了业务运行效率,对从业者来说,众包形式灵活、多劳多得。
而对人工智能数据标注这样的工作来说,以众包模式运转无疑是最优解,因为数据标注这份工作实在是太过琐碎、辛苦且廉价。
像赵强杰就已经记不清遇到过多少干了两天就打退堂鼓的标注员,“大家都觉得这份工作简单,好像坐在电脑前把东西框起来就能轻轻松松挣钱,实际哪有那么好的事”。
对AI训练来说,数据标注的质量具有十分重要的意义,如果在标注过程中出现不准确乃至错误,很有可能会导致十分严重的后果。“比如鱼眼语义分割,该标的柱子没标出来,该圈的区域没圈进去,AI学习完,把车撞柱子上,或者死活识别不了空车位泊不进去”。
他以一个2D拉框任务向记者说明标注工作所需的细致程度,其在标注平台上打开了一张车辆在道路上行驶的照片,并指出记者的目标是将该照片中的物体分别打框标记。记者在图片中唯一一辆皮卡车上画了一个框,并提交了任务。看到记者发来的标注成果后,赵强杰乐了:“你再仔细看看,这个图里只有这一辆车吗?”记者反复查看图片,确认只有这一辆机动车后,再次向赵强杰提交了标注图片。
当看到赵强杰发来的正确标注图片后,记者才明白自己的错误有多“离谱”。
在正确的标注图片上,除了记者框定的那“唯一”一辆机动车外,道路上的交通标线,路两旁的行道树,甚至在树荫遮蔽下只显露了一小截的电线杆,以及画面远处几乎浓缩为几个像素点的三轮车都需要标注。“你画框的方式也不对,画的范围太大了,框线应该要紧紧贴着目标物体,不要留出空隙。”赵强杰又指出记者的一个错误。
他告诉记者,对标注员的工作质量,其公会的考核十分严格,例如最近正在进行的鱼眼分割项目,如果一名标注员连续标错了三帧画面,会被直接取消当月结算资格。“你来我们这干肯定拿不到钱。”赵强杰调侃。
但记者注意到,能够精准标注、极少犯错的熟练标注员,月收入其实也很低,远没有各类平台上宣传的“轻轻松松五六千”那么风光。
“现在标一个框基本就三到四分钱,甚至更低,我又是兼职,有的时候标得头晕眼花,一个月下来还没有一千块钱。”吴海燕说。
赵强杰也表示,其公会旗下熟练标注员的时薪大多在10-15元左右。
他统计,能够长期坚持在标注领域干下来的成员,大多为家庭主妇、制造业跨行、长期自由职业人士等,而像董程这类有稳定工作的白领,就算试标通过,也不会稳定在此兼职。
对于人工智能基础数据服务领域的商业模式,2021年登陆科创板的国内人工智能基础数据龙头海天瑞声(688787.SH)曾在其招股说明书中有过详细披露——
“以2019年某唤醒词命令词语音识别采集项目为例,该项目采集人数超过200人,采集对象要求多地区、可进行标准美国英语发音、年龄结构多样,采集工期为15天,发行人与服务公司、小外包人员和终端人员之间的数据服务采购过程如下:
发行人与各数据服务提供商签订采购框架协议,包括芜湖善慧人力资源服务有限公司(以下简称“芜湖善慧”),双方约定服务费率为10%;.........
发行人以电子邮件形式向芜湖善慧下达采购通知,写明项目简介、服务工期要求,并明确项目采购量为采集服务210人,标注服务525小时,其中标注服务525小时=所需标注的数据量200小时*标产比2.625;
芜湖善慧通过小外包人员在上海、深圳、成都等地寻找到足够数量的终端采集人员,同时直接寻找了部分终端标注人员,将报价信息反馈给发行人,经发行人判断符合其业务采购价格体系及同类项目价格区间,双方达成一致确定采集单价和标注单价;.........
发行人对小外包人员、终端人员进行培训,部署所需的平台和工具,小外包人员组织并管理终端人员开始进行原料数据的采集和标注,服务公司进行全程的监督、管理;
服务公司根据原料数据的采集和标注情况,保持与发行人、小外包人员、终端人员等各方的及时沟通,确保采购服务工期进度及数据质量,并向发行人交付采集标注后的数据;
发行人对数据进行质量验收后,与服务公司进行结算并出具验收结算单.........。”
此外,海天瑞声答复上市问询函时透露,2019年度,在其一体化数据处理平台注册账号的终端劳务人员达到了6.93万人,同期该公司的员工仅142人。
海天瑞声在生产训练数据的过程中,通过对接第三方数据服务供应商、人力资源外包服务公司的形式解决了大规模劳务人员需求,在这一过程中,甚至还可能出现层层外包的情况。
这在一定程度上解释了为何像吴海燕、赵强杰一样的产业底层数据标注从业者,在经历了繁琐、枯燥、重复且辛苦的工作后,依然得不到一份“像样”的回报。
不过,虽然背靠众包模式搭建起了一座低成本的人工智能数据工厂,但海天瑞声上市以来的财务表现却始终差强人意。
其2020年至2021年的营收分别为2.33亿元及2.06亿元,同比下滑了1.76%、11.53%,其2022年的营收有所回暖,前三季度同比增长27.82%,但扣非净利润仍旧延续跌势,1.67亿元的营收只有427万元的净利润,同比暴跌77.76%。
“人工智能行业整体发展迅速,应用领域和场景日趋复杂,像打个框、标个点这样简单的标注工作也很快会被AI取代,以后的标注工作只会越来越专业,越来越复杂,ChatGPT就是一个很典型的例子,人家已经实现了AI教育AI。”何茂指出。
在他看来,随着下游需求不断变化,上游一众人工智能基础数据服务企业若还沉迷于提供劳动密集型服务,很快也将面临淘汰。
在采访即将结束时,记者调侃赵强杰就像是一位在AI时代的富士康里上班的线长,他的回答却是:“标注员跟富士康里的民工比不了,人家包吃包住,签劳动合同,有五险一金。”