新华网 正文
数据工厂里的年轻人
2018-07-08 09:13:27 来源: 解放日报
关注新华网
微博
Qzone
评论
图集

  数据标注是一项枯燥的工作,不少数据标注员喜欢戴着耳机听音乐。向凯 摄

  在上海徐家汇一家广告公司做文案的索琳,从未想过自己也能参与打磨人工智能的应用。她最近接到任务,教一位只存在于手机应用程序里的“老爷爷”与用户对话。比如,当用户问“世界上谁最美”,他就会回答“当然是你最美”。一问一答均由索琳事先写好,再由一家擅长语音识别的人工智能(AI)公司植入。索琳编写了近3000条问答,一心想把“老爷爷”培养得更风趣、睿智。不过,实际上她只是提供了最基础的数据。

  一千多公里之外的贵州惠水县百鸟河数字小镇,一家提供数据服务的公司,22岁的吴潘威正对着电脑用鼠标“贴标签”:将一张普通道路交通图中的机动车、行人、非机动车逐一框中……和索琳教机器对话一样,吴潘威贴标签的目的是教人工智能看图识物,他们被叫作“数据标注员”。

  当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据,已经成为世界认识贵州的新名片。在脱贫攻坚主战场的贵州,大数据的经济增速已连续7年位居全国前列。

  产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共20余万名数据标注员。

  在百鸟河数字小镇,仅吴潘威所在的梦动科技有限公司就有400多名标注员。他们是踩着信息技术浪潮的流水线工人。

  “教机器认识这个世界”

  这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有149个,它们被叫做“人脸关键点”。

  在百鸟河数字小镇,吴潘威与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。吴潘威浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。

  人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。“吴潘威们”只需按照人工智能工程师们设定的数目规范来标注。换言之,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。

  百度无人驾驶汽车,是梦动科技接手的第一个项目。公司人工智能服务部总监曾芸说:“刚接到无人车项目时,我们所有人都是蒙的,觉得这个事情不大靠谱,毕竟无人驾驶在我们眼里是高精尖的科技。”

  2016年5月,百度派技术人员来开讲座,开诚布公——“你们就是在训导机器,教机器认识这个世界。”那时,所有人都不知道有“数据标注员”这个职业,吴潘威和一起实习的小伙伴们互相称呼“画框的”。

  可不就是“画框的”?几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。

  “标注员都是‘滚雪球’带教带出来的,那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住。”曾芸回忆说。

  “后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的。”吴潘威腼腆地笑着说,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的。”

  那种感觉,就像一不小心踩到了时代潮流的浪尖上。

  “指数级增长”

  吴潘威是贵州盛华职业学院新近毕业的大学生,2016年初到梦动科技当实习生。在这里,一间办公室大约能容纳60名数据标注员,每张办公桌后面都藏着一张稚嫩的脸,几乎每个人都戴着耳机听音乐,同时不停地切换图片、移动鼠标,在屏幕上打点或者画框。

  他们大多是像吴潘威一样年轻的大学生。除了盛华职业学院,还有来自黔南民族医学高等专科学校等4所学校的实习生。

  但最早,这项工作并不是由实习生来做,而是那些年薪百万的人工智能工程师。

  31岁的杜霖是倍赛(北京深度搜索科技有限公司)的首席执行官,公司在北京、山西、山东、河南、四川、贵州、福建等地建设数据标注工厂,有近3000人的数据标注员团队。“对AI 和数据的研究,我们很早就开始了。”毕业自上海交通大学的杜霖告知,他的创始团队均来自上海交大。

  最早在2014年,杜霖注意到,随着人工智能在商业场景的应用逐渐落地,原来由工程师在实验室完成的数据标注呈“指数级增长”,工程师们应接不暇,专业的数据加工服务公司应运而生。

  国务院发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。杜霖判断,未来人工智能领域一定会出现巨大缺口——对于由人标注的数据的需求。“因为现在的人工智能还只是两三岁的孩子,需要我们不断地教它认识杯子、水果、玩具和汽车。”

  作为人工智能产业的下游端,“吴潘威们”对行业勃兴的感知或许是最敏感的。

  “从去年起,一个个项目接踵而至。”曾芸说,“目前梦动所承接的项目几乎囊括所有人工智能领域:图片、文本信息、语音、视频、在线审核等,其中图片是最大的一块。”

  吴潘威已经记不清标注过多少项目,“五花八门,难以想象”。无人售货超市里,商品种类数以万计,光背包就有十几种;甚至有美甲店要求训练能识别指甲区域的机器人,那样就不会把指甲油涂到指甲外……

  6月29日,在梦动科技,记者看到办公室的柜子上摆放着几十种可口可乐饮料。项目组长蒋纯洁介绍,标注员需要先记住所有产品的类别、口味、容积,同一款产品要仔细看包装颜色和图案细微的不同之处,“否则标注的时候再去看就太慢了”。

  “最奇怪的是给猫脸和狗脸打点。”项目主管贾如松说。两个多月前,他们花了整整两个星期给一万多张猫和狗的图片打点,每张脸上要打34个点,“想来想去也没想明白这到底是用来干啥的”。

  “大学生为什么要来做这个”

  吴潘威是最早一批来梦动科技的实习生之一。做数据标注员两年多,当初和他一起实习的同学大多都离开了;而在他实习期间,数不清的实习生来来往往。他们抱怨工作枯燥乏味,没什么前途。

  “大学生为什么要来做这个事情?”吴潘威也不止一次问过自己。

  出生于1999年的陆森霖是贵州盛华职业学院计算机专业的大一学生,实习近3个月了。学校离公司只有1公里左右,这是学校在产教融合方面的部署。

  陆森霖正在做的项目是语音识别,每天的基本任务是将约1800秒的语音输出成文字,将重叠在一起的几个音色分开,这会花费他五六个小时;最麻烦的是专业术语,不懂的名词要上网查;做完之后由质检员核对,如果有错误就会被打回来重新修改。

  “我完全不知道意义在哪里。”陆森霖说,“你看我开着音乐,听几百秒就切过来放首歌放松,否则一直听会受不了。”

  标注工作单调重复。“再难的项目3天之内就能随便耍了。”标注员梁红说,他是记者碰到的少有的对人工智能感兴趣才来实习的学生。

  数据标注行业有一套明确流程:上游的人工智能公司将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会分发给“散兵游勇”,比如学生或二三线城市的兼职人员。

  而到了下游,项目经过层层转包,利润已经低得吓人。“这与我们一线标注员的付出是不对等的。”曾芸说,早期梦动科技只能从中游的众包平台获取项目,现在则尽量直接对接上游客户。

  如今,上游的人工智能公司仍保留少量数据标注员。“我们的全职标注团队主要是处理隐私性高和有特殊要求的数据,比如处理医疗领域的数据就需要有一定专业背景。”云从科技研究院副院长周翔介绍,“其余的数据处理便交给下游几十家数据标注团队。”在被称作“国内首档人工智能挑战类节目”的央视热门节目《机智过人》中,曾与模拟画像专家林宇辉在同一舞台竞技的,就是云从科技所打造的人工智能“御眼重明”。

  对一般的数据标注员而言,职业生涯是一眼望得见头的:从一线标注员做起,然后是质培专员(相当于质检)、项目组长、项目主管、项目经理,最后是部门总监。

  “简而言之,就像上世纪80年代的来料加工,大工厂可以,家庭作坊也可以。”梦动科技联合创始人农政说,“甚至有人把数据标注员比作流水线上的工人,几个学生、几个零散人员都可以接单。”

  农政并不否认目前数据标注确实是一个需要大量劳动力的行业,但他强调,应该看到行业发展的未来,“不能现在看到他们在画框,就判断未来十年他们还在画框。”

  今年7月,吴潘威终于作为正式员工与公司签约,成为一名商务助理。实际上,他从未想过自己能留下来。当初一起实习的有近百人,和他一样最终成为正式职工的仅有11人。他们不再做标注员,而是走上项目组长等管理岗位。

  “也许这是我们接触最前沿科技唯一的机会。”吴潘威说,他的大多数同学毕业后都去从事销售、中介等工作,而在梦动,他能与最先进的科技公司对接,感受信息技术带来的震撼。

  “不如我们发明标注机器人来解放自己”

  每天早上9时,吴潘威准时到公司。一旦进入工作角色,每个人都是紧张而严肃的,相互之间很少交流,若遇到紧急项目,他们还需要加班加点完成。

  短短两年间,从小小的鼠标一端,吴潘威便感受到了另一端世界前沿科技进步的速度,“以前无人驾驶汽车框出基本轮廓就可以了,现在不只是从2D平面进化到3D立体,还要标注车头的方向。”

  在梦动科技,“大数据,让一切变得更智慧”等标语随处可见。医疗、金融等人工智能近年来踏进的领域,都在日新月异地改变,而起点就在小镇年轻人的手指尖。百鸟河数字小镇聚集了大数据、教育文化、健康养老、文化旅游等众多公司,是当地着力发展大数据产业所建的新型园区。一幢幢彩色尖顶的欧式小楼,令小镇充满异域风情。

  实际上,数据标注本身也是一个要用人工智能来改造的行业,标注工具也正在迭代升级。比如,人脸识别最早均由人工标注关键点,但眼下吴潘威接到的项目里,机器已经打好点,标注员要做的只是最后的校正。

  在杜霖看来,其实不必把数据标注看得过于神秘,“说到底人工智能数据标注只是商业外包行业一个非常细的分类,几十年前这种数据外包业务就已存在,比如替银行处理电子表格的公司,但因为人工智能,数据标注才变成了一个独立的行业”。

  在数据标注领域,更大的潜在威胁可能并非同行竞争,而是来自机器——当算法足够先进时,少量的数据就能达到效果,到那时,还需要这么多的数据标注员吗?

  “也许有一天人工智能会全面取代人类,但数据标注员一定是最后被取代的那批人。”杜霖对此保持乐观态度,“最高明的算法也需要基础的数据学习,而数据标注员,一定是坚持到最后一班岗才把数据交付给机器模型的。”

  梦动科技人工智能服务部助理总监龚芳芳也说:“想象把人工智能当作婴儿,而我们可以把他训练成天才。”

  人们似乎乐意见到“机器天才”与人类的竞争。根据百度搜索指数,公众对人工智能的关注从2016年起呈显著上升趋势,当年3月的围棋人机大战——AlphaGo击败围棋世界冠军李世石,第一次将人工智能带入大众视野。

  人工智能是否会替代人类?

  对吴潘威来说,这并不是个沉重的话题。“标注员之间还常常开玩笑,不如我们自己发明一个标注机器人来解放我们自己。”他笑着说,“毕竟,人都是懒惰的。”

  而在通往未来无限可能性的路上,数据标注员们最大的挑战依旧是克服乏味与寂寞。

  一名年轻的标注员说,以前他与一位小伙伴会在一起比,谁今天画的框多,“他框了300个我框了400个,第二天他就不跟我说话,一直框。但是现在,他走了,我才觉得这个工作真是无趣”。(见习记者 向凯)

+1
【纠错】 责任编辑: 杨婷
新闻评论
加载更多
华盛顿民俗节上演叠罗汉
华盛顿民俗节上演叠罗汉
哺育
哺育
新华社国内照片一周精选
新华社国内照片一周精选
俯瞰夏日西湖
俯瞰夏日西湖


010020020110000000000000011199701123094026