A. 数据标注行业的发展面临哪些挑战
01.不同的行业、不同的业务场景对数据标注的需求存在一定的差异性,现有的标注任务还不够细化, 缺乏定制化标注能力。
数据标注的应用场景十分广泛,具体来说有自动驾驶、智慧安防、新零售、AI教育、工业机器人、智慧农业等领域。
不同的应用场景对应不同的标注需求,比如自动驾驶领域主要涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,而智慧安防领域则主要涉及面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等内容,这对数据服务供应商的定制化标注能力提出了新的挑战。
02.标注效率与数据质量均较低,且欠缺人机协作能力。
数据标注行业的特殊性决定了其对于人力的高依赖性,目前主流的标注方法是标注员根据标注需求, 借助相关工具在数据上完成诸如分类、画框、注释和标记等工作。
由于标注员能力素质的参差不齐以及标注工具功能的不完善,数据服务供应商在标注效率以及数据质量上,均有所欠缺。
此外,目前很多数据服务供应商忽视或完全不具备人机协作能力,并没有意识到AI对于数据标注行业的反哺作用。
以曼孚科技标注业务为例,通过在标注过程中引入AI预标注以及在质检过程中引入AI质检,不仅可以有效提高标注效率,同时也可以极大提升标注数据集的准确度。
03.品牌数据标注服务提供商依赖众包、转包模式,造成标注结果质量的层次不齐。
现阶段,数据标注主要依靠人力来完成,人力成本占据数据标注服务企业总成本的绝大部分。因此很多品牌数据服务供应商都放弃自建标注团队,转而通过分包、转包的模式完成标注业务。
与自建标注团队相比,众包与转包的方式,成本较低且比较灵活,但是与自建标注团队相比,这两种模式信息链过长,且质量难以把控,从长远角度来看,自建标注团队更加符合行业发展的需求。
04.基于众包、转包模式下的数据标注任务会造成用户数据缺乏安全性, 并面临隐私泄露的风险。
一些特殊行业的需求方,比如金融机构和政府部门格外注重标注数据的安全性, 但是一些数据标注企业出于成本方面的考虑,会将这些敏感的数据分发、转包给其他服务商或者个人,这就带来了巨大的潜在数据泄露风险。如何建立一套完善的数据安全防护机制就成为当下诸多数据服务供应商需要着重考量的因素。
B. 数据标注是骗局吗
说数据标注员是骗局的原因是诱导标注人员缴纳一些费用,然后公司会以各种理由考核不通过,从而让数据标注人员无法进入项目从而进行骗人。
有的公司以项目多为由,大量的招数据标注人员,这个时候公司就会诱导标注人员缴纳一些费用,说为了长期稳定的合作,但是必须考核合格之后才可以跟进项目,交完钱之后,公司会以各种理由考核不通过,从而让数据标注人员无法进入项目,这就是数据标注人员进入了公司骗局。
那么,数据标注员有哪些坑呢?首先数据标注不是随时都有的,但是根据项目的长短来决定的,数据标注员在开始的时候都会进行培训,所以有的时候项目没有了,标注员就没有什么用了。
但是如果项目比较长的话,标注的难度也会增高,还有就是标注员,如果标错了的话,项目负责人会让你返工,重新标注。
防止进入骗局的方法:
1,戒除贪婪,勿信,天上掉馅饼。
不要听信陌生人的花言巧语,贪图优惠和方便,办理业务要到正规的营业厅。同学们切勿贪小便宜,遇到上门推销不要轻易购买;化妆品、洗发水、运动鞋或笔记本电脑等物品,骗子极有可能采用伪劣产品或以数量短缺等方式进行诈骗。
防止银行卡诈骗、网上诈骗、电话诈骗,不要相信未经核实的退学费、中奖、捐助等信息、电话,不要贪图小利以免上当受骗。
2,提高警惕,勿信不明证件物。
一些犯罪分子为了博取同学的信任,会提供伪造的证件,如学生证、身份证,所以同学们一定要仔细辨别真伪,防止上当受骗。
C. 数据标注行业的未来是什么
数据标注指使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。2019年,我国数据产量总规模为3.9ZB,较2018年有所上升,2020年中国大数据市场整体规模预计首次超过100亿美元,数据量的增加推动大数据行业支出规模逐年上升。
在此背景下,数据标注需求随数据量增长而上升,2019年需求量约为36EB,市场规模达30.9亿元,2020年在36亿元左右。从供给端来看,大数据产业发展必将推动非结构化数据的清洗标注需求,从而带动数据标注相关企业数量上升。
数据量上升,大数据支出增加
近年来,我国互联网产业高速发展,带来数据量的迅猛增加。2019年,我国数据产量总规模为3.9ZB,同比增加29.3%,占全球数据总产量的9.3%。人均数据产量方面,2019年我国人均数据产量为3TB,同比增加25%。
—— 更多数据来请参考前瞻产业研究院《中国数据标注行业市场前瞻与投资战略规划分析报告》