更多精彩 >

数据采集标注:AI产业落地的「价值」新高地

2019-10-25 11:18:18   来源:投资家网专栏  作者:新摘商业评论 

摘要:AI跑的越快,数据的加速度就越快。

AI跑的越快,数据的加速度就越快。

出品/新摘商业评论

撰文/皮爷

1997年5月11日北京时间早晨4时50分,一台名叫“深蓝”的超级电脑在棋盘C4处落下最后一颗棋子,全世界都听到了震撼世纪的叫杀声──“将军!”这场举世瞩目的“人机大战”,终于以机器获胜的结局降下了帏幕。

这也标志着,AI终究是以不可抵挡之势冲进了现代社会的舞台。

如今,在距离5G技术真正落地就差临门一脚的万物互联的当下,AI时代越来越成为一个可望并可及的时间节点,概念的喧嚣和争论终于在此刻即将被画上一个收尾的句号。

从某种角度而言,它像一门“火箭”的生意,响彻云霄却又往往消匿于人们的视线之外,奇快无比但仍让人不断感知到它的运行轨迹。

但相比于流星划过天际的加速度,外界更想看到的是AI背后的纹理和每一个加速被无限放大的“慢镜头”,这些背后的故事真实发生又肉眼可见。

而数据,正是解构AI的第一环。

一、AI数据「向阳而生」

350个小时,这是贾宇航给出的一个数字。

他是Testin有数的总经理,上面这组数字便是Testin有数项目经理的职前培训时间,这300多个小时被拆解为多个模块——AI基础、作业管理、场景搭建、突发事件处理等等。

将这些拆解的模版拼接组合,便构成了一个完整的行业操作架构——AI数据采集标注服务,这是一个藏在AI高光影子里的幕后产业。

一个明显的信号是,在当下这个全民皆“AI”的时代里,AI数据服务始终保持着向阳而生的进击姿态,缓慢却又不容置疑。

对于这个行业近几年的发展,一组数据是最佳佐证:据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。

你可以理解为,AI数据服务如同人工的“水电煤”,只有这些原料储备充足,才能保证人工智能的大船顺利航行。

和算法、算力一样,数据同样至关重要。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥表示。

拆解来说,当下的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,而需要用于训练的数据量越大,这些都为这个行业带来元源源不断的活水。

具体的工作内容不难理解——用数据爬虫抓取互联网现存数据,并进行选取拉框,再或者根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。

更可以看作,AI数据的采集与标注是以互联网时代的其他技术手段为抓手,在如今AI+lOT+5G的时代里,它站在巨人的肩膀上为人工智能提供最精准和最丰富的养料。

一个定论是,AI跑的越快,数据的加速度就越快。

二、中场战事

但从某种角度来说,AI数据服务的中场已至。

随着人工智能的逐渐落地,企业对于数据精度的要求也开始越来越高,更多粗放的企业已经不能满足高质的要求。

“对于算法,数据已经不仅仅是充当饲料,同时也在逐渐充当婴儿的奶粉,运动员的优质蛋白一样,拥有了就可以更好的成长具备竞争力。”贾宇航表示。

但事实上,为算法提供足够优质的婴儿奶粉,并不是一件容易的事。

在数据采集标注服务中,尤其是数据标注,一度被外界描述为“血汗工厂”——在不少中国的三四线城市乃至山区,从事数据标注的人们遍布其中,无数大量、廉价的标注工作填充着他们的闲余时间,进而为人们带来一定的报酬。

但就本质而言,这种机会正在越来越少,“随着标注行业的持续推进,更多重复性的数据已经不需要再被标注,更多精细化的、专业化的数据和场景才是目前的刚需。”

摘掉廉价劳动力的帽子,不难发现数据AI数据服务行业正在发生着从量到质的本质变化。

一个最简单的例子是,如果是人脸检测,那么利用人们的拉框标记就可以很快满足需求。但随着专业AI公司要求的提升,AI已经不再仅仅是做人脸检测,而是视线追踪、或是微表情检测。很显然,这类需求很难通过互联网或者众包用户采集完成。

有不少前沿性的公司已经意识到这种改变,“Testin有数的办法是自建数据采集基地,搭建专门的场景实验室。目前,Testin有数已经有了200多人的研发与产品经理,以及近千人的数据标注团队。”

不难看出,随着人工智能逐步进入深水区,AI对于数据的需求正在以一种坚定而又缓慢的姿态改变,与之对应的也正是数据行业的重新洗牌。

贾宇航表示,现如今,一个完整的数据服务工作流程是由可行性评估到执行,到审核,再到交付四个环节组成。这中间,如何分工,审核与执行之间又该如何形成反馈闭环,怎样能够提升工作效率都是需要经验摸索以及成本投入的。

细颗粒化的流程,专业可视化的操作模式再辅以定制化的数据场景,无不都在显示这个“藏”在AI影子里的产业正在迎来自己的中场战事。

有人在改变,更有人在消亡。

三、数据服务的“摩斯密码”

在消亡和新生的常态之中,对数据服务行业中,企业需要拥有自己依托于AI发展的“摩斯密码”。

拆解来看,可以理解为三个不同的模块。

首先是针对不同场景的数据采集。从某种意义上来说,根植于使用场景的需求正在逐步成为现实,即通过自行构建实验场景来进行更为专业、高效的数据采集。

如Testin有数专门在横店建了一个数据采集基地,根据客户订单需求,进行特定动作、表情的捕捉,以进行多角度多姿态的动作数据采集。

二是标注方面的人才。从某种角度来说,人才才是标注行业自身壁垒的最大支撑。对于普通的数据标注,简单的拉框勾选定义即可完成工作,但更为专业的需求就需要从业人员对行业有足够深入的理解和足够丰富的标注经验。

一个比喻较为恰当,如果将数据标注比作一台手术,随着手术规模的逐渐增大,主刀人的技术和经验也必须提上同等的水平,只有这样,才能获取更为精准高质的数据。

最后是数据安全。对于这样一个老生常谈的话题,数据采集标注的企业更需要保持高度的敏感,从某种意义上,它更代表着企业的摘牌和操守,只有保持这个底线,才能永立于不败之地。

“Testin有数不仅在硬件和操作系统上采取了加密措施,封死USB接口、采用内网浏览器端操作标注数据、保证所有参与工作的员工只能操作数据,不能获取数据,且每次标注任务交付数据结果后,都会销毁数据。”贾宇航这样向我们介绍Testin有数的数据安全机制。

不能回避的是,行业的另一面也确实存在企业数据粗制滥放的现象,不过可以看到,在当下日益规范的大趋势下,良币驱逐劣币的现象正在发生。

偏“重”的场景化建设,更为专业的人才梯队,数据的安全底线,只有具备这三个环节的全部属性,企业才可以算是真正拥有了构建AI服务底层框架的“摩斯密码”。

就当下来看,这是一项颇为长远的工程。作为AI数据服务行业的领跑者,Testin有数等企业正在以自身为标杆不断完善行业规范,构筑数据服务行业的新未来。

在电影《西部世界》里,只有你达到代表着钥匙的迷宫正中心,才可能真正完成这个AI游戏的通关。

可以看到,在人工智能不断升温的当下,需要更多优质的数据构建它的数据密码,这是一个道阻且艰的过程,考验的不仅是耐力,更是与时俱进的进化力,唯有如此,才能真正达到迷宫的正中心,取得钥匙。

值得庆幸的是,有更多的像Testin有数这样的企业站在AI的身后,用更为专业专注的态度来保障AI,真正做AI行业的挖井人。

有领跑者,更有AI行业不断向前的动力加持,对于人工智能三要素之一的数据,它值得我们赋予更大的期待。


猜你喜欢

AI+酒店突破想象:用一杯奶茶,请一个人工智能

AI

在新一轮科技革命和产业变革的浪潮中,人工智能已成为未来社会发展的必然趋势。而随着技术不断迭代,市场认...

4天前

蒋东文频道

震撼!硅谷神级机器人刷屏,人类已经无法阻挡AI?

机器人AI

霍金生前曾预言:人工智能的成功可能是人类文明史上最大的事件,但也有可能是人类文明的终结!

2019-09-26

原创

作业盒子用AI让学习快乐高效 小盒课堂“喜提”家长好评

AI作业盒子

作业盒子研发推出的AI学习辅导工具“小盒课堂”如今已经成为很多家庭课后辅导学习的必备神器,更是收获了...

2019-04-25

产业AI:To B 领域的下一个投资转型风口?

投资AI

2018年,一种声音甚嚣尘上:创业的“黄金十年”已经过去。

2019-04-24

首届握握青创营,携手复星基金会国际创业大赛海选开始!

复星基金会

今天,握握青创营,真心邀请一批坚守在一线,具备初心,依旧努力的创业者们,走进青创营,和我们一起认真的...

2019-08-23

曾响铃

电子烟渐成“两大派系”,却更需警惕“格雷欣法则”

电子烟

2019年已过大半,上半年对于电子烟而言一定是悲喜交加的半年。

2019-08-23

原创

香飘飘紧盯90后消费主力,热衷高颜值更有料

香飘飘

如今,新年轻一代“Z世代”(95后00后)开始崛起。根据QQ广告与凯度(Kantar)联合发布的《Z...

2019-08-23

你“VPhoto”了吗?为什么品牌都选择它作为图片直播平台?

VPhoto

图片直播有多火爆,VPhoto就有多火爆。

2019-08-23

原创

群兴玩具半年报合并创新业务还未发力,下半年业绩值得期待

群兴玩具

8月21日晚间,广东群兴玩具股份有限公司(002575)公布2019年半年报。

2019-08-23

开放式社交产品盈利强劲,MICO米可世界再登埃及社交畅销榜首

MICO米可世界

近日,据App Annie数据显示,全球开放式社交平台MICO米可世界再登埃及iOS社交类应用畅销榜...

2019-08-23

原创

2019厦门人才企业榜单20强入围名单公布

厦门人才企业榜

去年,通过“厦门人才项目资本榜”对新兴领域的人才、项目、资本等活跃要素进行盘点,评选出“2018厦门...

2019-08-23

原创

上海自贸区推出购房新政,58同城、安居客辅助用户购房决策

58同城

近日,国务院印发《中国(上海)自由贸易试验区临港新片区总体方案》,设立119.5平方公里的上海自贸区...

2019-08-23

原创

利欧股份:2019半年报营收净利双增 财务指标全面改善

利欧股份

2019年8月22日晚间,利欧股份公布其2019年半年度报告。

2019-08-23

原创

上海“抢人大战”再升级,58同城招聘打造“留才”优质软环境

58同城

近日,上海发布一系列人才政策,上海自贸区新片区放松限购、上海市放宽总部投资等限制,以吸引人才,打响了...

2019-08-23

投资家网(www.investorscn.com)实时提供专业的创业、投资资讯和深度分析。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

傅盛对话赵何娟:2020是AI产品化一年,服务机器人出货量将大增

12月6日-8日,以“分野与共识”为主题的2019T-EDGE全球创新大会在北京举行,大会由钛媒体和...

25岁成为中国首富,38岁身家1269亿,女版“王思聪”的另类人生

去年7月至今,杨惠妍通过香港上市公司碧桂园所得的股票分红累计套现89亿元。杨惠妍家族以财富1750亿...

地处三线城市,这家MCN竟然一年内成为抖音最能带货的机构之一!

“想要比别人跑得快,就要比别人付出的多”,朱亮对投资家网记者说。

移动游戏出海才是中国文化输出的先锋军

一个国家的崛起,最先崛起的是经济,然后就会是军事科技和文化。

光大控股艾渝:AIOT进化论——拥抱智能化时代的战略引擎

Super Return Asia本周在香港举行,光大控股董事总经理、新经济负责人、特斯联CEO艾渝...

投资家网协办:苏州相城经济技术开发区(深圳)投资推介会圆满举办

投资家网协办:苏州相城经济技术开发区(深圳)投资推介会圆满举办

多年来,来自珠三角和长三角的企业在相城保持了强劲的发展态势,良好的成绩有目共睹。在此落户的企业,如今...

引领产业新趋势|第十四届中国IDC产业年度大典启幕在即

引领产业新趋势|第十四届中国IDC产业年度大典启幕在即

2019年,是数字经济风起云涌的一年。传统行业的发展进入了瓶颈期,而以5G、大数据、边缘计算、新能源...

猎云网2019年度CEO峰会:穿越周期,解密新常态下的创投变迁逻辑

猎云网2019年度CEO峰会:穿越周期,解密新常态下的创投变迁逻辑

12月10-11日,2019年度CEO峰会暨猎云网创投颁奖盛典在北京望京凯悦酒店隆重举行,近百位知名...