云测数据:数据标注是最前沿的生产力

互联网
2020
03/31
10:00
分享
评论

就在三年前,人工智能还算得上是一个需要科普的新鲜词汇,但现在已经渗透到千万个行业之中。

无人驾驶、智慧城市、智慧金融、智慧零售遍布全球。即便是一家传统企业的客服系统,许多都已经配备上由人工智能驱动的问答系统。

人工智能产业本身,也在经历着风云变幻。有媒体总结,目前中国在 AI 领域有五家公司被称为“人工智能五强”。算法层有商汤、旷视,AI数据领域有云测数据,硬件方面有涂鸦智能、地平线。这些公司专注于深耕AI细分领域并拥有让行业认可的成果。

作为人工智能的基石——AI数据,越来越多的得到各方关注。它是价值是数十亿美元的庞大市场,也是这几年AI爆发的幕后推手。它看似简单,却影响人工智能最终效果,到底选择怎样的“数据”才最符合人工智能真正的场景落地需求?

AI数据,从荒蛮时代走向大生产时代

AI数据是人工智能的重中之重。众所周知,人工智能的三驾马车是数据、算力、算法,其中数据是人工智能行业的发展基石。

在每一个数据标注的办公室里,以下的场景几乎无一例外:在一排一排的电脑前,年轻人们浏览着照片和文字或者音频,他们可能在为无人驾驶公司标注路上的汽车和红绿灯,也可能是在为无人售货公司标注面包牛奶巧克力。

在这里,数据标注员的专注力容不得半点马虎。如果标注的不够精准,就会导致后期机器学习时候出现差错。这也让数据标注质量的差异,成为不同AI细分领域行业的短板。

但AI数据标注产业也曾经历过荒蛮时代。曾经的的“数据小作坊”,通过低廉的劳动力支撑起聚集在一线人工智能底层的数据需求。莽荒时代下虽然可以满足产量,但产出的数据的质量不够精准,这将极大影响后期算法上的效果。

举个例子,对数据标注质量和数据要求非常高的智能驾驶领域,很好地展现了数据标注服务的业态变化。尤其在自动驾驶模块,其广泛使用的AI深度学习算法,需要大量训练样本进行不断的算法优化,这些训练样本就是被标注过的原始数据。

在AI产业落地的前夕,一切人工智能的发展的基石——AI数据服务领域,泥沙下沉,清泉上涌,行业格局已经初现。其中,服务众多AI企业的数据标注头部玩家、专注于高质量的AI数据服务的云测数据,堪当典型。

Testin云测是一家人工智能驱动的企业服务平台,业务范围覆盖云测试服务、AI数据标注服务、安全服务及推广服务等,为交通、金融、地产、工业、信息、AI、教育、零售、电器、互联网等各行各业中的智能化升级与商业化落地保驾护航。

旗下专注于AI数据标注服务的云测数据,为智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域提供高质量的数据标注、数据采集服务,全方位支持文本、语音、图像、视频等各类型数据的处理。

Testin云测CTO陈冠诚认为,当前优秀的AI数据服务提供方,必须至少具备三种能力:对场景深度的还原能力、作业协同化能力、专业化能力。和荒蛮时期的劳动密集型数据标注公司不同,云测数据配备有专业搭建场景的实验室和标注基地,有完善的数据生产流程、抽检和质检环节并严格把控生产效率,同时在各个细分领域有专业人员进行监督和把控。

“没有好的数据,人工智能没有未来”, 陈冠诚在一次演讲中曾表示。尤其是在目前,算法和算力没有重大突破的情况下,质量更高、安全性更强的AI数据必然会成为人工智能商业化的落地关键点。这也成为了云测数据这样专业性、高质量数据标注公司的使命和立身根本。

得数据者,得人工智能

人工智能是引导整个行业向善的新科技,它能更好地把人从重复性的工作中解放出来。

无论是工业制造的重复性劳动,还是像医疗问诊的重复性劳动,亦或者是智能驾驶中的重复性劳动。一旦通过AI技术将人从繁复的工作中解放出来时,人们才能更好的投入到许多创造性的劳动中。

这对于曾经处于劳动密集型、劳动效率亟待革命的传统产业更是如此。但无论任何一家企业,一旦需要进行人工智能化改革,则更需要从掌握更精准的场景数据开始。

以机器人听懂人说话的这一需求为例,NLP数据具复杂性,除了对意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少,在这一过程中需要数据标注公司就需要对需求进行拆解、预判甚至提前给出建议,这对AI数据服务商的专业性提出了很大挑战。

这种专注于场景,对数据质量有更高要求的企业,更需要云测数据这种高质量、场景化的数据服务商,来助力企业将自己算法的精度推到一个新的高度。企业获得实际场景中所需要的数据,可规避数据杂乱带来的诸如成本增加、产品周期增加等的负面影响,同时发挥优质数据融合应用场景加速落地的优势,更好的帮助相关企业在AI具体场景中的工作。

同时,各个领域最高质量数据需求也十分迫切。AI在各种各样垂直领域进行落地,比如说教育、法律、智能驾驶、银行金融等,每个领域都有细分专业化的要求。其中,尤其智能化转型的传统企业和科技企业相比,更需要有成熟丰富的AI数据交付经验的数据标注企业协助,帮忙他们进行AI数据需求梳理、并引导企业数据需求,来获取更加贴合使用场景的高质AI数据缩减研发周期、加快落地进程,助力企业更快更好的智能化转型。

为了提升生产效率,满足对于精准高质数据的把控,云测数据从软、硬件的投入上下足功夫。

首先是云测数据在华北、华东、华北搭建了专业搭建场景的实验室和数据标注的基地进行相应的数据交付,此外,云测还自研出专业的、拥有自主知识产权的数据标注工具,更重要的是有项目经理全程跟踪数据交付的流程,保证最后数据交付的质量。

其次,在保证生产效率这一点上,云测数据十分强调作业协同化。在AI数据生产中,云测数据设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和时间节点,进行好上下游工作环节衔接,得以在保证质量的前提现下可以真正提高效率。

此外,在数据隐私安全方面,云测设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

Testin云测CMO张鹏飞也强调,“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

可以说,在数据生产效率、数据质量保证和数据隐私安全的把控方面,云测数据都具有普通数据标注公司相比不可替代的优势。

从数据开始,撬动第四次工业革命

人类对于人工智能的想象和实践,其实从更早以前就开始了。

在1769年,曾经盛名一时的土耳其机器人(MechanicalTurk)被称作可以打败人类的下棋木偶,在欧洲和美洲战无不胜,连拿破仑一世和本杰明·富兰克林都是它的手下败将。80多年后,事情真相才揭露,其实这个木偶里面坐着的是一个象棋选手。

这背后透露着一种朴素的本质,一切人工智能都来源于在人类的指导下进行训练,通过更高质和更适用于不同企业和行业的AI数据,才能更好的进行多元化算法训练。

三年前,麦肯锡发布了一份长达80页的《人工智能:下一个数字前沿》的报告,其中的核心观点就是,传统企业如果不及时进行人工智能转型,就会被人工智能的早期使用者越甩越远。

三年时间过去,当时的积极转型者都已经在走在行业前端,进行人工智能自我革命的企业已经越来越多。因为它们都明白一个普世真理,如果你不自我进化,终将被世界的优胜劣汰准则所抛弃。

索性,现在进行自我革新并不迟,甚至有了更好的助力帮手。经历过人工智能领域草莽斗争后,脱颖而出的专业化数据标注公司,已经能够帮助企业大幅度缩短人工智能的进程,减少智能化改革的成本。

在这一点上,云测数据已经准备好,运用更专业、更高质、更大的实力规模,帮助现代企业从AI数据开始,一起开启第四次工业革命。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3