2017百度世界大会宣布BROAD百度AI公开数据集计划互联网

砍柴网 / / 2017-11-23 13:28

优质的机器学习质量离不开其背后的数据集,而一个优质数据集的开放,将为更多技术提供学习养分。11月16日,在2017百度世界大会AI技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布,推出百度AI公开数据集计划——BROAD Baidu Research Open-Access Dataset,并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众开放。

image.png

“BROAD”百度AI公开数据集计划(http://ai.baidu.com/broad)率先开放的三大数据集各有所长。室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶。它是世界第一个带像素级语义标签的室外3D视频。

视频精彩片段数据集主要来源于爱奇艺精彩视频片段。视频精彩片段数据集的视频类型为综艺节目,目前囊括1500个长视频,视频总时长约1200小时,还从中手动收取出18000个精彩小视频,同时能够提供视频帧的图片特征序列,是全球首创的开放精彩片段标注数据集。

首次亮相的百度阅读理解数据集DuReader,是迄今为止规模最大的中文开放领域阅读理解数据集。数据集基于真实应用需求,所有问题来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和知道UGC文档,答案是基于问题与文档人工撰写生成的。数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题,100万文档及42万人工撰写的优质答案,并提供开源基线系统。DuReader将为阅读理解技术研究提供有力支撑,加速相关技术和应用的发展。

image.png

真实、海量无疑是“BROAD”百度AI公开数据集计划最好的形容词。作为全球最大的中文搜索引擎,百度积累了规模庞大、种类丰富的真实数据。百度日趋成熟的AI生态体系,也为系统开发图像、文字等AI领域数据,提供了有力的生态支持。开源数据集的目标,就是希望可以将百度多年积累的优质、庞大数据开放出来,为认知层、感知层的AI技术提供学习驱动。

image.png

杨睿刚表示,这些数据是百度AI生态的真实数据,有些是首次发布,有些是目前国际同类型公开数据集中最大的。百度还计划在2018年推出供在校师生免费使用的BROAD云计算平台,共同推进AI技术的发展和落地。“采集数据是一个长久的过程,而数据开源也是百度长久的打算,更多精彩的内容将会逐步为大家呈现。”杨睿刚说,百度愿意和公众一起,持续开放真实、大规模的数据集,为推动AI发展和落地努力。



1.砍柴网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.砍柴网的原创文章,请转载时务必注明文章作者和"来源:砍柴网",不尊重原创的行为砍柴网或将追究责任;3.作者投稿可能会经砍柴网编辑修改或补充。


阅读延展



最新快报

1
3