数据之于人工智能,犹如石油之于工业时代。高质量数据集的建设是提升AI模型性能的关键,也是推动“人工智能+”行动落地的保障,标志着人工智能发展正在进入“数据驱动”新阶段。
在近日举行的人工智能高质量数据集暨数据标注产业成果发布会上,依托中国人工智能产业发展联盟,联想控股联合中国信息通信研究院人工智能研究所、中国国家图书馆、高等教育出版社、中国科学院文献情报中心、景德镇陶瓷研究院、中国版权保护中心以及百度等单位共同发起“高质量数据集炼金工坊”生态计划。该计划旨在打造一个人工智能与数据要素协同发展的可持续生态体系,将原始数据转化为具有高价值的“数据黄金”,为人工智能的发展提供源源不断的动力,让数据从“沉默的矿藏”变为“流动的黄金”。
数据集,简而言之,是由一系列相关数据整合而成的集合,具备明确的主题,且能够被标识与计算机化处理。作为机器学习和统计建模的基石,数据集为算法学习提供了关键的 “原料”,也是智能应用背后的 “智慧之源”。无论是在助力 AI 模型能力提升方面,还是在推动行业应用落地进程中,根据具体场景选择合适的数据集类型并构建科学合理的数据结构,都已成为人工智能工程中不可或缺的基础性环节。
然而,当前我国在高质量数据集方面却面临着严峻的短缺形势:数据集质量参差不齐,缺乏具有主流高价值的数据引领方向。数据集的混用现象时有发生,这不仅会干扰训练效果,还可能导致大模型出现诸如测试分数虚高、泛化能力减弱、在不相关任务中表现大幅下滑等问题,甚至可能引发实际应用中的不良后果;高质量数据集的标准体系尚处于待完善状态,数据质量评估评价缺乏统一标准,政务领域和重点行业也缺乏典型的主流价值数据集。
鉴于此,各方面正积极投身于高质量数据集的建设工作。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。中国电子信息产业发展研究院院长张立表示,建设高质量数据集是落实《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》,推动数据产业和数据标注产业高质量发展,推进“人工智能+”行动的重要抓手。
高质量数据集的建设需要政府、行业组织以及龙头企业集团的紧密协作。联想控股将凭借其在制造、医疗、教育、安防、能源、新材料、专业服务、金融和消费等多个领域的应用场景优势,能够提供相应的高质量数据集,其联合中国信息通信研究院人工智能研究所等机构共同发起的 “高质量数据集炼金工坊” 生态计划,正是为了充分释放数据要素的价值,为人工智能的发展筑牢根基。