2024年7月,一则产品——“宜昌城市信息模型(CIM)数据服务”在湖北省数据流通交易平台完成交易,这场交易构建了“产权登记—数据资产入表—数商认证—产品上架—场内交易”闭环,构建了“CIM技术平台+数据集+数据服务+数据应用”模式。自全国各省份陆续建设数据交易所以来,数据交易愈加频繁,政府、企业越来越重视数据流通带来的价值,而来自湖北省的这场交易则为数据交易开拓了另一种思路——在数字公共基础设施场内完成数据交易。这体现了数据基础设施的重要性——通过数据基础设施,来自不同区域、不同领域、不同维度的数据资源能够结构化的汇聚在一起,让来自不同行业的数据产品在合规的前提下高效流通,让来自不同企业、组织的数据、数据服务、数据应用发挥其价值,落地千行百业,发挥数据这一新型生产要素的对实体经济、物理世界的赋能、赋值、赋智效能。
数据基础设施:数字经济的隐形引擎
通过在独居老人家中安装红外、水表检测、电流检测、烟感、门禁和紧急按钮的“智慧六件套”,方便居委会相关人员第一时间了解情况;通过市民手机拍照快速识别共享单车停放问题,自动通知对应工作人员及时处理;通过“一网通办”“一码就医”“一码通行”实现“数据多跑路,市民少跑腿”。。。。这是来自一个拥有2500万常住人口的超大城市——上海的数字实践。在这些智慧应用加速服务人们的背后,坚实的数字底座——数据基础设施“不知疲倦”地飞快运转,一批批与民生相关的数据应用成果加速落地。
当前,数据已深度融入经济和社会治理流程,其重要性的提升对与之相关的基础设施提出了新的要求。“我们获取数据是平台性、地域性的,在协作过程中存在数据孤岛。为打破这些数字隔阂不能仅关注技术本身,还要关注数据基础设施建设。”IEEE数字消费人工智能计划主席兼IEEE数字金融与经济标准委员会主席林道庄表示。
基础设施的定义是是指为社会生产和居民生活提供公共服务的物质工程设施,是用于保证国家或地区社会经济活动正常进行的公共服务系统。而数据基础设施是以释放数据价值为最终目的基础设施,是在网络、算力等设施的基础上,围绕数据汇聚、处理、流通、应用、运营的全生命周期,构建适应数据要素化、资源化、价值化的基础设施。在释放数据价值的过程中,数据基础设施的主要目的则是让数据“供得出”“流得动”“用得好”。
想要让技术(如数据、算力、通信设备)成为基础设施,必须满足四个基本条件:一是要进行标准化,用以扩展技术产业整体规模;二是需要将技术抽象化,如将物流抽象为集装箱,将万维网抽象为网页,将数据抽象为数据件,抽象化能够辅助标准化进程;三是必须保证技术应用的低成本;四是具备较大的应用场景,较小的、碎片化的场景不能支撑基础设施的落地。
为了在数据基础设施中将数据标准化,我们可以在基础设施层中引入多样性计算、融合算力、融合存储等技术,提升对多维数据的处理能力;在数据管理层结合现有的数据存储系统,构建一体化的数据“采-存-算-管-用”软件支撑,让整体的数据处理流程向智能协同、融合处理发展。
“目前,在构建数据基础设施的过程中,标准化工作十分重要。政府、企业都聚焦垂直领域数据接口,致力汇聚与打通多维数据,完善各个行业内部的标准。很多不同方向的数据的标准化工作需要相关人才的加持。”林道庄强调了标准化的作用。
此外,构建数据基础设施需要聚焦“硬”和“软”两个方向,其中,“硬”主要包含数据全生命周期的技术和工具、硬件;“软”则包含相关的法律法规、开源协议、标准规范、机制设计等制度安排。
驾驭算力洪流 优化数据管理 构建高效数字基础设施
2023年10月,《算力基础设施高质量发展行动计划》发布,将算力定义为“集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。”2024年政府工作报告也提到“适度超前建设数字基础设施,加快形成全国一体化算力体系。”可见,算力在数据基础设施建设中必不可少。在国家数据局的定义中,数据基础设施分为网络基础设施、算力基础设施、数据流通设施和数据安全基础设施四类。其中,算力是这四类数据基础设施的根基。
算力即数据处理能力,是衡量一个系统或平台处理数据速度和规模的重要指标,是数据汇聚、处理、流通、应用、运营、安全保障服务的动力源,是建设数据基础设施的核心。一方面,算力融合了集成电路、服务器、数据中心、云计算、人工智能等技术,广泛融入实体经济肌理,大到通信、互联网,小到出行导航、手机App服务推荐都离不开算力支撑。另一方面,随着数字化需求、数据价值释放需求增加,数字化场景越来越复杂、企业对于自身决策精确度的要求也越来越高,迫切需要统筹协调算力服务的部署位置、实时状态、负载信息、业务需求,通过协同计算架构将算力下沉到数据源头或关键价值交付点。
数据管理包含数据收集、存储、处理、分析和应用,是算力在实际应用中的体现。当下,与高速发展的数字经济伴随而来的,是数据应用对于数据基础设施高并发、高吞吐、高可用、分布式、可扩展需求的激增,亟需提升数据管理能力。“数据管理能力能够帮助我们通过打通并利用不同领域的数据,最大程度减少数据不同基础架构中重复设计、重复构建的问题,进一步实现数据基础设施内部的标准化。”林道庄表示。
算力可以通过加速数据处理速度、扩大数据处理规模、提升数据分析精度和促进数据实时应用等方式,不断提升数据管理能力。林道庄指出,当前,我国数据服务商在算力的相关技术、产业方面都已经进行了明确的规划,他们在技术创新突破和相关能力储备方面,将算力与物流、工业、金融、医疗等产业结合,构建了领先的数据管理能力。“未来,我们需要通过一致的数据标准,将结构化的数据汇总起来,以算力为基础,通过构建合适的激励机制,优化数据处理和数据管理流程。”林道庄如是说。
强化数据安全防线 布局数据防护策略
2024年初,网络安全研究员兼SecurityDiscovery.com所有者Bob Dyachenko与Cybernews团队发现了一个名为“泄露之母”(Mother of all Breaches,MOAB)的巨型数据泄露库,该库整合并重新索引了过去几年的泄漏数据,文件体积高达12TB,共260亿条记录。腾讯、微博、京东、My Space、Twitter、LinkedIn、Adobe等一众国内外耳熟能详的大公司的数据都赫然在列。MOAB并不属于单纯的新泄露数据,它更像是众多旧泄露事件的“大合集”。也可以说,MOAB是一个在数字时代有关数据安全的警告,为我们敲响了警钟。
在数据加速融入工业生产、资源分配、居民消费和社会服务等各环节的当下,数据价值加速提升,安全问题也日益凸显。数据安全与网络安全、信息安全、系统安全、内容安全和信息物理融合系统安全有着密不可分的关系。其中,作为大量数据的载体、数据应用流程的基石,数据基础设施中需要包含全方位的安全体系,保障数据端到端的安全和隐私合规,打造开放的数据生态环境,推动全社会数据的共享和开放,加速释放数据价值。林道庄指出:“目前,在我国的数据基础框架中已经出现了隐私计算、联邦学习等技术,对于数据隐私保护的工作也已经同步开展。”
在数据基础设施应用隐私计算、区块链、数据脱敏、数据沙箱等技术,能够实现产业链参与各方、不同主体间数据的“可用不可见”“可控可计量”,提供可信的数据共享、开放、交易环境,保障数据流通环节安全;通过隐私保护、数据加密、数字身份等手段,数据基础设施能够帮助各参与方建立数据安全保障体系,推动各参与方在数据合规方面落地最佳实践,协同确保数据的可信性、完整性和安全性。
在应用各类数据安全技术的基础上,林道庄还谈到了数据基础设施的架构选择:“在构建数字基础设施的过程中,我们可以采用分布式框架,让全球的开发者贡献智慧,将全球用户的数据和分散的算力整合,设计明确的激励机制,打破部分行业寡头垄断的现状。”
分布式结构对数据安全的帮助不仅限于打破行业垄断,还能够打造安全和高效的可信数据空间,解决在数据要素基础设施中数据要素提供方、需求方、服务方、监管方等各参与主体间的数据安全与信任问题,确保数据在不同主体、不同领域中传输过程中的保密性、完整性和可追溯性,提高数据的流通效率,赋能企业主体与周边产业业务全流程的数据整合、数据生态链整合。
在大模型领域,分布式的平台也大有可为。“未来,我们可以打造分布式、规模化的大模型平台,将大家的数据资源通过智能合约的方式利用起来,服务不同终端用户的定制化、个性化需求。”林道庄表示。
聚焦行业需求 细化建设重心
随着产业数字化转型进程的深化,企业的“用数”需求将不断驱动数据基础设施建设进程。而数据驱动业务创新意识的逐步增强也将成推动市场需求的“长尾”,我们要在现有数据基础设施的基础上,不断优化、迭代,加速各类数据基础设施建设运营主体在细分领域开展产品服务创新和商业模式创新。
构建统一、安全的政务数据基础设施
政务领域的数据资源产出较多,每个人在申报项目、办理各项事务的时候会提供大量的数据,这些数据会流入各个层级的政府中,因此,政府收集到的数据数量较多、精确度也较高,但其数据信息敏感度也较高,对安全隐私保护的需求更高。“我们要着重考虑政务数据的数据安全隐私保护,并同时实现政府各个部门之间的高效协同。仅依靠资本可能并不能达到高效、安全使用政务数据的目标——资本总是追求局部最优的,但即使实现了很多的局部最优,也未必能达成全局最优,我们要依赖整体的协调机制,从上而下更有耐心地实现全局最优。”林道庄建议道。
数据基础设施护航金融合规与安全
在金融领域,数据蕴含价值较高——金融数据量大、数据生产较快、覆盖面广、追溯时间长、结构化程度高,是高质量的数据源,也是金融管理部门开展风险管理决策的重要抓手。金融数据能够动态反映市场变化,及时发现市场异常动向,防范金融风险。在投融资方向上,金融数据的广泛应用能够全面披露投资信息,为参与者提供多样化的数据服务,助力资本市场发展、支撑实体经济运行。
林道庄认为,金融本质上依赖交易过程,出现错漏损失金额极大。因此,金融机构对于数字基础设施的需求是安全、可靠、准确,且对合规的要求更加严格。金融企业对于数据基础设施的需求可能需要倾向于风险预警功能,需要其提供防欺诈等识别及处理等相关服务。
建设高效、协同的交通数据基础设施
在交通领域,数据量较大,每天都有大量的人和车产生数据,在林道庄看来,交通领域对与基础设施的要求主要是高可用,更注重系统的连续性,因为其直接影响物理世界,出现问题会引发多种事故,此外,还需要将交通数据与气象数据、公共信息数据结合,也正因如此,交通领域对于数字基础设施的数据集成和管理需求更加复杂。
在智能网联汽车方向上,根据多年来标准化工作经验,林道庄分析了这一领域的发展现状:“汽车企业收集数据的方式较为传统,只是在各个环节中收集到了车辆的相关数据如用户信息、路程信息,并做好相关记录,考虑到用户隐私等多方面的风险对于这些数据的应用并没有完全开发出来。我们希望在数据基础设施中连接车与交通总部中心,让车和车之间、车和驾乘人员之间、车与移动设备之间完成更顺畅的实时交互。”
数据基础设施是数字时代的根基,通过建设数据基础设施,我们能够建立合理的数据要素分配机制,加速公共数据汇聚利用流程,释放商业数据价值潜能,促进数字化转型和智能化升级,为数字经济的高质量发展保驾护航。(文章来源:《软件和集成电路》8月刊,作者: 张楠)