近日,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)牵头,联合行业专家共同编制的《湖仓一体技术与产业研究报告(2023)》(下文简称“报告”)发布,奇点云(杭州比智科技有限公司)深度参编。
报告聚焦于湖仓一体技术,详细梳理了数据平台的发展历程、数据湖与数据仓库的特性对比,介绍了湖仓一体的基本能力与实践路径,并对湖仓一体未来发展进行了展望与研判。
数据仓库与数据湖是目前数据平台领域最常见的两种架构:
数据仓库规范性强,可针对结构化数据进行集中式存储和计算,但对处理日益增长的半结构化、非结构化数据有局限性;
数据湖能灵活支持多种类型数据存取,读取型(schema on read)的数据分析形式有效提升了分析效率,但一致性、隔离性、数据质量为弱项,常出现因缺乏治理而退化为“数据沼泽”的情况。
可见,面临不同类型的数据与处理需求,数据仓库和数据湖各有专攻。而要想综合二者的优势,并非“数据仓库+数据湖”那么简单。
报告指出,“数据仓库+数据湖”的混合架构能满足结构化、半结构化、非结构化数据的高效处理需求,但存在四大弊端:
两种技术栈都有数据冗余,存储成本增加;
双系统间额外的ETL(抽取、转化、加载)流程导致时效性差;
迁移过程中易出现数据不一致问题,增加数据校验成本;
两种技术栈混合部署使得数据架构复杂,平台开发、运维的难度大,成本高。
“湖+仓”混合架构图(图源:CCSA TC601)
“湖仓一体”技术应运而生。它引入了数仓的治理能力,解决数据湖的数据治理难题;同时,融合高效建仓、灵活建湖两大优势,提升数据管理效率和灵活性。
依托湖仓一体技术,能让数据平台底层支持多数据类型统一存储,实现数据在湖、仓之间无缝调度和管理,在上层通过统一接口进行访问查询和分析。
湖仓一体架构模块图(图源:CCSA TC601)
2021年,奇点云发布了基于DataSimba的湖仓一体技术方案:打通数据仓库和数据湖两套技术栈,依托统一的数据云平台(DataSimba)融合二者优势,让数据治理更便利,数据研发更高效,企业能更有性价比地存储和使用海量数据。
支持结构化、半结构化、非结构化等多数据种类,支持多个计算引擎、存算引擎、数据源及第三方AI算法;
使数据资产更易维护管理、更易挖掘分析,使数据存储成本降低30%,稳定性提升1倍,运维成本降低40%。
同年,“湖仓一体”首次被Gartner写入数据管理领域成熟度模型报告。至今,日益增长的数据量和分析需求让湖仓一体技术仍是热度不减,备受关注。
为进一步规范湖仓一体数据平台技术体系,中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会 (CCSA TC601),联合多个电信、金融应用单位及包括奇点云(杭州比智科技有限公司)在内的多家资深企业,共同编制了《湖仓一体数据平台技术要求》,深度剖析必备技术能力,为选型与实践提供参考。
湖上建仓or仓外挂湖?
数据集成、湖仓存储、湖仓计算、湖仓数据治理等五大能力域分别有何要求?
查阅《湖仓一体技术与产业研究报告(2023)》即可了解。
*上文中关于《湖仓一体技术与产业研究报告(2023)》的图片及观点来源于CCSA TC601 大数据技术标准推进委员会。