随着业务的飞速发展, 依托创新数据处理技术来为众多企业提供云原生湖仓解决方案的 Databend,面临着用户日益增长的复杂数据处理需求。从 2023 年起便开始探索将大模型能力引入湖仓,对算力和 API 稳定性提出了近乎苛刻的要求,青云科技旗下基石智算CoresHub 提供 DeepSeek 稳定的 API 调用服务,为 Databend 的能力创新筑牢了坚实基础。
业务创新必然拥抱 DeepSeek
Databend 是一款基于 Rust 开发,开源的新一代云原生数据湖仓,围绕着大规模数据提供实时分析、复杂查询以及数据湖仓的高效管理,处理的数据类型丰富多样,涵盖了结构化、半结构化和非结构化数据,数据量动辄以 PB 级别计算,需要对海量的实时数据进行快速处理,为企业提供即时的决策支持。
Databend 通过 SQL 调用模式,将自身的数据处理能力与 DeepSeek 强大的自然语言处理和数据理解能力相结合,帮助用户高效处理数据,挖掘数据价值。目前已经在内部质量保证系统、AI 函数服务、非结构化数据处理等国内场景中,将青云提供的 DeepSeek 服务成功替代海外的 OpenAI 服务,在数据处理与分析、智能查询与交互优化、自动化与智能化工作流等方面受益,减少了人工分析的时间和工作量。
内部质量保障系统
为确保企业用户在升级过程中受到的影响最小化,Databend 基于 DeepSeek 的 SQL 模式生成了一套冒烟测试(Smoke Test)集合。测试数据生成引擎的核心技术依赖于 DeepSeek 的强大数据处理能力,能够根据 SQL 模式生成更接近用户真实业务场景的数据分布,尤其是容易触发边界问题的测试数据。该方式不仅提高了测试覆盖率,还能更有效地发现潜在系统风险,为企业用户提供更加可靠的质量保障。
AI 函数服务
Databend 为用户提供了一系列 AI 函数(AI Functions)服务实现 ETL,用户可以直接在 SQL 中调用函数,利用 AI 能力从数据中挖掘更大价值。此前,Databend 全球服务均基于 OpenAI 的 API 支撑。但由于其仅支持海外用户场景,在 DeepSeek-V3 发布后,Databend 将国内场景替换为 DeepSeek,以更好满足国内用户需求。
非结构化数据处理
Databend 的很多用户在实际业务场景中,常常需要从非结构化数据中提取实体信息并转化为结构化数据,挖掘其数据价值。Databend 利用 DeepSeek 的数据处理与分析能力,可以更高效地提取数据信息,并以 JSON 格式输出。
DeepSeek-V3 作为一个通用 NLP 模型,适用于广泛的应用场景,能够高效处理各种文本生成、摘要和对话任务,671B 满血版本能提供更强大的功能和更准确的结果,真正为 Databend 业务创新提供有效支持。
基石智算CoresHub 提供的 DeepSeek- V3 671B 模型服务,不仅提供了兼容 OpenAI 接口规范的使用方式,而且支持 API 调用、一键云端部署和私有化部署方式。用户仅需创建 API 密钥,即可通过 AI 应用或第三方客户端完成对特定模型的调用访问。
API 稳定是数据交互的生命线
目前,Databend 在游戏、社交、金融、广告、电商等多个行业领域中的企业级生产环境得到应用,每天处理超过 1 亿次查询,管理超过 800PB 的分析数据,某些核心生产业务单表超过 PB 级。一旦 API 出现故障或不稳定,就会影响 Databend 的对内对外服务。特别是在对外服务中,无法为用户提供 AI 函数,将影响用户的业务连续性。因此,保证 API 服务的稳定可靠,对 Databend 尤为重要。
青云科技扎根企业级市场十余年,深刻理解 Databend 对于 API 稳定的需求。基石智算CoresHub 底层采用分布式架构,能够有效避免单点故障,并通过动态流量调整,保障 API 始终以最优性能运行。基石智算CoresHub 监控系统会对 API 关键性能指标进行实时跟踪,一旦监测到异常,专业运维团队就会及时响应。更重要的是,根据用户反馈和业务发展需求,基石智算CoresHub 会持续改进 API 的功能和服务质量。
此次青云科技与 Databend 的密切合作创新,必将为双方的深度协作与业务拓展奠定坚实基础,共同引领数据处理行业迈向新的高度。