导读
2024 年 11 月 14 日至 17 日,第五届医疗大数据及 Datathon 活动在京圆满召开。本届 Datathon 共集结了 23 队、236 名医学及数据科学领域精英同场交流竞技,促进“理-工-医-信”四大学科的深度融合。和鲸凭借其自研的 ModelWhale 数据科学协同平台,再次为该届 Datathon 竞赛从会前培训到正式比赛提供强力支持。为更好帮助参赛选手提升参赛体验,更好地进行医疗数据分析实操,和鲸科技客户成功副总监郑凯少向参赛选手简要介绍了本次 Datathon 比赛云平台 ModelWhale 使用指南。
分享嘉宾 郑凯少
郑凯少,上海和今信息科技有限公司客户成功副总监。硕士毕业于北京大学软件与微电子学院,从业后专职服务医疗领域与相关产业,拥有丰富的数据挖掘、大数据与 Al 相关服务经验。
以下为分享实录
01 Datathon 报名与组队
各位参赛选手登录 ModelWhale 后,进入“比赛专区”,并在相应赛道中完成在线报名。本次 Datathon 活动设置两大赛道,赛道一主题为临床洞察挑战,赛道二主题为多模态融合创新。完成报名后,选手可在平台上进行组队。组队功能对于团队协作至关重要,选手可以通过平台的组队功能找到志同道合的队友,共同为比赛努力。组队完成后,选手可在平台上看到其他队伍的信息,以及自己的队伍状态。
02 数据提供与接入
ModelWhale 以便捷的数据接入流程为支撑,确保每位选手都能顺利获取并处理比赛所需的数据。本次比赛的数据提供方式分为两种:结构化数据与非结构化数据。结构化数据以数据库的形式呈现,涵盖了 MIMIC-IV、MIMIC-III、inspire 等丰富的数据源。选手们只需点击相应数据,即可进入预览表界面,全面了解数据表、数据字段、数据字典等基本信息,为数据分析打下坚实基础。非结构化数据,如多模态数据,则通过 ModelWhale 的文件存储管理系统进行提供。选手们只需进入 NAS 空间(即界面上的“NAS root”),即可浏览并获取 VitalDB 数据库等项目的相关数据,以文件形式进行使用。
考虑到本次比赛的大数据特性,和鲸特别为参赛团队提供了在线的分析环境和工作环境。赛道一提供 32C64G 的 CPU 计算资源,赛道二则提供 16C32G 配置 V100*2 的 GPU 资源,以支持多模态数据的处理和分析。和鲸还为选手们提供了多样化的镜像环境选择。无论是使用 Python、Java 还是 R 语言的团队都可在“镜像环境”中找到适合自己的语言及计算资源环境类型。只需点击添加按钮,即可轻松配置你的数据分析环境。
03 项目配置与运行
在完成计算环境和资源的配置后,选手在进入新建项目时可选择两种编辑器进行配置。一种是 notebook 交互式建模工具,另一种是 IDE 工具。对于使用 Java 或 C++ 语言的选手,可以直接选择 IDE 工具;而对于使用其他语言的选手,则可以选择notebook交互式建模工具。
以 notebook 编程工具为例,在选择完编程工具后,选手们可添加本次比赛所需要的数据集。在“他人共享”中,选手们可以找到数据库连接,无论是结构化数据还是多模态数据,都可以快速添加关联。然后,点击下方“创建”按钮,即可创建一个基础的在线编程模板。以 16C32G V100*2 配置资源环境为例,在创建好项目后,选手们可以在左侧确认数据是否关联成功,选手们可以直接右键复制数据路径放入编辑器中,进行代码运行操作。同时,在界面右侧点击右上角的“运行设置”按钮,可以进行进一步的配置。考虑到比赛提供了大量的数据和计算资源空间,平台为每个选手提供了 20G 的个人存储空间。如果存储空间不足,选手们还可以点击“申请扩容”按钮进行扩容。
编辑器中也支持通过 pip install 的方式安装包运行。安装完之后,可以将环境保存,避免下次启动时反复安装。此外,除了结构化的表数据外,ModelWhale 还提供非结构化数据的分析支持。选手们可以找到图像数据后,以代码的方式复制到编辑器中进行处理。对于数据库中的数据,选手们可以直接挂载例如 MIMIC-IV 数据集,并一键复制使用数据库示例代码。将这些代码添加到在线环境后,点击运行即可执行查询等操作。通过这样的流程,选手们可以快速接入主办方提供的数据,并开始项目构建。
04 多角色协同工作
ModelWhale 不仅提供了丰富的算力资源支持,同时也支持多角色协同。数据分析师或数据工程师可以微调数据,建模工程师则可以进行深度学习框架的训练。通过这样的方式,团队成员可以获取不同任务的工作成果。团队在面临一项需分步骤完成的工作、且需由不同角色的人员参与时,ModelWhale 支持先对项目进行保存,并随后将其分享至团队内部,团队成员在接收到项目后,可根据实际需求为其配置相应的权限,包括但不限于查看、fork 及 merge 等。
如果选手是团队协作者,可以在项目的“他人共享”模块中查看到由他人共享并可供其协作的项目。在获取项目后,通过点击 fork,选手能够获取项目的完整代码,并选择 notebook 运行环境进行直接运行。以数据工程师为例,在完成数据抽取后,ModelWhale 会妥善保存工作成果。若团队某成员已通过代码完成了数据处理,并按照后续工程师的要求进行了数据的归档与整理,那么就可以将项目保存,并通过合并的方式提交至其他成员中。如果选手是原始项目的创建者,则可以接收到团队提交的代码,并进行合并操作。最终,所有的项目代码都会整合至最初创建的项目中。
此外,IDE 建模工具的操作流程与上述步骤基本保持一致。以 Java 语言为例,选手同样能够挂载结构化和非结构化的数据集。进入运行界面后,选手需先点击运行右侧的挂载按钮以获取计算资源,并选择可使用的镜像。运行界面与工程师角色在本地使用的 VScode 界面高度一致,选手可使用 VScode 的快捷键及操作方式。打开界面后,选手将看到一个纯工程代码的操作界面。在左侧可以点击上传文件按钮,将本地的工程文件等导入平台,并利用平台进行数据抽取等操作。
05 助力临床研究可重现性
和鲸深知在临床研究中,研究的可重现性至关重要。与其他领域相比,临床研究对可重现性的要求更为严格。然而,在实际操作中,当前许多研究人员使用的编程语言(如 R 语言)存在环境不一致的问题,多角色协同上面存在非常大的障碍和阻碍。为了解决这个问题,ModelWhale 应运而生,旨在提供一个统一、高效、可重现的研究环境。
和鲸倡导遵循 FAIR 原则,采用容器化等技术手段确保代码环境的一致性,保证数据和环境的可复现性。ModelWhale 实现了数据的统一接入和管理,通过对象存储、数据库接入系统以及接口等形式,将不同结构、不同格式、不同形式的数据统一接入到研究数据集中。同时,ModelWhale 还提供了在线分析和运行环境,以及多角色协同工作的功能,以支持研究的可重现性。
以 TCGA 肿瘤基因组数据库研究环境准备复现为例,这一项目覆盖了 33 种癌症类型,涉及超过 11,000 名患者,数据量高达 2.5PB。这些数据不仅涵盖了各种组学数据,还包括了患者的基本信息、治疗过程、临床分期和生存状况等关键临床数据。鉴于研究数据与模型的复杂性,个人 PC 难以承载如此庞大的计算任务。同时,项目涉及跨地区的研究合作者,因此,利用云计算环境进行研究的复现与深化成为必然选择。为此,ModelWhale 提供了即开即用的分析环境,通过容器镜像封装了临床研究复现所需的所有环境信息,包括 R 语言版本、Python 版本、使用的工具包、操作系统以及系统依赖等。
对于特定的临床研究,甚至研究中使用的具体版本,和鲸都能准确跟踪并记录其使用的环境信息。这使得合作者只需将代码文件链接发送给对方,对方即可轻松启动对应代码文件的环境,极大地提高了合作效率与研究的便捷性。
本文内容已做精简,如需获取专家完整版视频实录及课件,请联系我们。