当地时间 5 月 13 日,AI 制药上市公司 Recursion Pharmaceuticals(NASDAQ: RXRX)宣布开发出了新型 NVIDIA DGX SuperPOD AI 超级计算机——BioHive-2,该超级计算机由 63 个 DGX H100 系统提供支持,共有 504 个 NVIDIA H100 张量核心 GPU,并通过 NVIDIA Quantum-2 InfiniBand 网络联网。


在基准性能测试中,这款 AI 超级计算机的速度比 Recursion 的原超级计算机 BioHive-1 快 4 倍。根据现有数据,BioHive-2 是全球制药公司全资拥有且运行的速度最快的超级计算机。截至本月,BioHive-2 超级计算机在全球各行业最强功效超级计算机 TOP500 排行榜上排名第 35 位。



(来源:公司官网)

在官方新闻稿中,该公司的首席技术官 Ben Mabey 指出,要在生物学这样广阔且复杂的空间中利用 AI,需要大规模数据生成与大规模计算相结合。过去十年,Recursion 一直专注于生成和聚合全球最大的生物和化学数据集之一,并用于训练新的人工智能模型。随着 BioHive-2 现已上线,我们将拥有更多的计算能力加速使用不断增长的数据集,扩展和训练更大、更通用的基础模型,实现药物发现的工业化。

Recursion 是一家处于临床阶段的 AI 制药公司,该公司正在通过大规模实验规模和大规模计算,整合生物学、化学、自动化、数据科学和工程学等创新技术实现药物发现和开发的工业化。

根据官网的介绍,这家公司的目标是将药物发现变成搜索问题,公司的核心是 Recursion 操作系统 (Operating System,OS),这是由一个全球最大的专有生物和化学数据集支持的平台。“我们不只关注现有治疗方式的少数疾病,而是构建了生物学和化学图谱,扩大搜索范围,使我们能够探索疾病生物学的未知领域。”

该公司表示,更好的数据等同于更好的预测,独有的数据是 Recursion 的关键区别之一。我们的数据生成策略遵循以下 3 个原则,可扩展性、可靠性以及相关性。在机器学习研究中,训练模型数据集的质量对于确保模型预测的准确性至关重要。我们高度自动化的湿实验室,控制内部的数据生成,并在每个人类基因和化合物库中进行数百万次实验,以生成用于绘图的多层数据集。这产生了超过 50 PB 的高质量数据,从而产生了全球最大的专有生物和化学数据集之一。



图 | 硬件、软件和数据的同步组合,实现药物发现的工业化

该公司还通过开发突破性的新基础模型比如 Phenom-1 证明了规模化计算的重要性,Phenom-1 是一种深度学习模型,旨在从细胞图像中提取具有生物学意义的特征。随着增加训练数据的大小和模型参数的数量,模型的性能也随之提高,这表明需要充足的计算力训练更大的模型。

根据新闻稿中的描述,构建 Phenom-1 的实验和训练需要在 BioHive-1 上花费几个月的时间。而借助 BioHive-2,公司可以在更短的时间内并行执行多个规模相似或更大的 AI 模型项目,从而促使团队处于 AI 药物发现前沿,并释放其数据的潜在价值。

现阶段,与 Phenom-1 类似的较小模型——Phenom-Beta,已在 NVIDIA BioNeMo 平台上发布供外部使用,这也是 BioNeMo 平台上提供的首个第三方模型。Phenom-Beta 旨在灵活将细胞显微镜图像处理为任何规模的通用嵌入,从小型项目到数十亿图像。其使用 RxRx3 数据集进行训练,该数据集是 Recursion 去年发布的公开数据集,其中包含大约 220 万张 HUVEC 细胞图像,涉及约 17,000 个基因敲除和 1,674 个已知化学实体。

不过,Phenom 系列只是 Recursion 开发的几种模型之一,这些模型主要通过整合生物、化学和真实患者数据加速药物发现过程。

英伟达生命科学业务开发全球主管 Rory Kelleher,加速计算与生成人工智能相结合正在推动制药行业进入药物发现的新时代,由 NVIDIA DGX AI 超级计算力提供支持的 BioHive-2 有望加速生物、化学和医疗保健等领域新型基础模型的开发。

去年,英伟达加速计算支持的 Recursion 平台完成了大规模蛋白质-配体相互作用数据集的预测工作,该公司预测了 Enamine REAL Space 中大约 360 亿种化合物的蛋白质靶点。正是基于这一工作,Recursion 和 Enamine 建立了合作伙伴关系。


(如有版权问题,请联系删除)


依托英伟达,Recursion开发AI药物发现超级计算机,速度比原版本快4倍

点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部