美高梅娱乐城

刘昆宏教授课题组提出预测不同肿瘤细胞系的联合用药效果的新算法
发布时间:2023-03-20点击:[]次

联合用药疗法对于多种复杂疾病尤其是恶性肿瘤的治疗至关重要。面对海量的药物组合搜索空间,仅通过高通量实验筛选技术成本过高且难以覆盖所有组合。在药物多维度大数据的推动下,基于人工智能的新一代联合用药预测技术正在加速发展,但在类别不均衡、特征高维等方面仍然存在巨大挑战。

近日,美高梅娱乐城 刘昆宏教授课题组与军事医学研究院伯晓晨/何松课题组合作,在Cell Reports Methods杂志发表了研究论文“A hybrid deep forest-based method for predicting synergistic drug combinations”,针对联合用药数据集中存在的类别不均衡、特征高维、数据规模小的问题,提出了基于深度森林框架的预测算法ForSyn,以预测不同肿瘤细胞系的联合用药效果。一系列计算与生物实验有效验证了ForSyn的预测精度,可解释性相关分析揭示了联合用药协同作用的潜在机制。

现有的联合用药预测研究大多利用基于深度神经网络的方法,能够获得较高的整体预测性能。然而,联合用药数据集存在固有的类别不均衡问题,负样本(非协同药物组合)的数量通常是正样本(协同组合)数量的十倍以上。现有大多算法的整体预测性能由多数类的分类结果主导,偏向于将更多的多数类(负样本)预测正确,而忽略了对少数类(正样本)样本的学习。此外,已有研究仅利用结构与理化性质表征药物,忽略了药物与肿瘤细胞系之间的生物联系。一旦应用包含更多信息的生物属性数据,样本的特征维度将增加,样本数量将减少。基于深度神经网络的算法通常依赖大规模的训练数据集,在中小型规模数据集上难以保持预测精度。

为了解决上述问题,本研究提出了一个包含药物物理、化学、生物信息的跨领域特征数据集。而后,设计基于深度森林的ForSyn算法实现二分类任务,在深度森林框架中引入基于AP聚类的分层下采样随机森林、基于数据复杂度降维的极限树森林单元,很好地缓解了类别不均衡、特征维度高、样本数量少给分类过程带来的不利影响(图1)。通过与12种领域SOTA方法对比,ForSyn在八个数据集、四种指标上排名第一,展示出了优异的分类性能,显著提高了对于少数类样本(协同药物组合)的预测精度。细胞增殖实验结果验证了ForSyn预测出的四种新型抗肿瘤联合用药疗法的潜力。


图1 研究流程

此外,ForSyn具有可解释性,可以计算输入的每一维特征数据对于预测过程的贡献。通过特征重要性评估,提取出了在协同作用预测中具有关键作用的特征,从三个方面进行了系统分析,包括与预测过程的关联、特征类型的贡献、关键特征的生物分析(图2)。分析发现药物的转录组数据对于预测具有突出贡献,药物可以通过调节关键基因的转录表达推动联合用药的协同或拮抗效果。

图2 ForSyn的可解释性分析结果

综上,本研究提出了基于深度森林框架的预测算法,缓解了生物医学数据集中类别不均衡、特征维度高、样本数量少的固有问题,不仅预测出了有潜力的联合用药疗法,而且为药物发现领域的其他研究提供了潜在的技术途径。此外,通过可解释性分析发现了在预测过程中具有关键作用的基因,为联合用药作用机制的实验研究提供了理论线索。

本研究工作获得国家自然科学基金(编号62103436与61772023)及国家重点研发计划 (编号2019QY1803) 等项目的资助。

论文链接://doi.org/10.1016/j.crmeth.2023.100411.

Top