POPDx模型消除了对大型患者数据集的需求,使其有可能帮助患有不常见疾病的患者。
生物银行 - 具有遗传和健康信息的数据库 - 允许研究人员探索疾病并研究遗传和环境对疾病轨迹的贡献。
这些调查使我们能够得出从饮食与疾病之间的关系到家庭规模和 COVID 严重程度等因素的结论,从而为研究人员、临床医生和患者提供有价值的见解。
但生物样本库的有用程度取决于其中数据的数量和质量。不完整的信息通常是患者数据集中的一个问题,斯坦福大学博士生Lu Yang解释说。
“例如,我们可能知道患者已经接受了II型糖尿病的治疗,”杨说,“但如果他们从未在住院环境中接受过治疗,那么他们的数据中可能缺少'II型糖尿病'一词。对于正在进行疾病研究并寻找可能导致新突破的模式的研究人员来说,这种缺失的信息是一个重大障碍。
为了解决这个问题,Yang与最近的斯坦福大学博士后学生Sheng Wang和Russ Altman合作 - 斯坦福HAI副主任和生物工程,遗传学,医学,生物医学数据科学教授,以及计算机科学 - 创建了一个模型,可以为英国生物银行的所有患者预测一套全面的诊断代码 - 也称为表型代码。
该银行拥有来自英国的五十万参与者的数据,包括罕见疾病患者。通过创建POPDx,一种用于疾病识别的机器学习框架,研究小组创建了一个模型,根据杨的说法,该模型“产生一个人可能患有某些疾病或表型代码的概率”。
事实上,POPDx在预测常见和罕见疾病(包括训练数据中不存在的疾病)方面优于现有模型。根据Altman的说法,这是一个重要的发现。
“虽然大多数使用深度神经网络的机器学习方法都需要大量的训练,但我们非常高兴,我们使用文本和分类学等先验知识的方法使我们能够识别测试集中的一些疾病,即使我们以前从未在训练中见过它们。这很重要,因为虽然医学上有大量数据,但它的规模与大型IT公司不同,因此至关重要的是,我们开发可以处理稀疏数据的方法,并且工作得足够好,以帮助患有不常见疾病的患者。
来自真实患者的真实数据
在开始这项研究时,Yang考虑了第二作者Wang之前关于细胞分类的工作。在该研究中,Wang使用Cell Ontology来预测测试集中所有细胞的单个正确细胞类型。杨想对POPDx采取类似的方法,但对于疾病。“我认为同样利用人类疾病本体论中的疾病关系来解决疾病识别问题会很酷。
虽然Wang的研究是一个一对一的分类问题,只预测了一种细胞类型,但Yang需要多个标签。“每个患者可能患有多种疾病,因此我们将其作为多标签,多分类类型的问题来解决,”她说。
杨的工作的另一个关键区别是她使用的信息的广度。POPDx模型查看了大量的患者数据,从人口统计信息和患者问卷到体检和EHR数据。它甚至从物理数据和实验室测试中提取信息。
“在此之前,大多数现有模型都需要精心策划的数据集,这意味着他们可能无法研究我们能够通过我们的工作研究的丰富特征,”她说。杨的大规模工作直接转化为模型可以预测的广泛疾病代码。“通常研究会针对某个领域,比如心脏病,所以他们只会查看相关信息或代码。但对于我们的研究,我们试图提出英国生物银行参与者的完整概况。
在数据集较小的情况下预测疾病
POPDx模型的工作原理是寻找患者数据和疾病信息之间的关系,使用自然语言处理和人类疾病本体来做出概率决策。“该模型面临的最大挑战来自我们在训练中没有看到或几乎没有数据的疾病。众所周知,大多数ML模型依赖于大型数据集,但其中一些疾病没有数据,“Yang说。
POPDx 在数据有限甚至没有数据的情况下具有出色的性能,非常强大,无需使用庞大的数据集。杨能够将看不见和罕见疾病的AUPRC(模型的精度度量)提高218%和151%。
根据杨的说法,这意味着如果临床团队需要识别低患病率疾病的患者,“我们的模型平均将增加发现这些阳性病例的可能性。以前,他们必须在生物银行中通过大量患者,但现在他们可以筛查更少的患者以找到可能的病例。POPDx识别罕见疾病的能力为希望研究这些疾病的临床医生和研究人员提供了更好的起点。
杨指出的一个挑战是英国生物银行的人口倾斜,其中56%是女性,大多数是白人,平均年龄为71岁。但是,生物样本库缺乏多样性与其说与数据有关,不如说与广泛的医疗保健可及性有关。
“问题是,如果有人无法获得医疗保健,我们就没有他们的数据,”杨说。研究人员通过引入有关疾病之间层次结构和关系的背景信息来解决这个问题,这在处理不熟悉的疾病时为该模型提供了推动力。
杨认为,这种策略也可能为模型增加了一些随机性并减轻了偏差。Yang希望未来会有更多的基础设施,以实现跨多个生物库的数据整合,从而实现更多样化的数据集。
疾病预测的未来
展望未来,杨对患者数据的时间序列分析很感兴趣,这不仅会关注患疾病的可能性,还会关注患者在生活中何时可能患有疾病。
另一个可能的途径是将表型和基因型数据整合到模型中,这将使研究人员比现在更全面地了解疾病。无论下一步是什么,杨致力于建立适合所有人的包容性模式。
“无论是患者还是研究人员,访问数据都至关重要,”杨说。