机器学习算法将长读长测序引入临床

SAVANA 使用机器学习算法来识别长读 DNA 测序数据中癌症特异性的结构变异和拷贝数畸变。癌症基因组的复杂结构意味着标准分析工具会给出假阳性结果，从而导致对肿瘤生物学的错误临床解释。 SAVANA 显着减少了此类错误。 SAVANA 提供快速、可靠的基因组分析，以更好地分析临床样本，从而为癌症诊断和治疗干预提供信息。

长读长测序技术可分析长而连续的 DNA 片段。这些方法有可能提高研究人员检测癌症基因组中复杂遗传改变的能力。然而，癌症基因组的复杂结构意味着标准分析工具，包括专门为分析长读长测序数据而开发的现有方法，往往存在不足，导致假阳性结果和对数据的不可靠解释。这些误导性的结果可能会损害我们对肿瘤如何演变、对治疗的反应以及最终如何诊断和治疗患者的理解。为了应对这一挑战，研究人员开发了一种新算法 SAVANA，他们最近在《自然方法》杂志上对此进行了描述。 SAVANA 利用机器学习，利用长读长测序数据，准确识别结构变异（插入、删除、重复或重排等大型基因组改变）以及由此产生的癌症基因组拷贝数畸变。拥有适合工作的正确工具非常重要。例如，你可以用叉子吃汤，但结果不如用勺子有效。 SAVANA 就像勺子一样，专为任务量身定制，旨在高效地提供可靠的结果。该算法由 EMBL 欧洲生物信息学研究所 (EMBL-EBI) 和 Genomics England 研发实验室的研究人员与伦敦大学学院 (UCL)、皇家国家骨科医院 (RNOH)、分子医学研究所和波士顿儿童医院的临床合作伙伴合作开发并测试了 99 个人类肿瘤样本。 “由于其他分析工具的开发并未考虑到癌症基因组学数据的特殊性，因此它们经常会出现误报，从而导致错误的临床和生物学解释，”他说。 EMBL-EBI 小组负责人 Isidro Cortes-Ciriano 说道。 “SAVANA 改变了这一点。通过直接在癌症样本的长读长测序数据上训练算法，我们创建了一种新方法，可以区分真正的癌症相关基因组改变和测序假象之间的区别，从而使我们能够使用长读长测序以前所未有的分辨率阐明癌症背后的突变过程。” “当我们开发 SAVANA 时，我们的重点很明确：创建一种足够复杂的工具来表征复杂的癌症基因组，但又足够实用以供临床使用，”他说。 EMBL-EBI 前博士前研究员和弗朗西斯·克里克研究所博士后研究员希拉里·埃尔里克 (Hillary Elrick) 解释道。 “因此，SAVANA 可以准确区分体细胞结构变异、拷贝数畸变、肿瘤纯度和倍性——所有这些都是理解肿瘤生物学和指导临床治疗决策的关键，” EMBL-EBI 博士后研究员Carolin Sauer 补充道。其快速分析和强大的纠错能力使 SAVANA 非常适合临床使用。

This article was originally published by ScienceDaily. For more details, images, and references:

Read Full Original Article ↗