麻省理工学院团队创造了识别因果基因关系的有效技术

2024-12-03 22:21来源:本站编辑

通过研究基因表达的变化,研究人员了解细胞在分子水平上的功能,这可以帮助他们了解某些疾病的发展。

但是,人类有大约2万个基因,它们可以以复杂的方式相互影响,因此,即使知道要针对哪一组基因,也是一个极其复杂的问题。此外,基因在相互调节的模块中协同工作。

麻省理工学院的研究人员现在已经建立了理论基础,可以确定将基因聚合到相关组的最佳方法,这样他们就可以有效地了解许多基因之间潜在的因果关系。

重要的是,这种新方法仅使用观测数据就完成了这一任务。这意味着研究人员不需要进行昂贵的、有时是不可行的干涉性实验来获得推断潜在因果关系所需的数据。

从长远来看,这项技术可以帮助科学家以更准确、更有效的方式识别潜在的基因目标,以诱导某些行为,从而有可能为患者开发精确的治疗方法。

与张一起撰写论文的还有共同主要作者瑞安·韦尔奇(Ryan Welch),他目前是工程学硕士研究生;资深作者Caroline Uhler是电气工程与计算机科学系(EECS)和数据、系统与社会研究所(IDSS)的教授,也是麻省理工学院和哈佛大学布罗德研究所埃里克和温迪施密特中心的主任,也是麻省理工学院信息与决策系统实验室(LIDS)的研究员。这项研究将在神经信息处理系统会议上发表。

从观察中学习最终的数据

研究人员着手解决的问题涉及基因的学习程序。这些程序描述了哪些基因在生物过程中共同调节其他基因,如细胞发育或分化。

由于科学家无法有效地研究所有20,000个基因是如何相互作用的,他们使用一种称为因果解缠的技术来学习如何将相关的基因组组合成一个表示,从而使他们能够有效地探索因果关系。

在之前的工作中,研究人员展示了如何在介入数据存在的情况下有效地做到这一点,这些数据是通过干扰网络中的变量获得的数据。

但是,进行干预性实验通常是昂贵的,而且在某些情况下,这些实验要么是不道德的,要么是技术不够好,无法使干预性实验成功。

仅凭观察数据,研究人员无法比较干预前后的基因,以了解基因组如何共同发挥作用。

张说:“大多数关于因果关系的研究都假设有干预措施,所以不清楚你能通过观察数据解开多少信息。”

麻省理工学院的研究人员开发了一种更通用的方法,该方法使用机器学习算法,仅使用观察数据就可以有效地识别和汇总观察到的变量组,例如基因。

他们可以使用这种技术来识别因果模块,并重建因果机制的准确底层表示。“虽然这项研究的动机是阐明细胞程序的问题,但我们首先必须发展新的因果理论,以了解从观察数据中可以学到什么,不能学到什么。”有了这一理论,在未来的工作中,我们可以将我们的理解应用于基因数据,识别基因模块以及它们的调节关系,”乌勒说。

分层表示

利用统计技术,研究人员可以计算出一个数学函数,即每个变量得分的雅可比矩阵的方差。不影响任何后续变量的因果变量的方差应为零。

研究人员在一层一层的结构中重建了这种表示,首先移除底层中方差为零的变量。然后,他们一层一层地反向工作,去除零方差的变量,以确定哪些变量或基因组是相互关联的。

“识别零方差很快成为一个很难解决的组合目标,所以推导出一个有效的算法来解决这个问题是一个很大的挑战,”张说。

最后,他们的方法输出观察到的数据的抽象表示,其中包含多层相互关联的变量,这些变量准确地总结了潜在的因果结构。

每个变量代表一组共同起作用的基因,两个变量之间的关系代表一组基因如何调节另一组基因。他们的方法有效地捕获了用于确定每一层变量的所有信息。

在证明他们的技术在理论上是合理的之后,研究人员进行了模拟,以表明该算法可以仅使用观测数据有效地解开有意义的因果表示。

在未来,研究人员希望将这项技术应用于现实世界的遗传学应用。他们还想探索他们的方法如何在一些干预数据可用的情况下提供额外的见解,或者帮助科学家了解如何设计有效的基因干预。在未来,这种方法可以帮助研究人员更有效地确定哪些基因在同一程序中一起起作用,这可以帮助确定可以针对这些基因治疗某些疾病的药物。

这项研究部分由麻省理工学院- ibm沃森人工智能实验室和美国海军研究办公室资助。

海房网声明:未经许可,不得转载。