加快生物医学研究步伐

凯西·格林(Casey Greene)领导着新的健康人工智能中心

马克·库奇采访

凯西·格林博士(2021年4月)Casey Greene博士于2020年11月加入科罗拉多大学医学院,领导新成立的健康人工智能中心,并帮助建立一个致力于数据科学和信息学的新部门。

他从宾夕法尼亚大学佩雷尔曼医学院(University of Pennsylvania Perelman School of Medicine)加入CU,在那里他是系统药理学副教授和Alex 's Lemonade Stand基金会儿童癌症数据实验室的主任。

Greene是数据分析领域经验丰富的领导者。2009年在达特茅斯学院(Dartmouth College)完成遗传学博士学位后,格林在普林斯顿大学刘易斯-西格勒综合基因组研究所(Lewis-Sigler Institute of Integrative Genomics)担任博士后,直到2012年。他于当年加入达特茅斯学院,并于2015年转入宾夕法尼亚大学医学院。

他的研究实验室开发了整合多个数据集的公开数据的算法,以帮助建模和理解复杂的生物系统。这种方法使研究人员能够推断出解释数据所需的关键上下文信息,并促进了询问和回答基础科学和转化研究问题的过程。

健康人工智能中心的目标是什么?

我们被数据淹没了。我们面临的挑战是如何利用这些数据来加强我们的校园使命。我认为该中心的目标是通过高级分析加强研究、实践和教育。万博手机版下载每一个都有自己的挑战和机遇。

研究是一个探索未知的过程。我们计划并开始一段旅程,记录下我们的发现,每一步的发现都会改变我们的轨迹。这是一个分形过程。我们一步所观察到的会改变下一步,所以即使是很小的预感也能把我们带到一个新的方向。机缘巧合是这个过程的关键部分。我认为健康人工智能中心的研究任务是将意外发现变成例行公事:我们开发方法和工具,帮助调查人员在我们面临的海量数据中找到意想不到但有价值的联系。传统上,意外发现依赖于偶然的碰撞:人们在走廊里聊天,或者在一本研究期刊的目录中找到了一篇恰好合适的论文。我认为人工智能方法可以以一种有意的方式来揭示这些机会,无论是帮助我们将数据放在其他人的数据背景中,还是揭示生物医学文献中的一个关键发现,只要我们知道它,就会将我们的研究项目推向一个新的和富有成效的方向。

在实践方面,有很大的机会将分析与我们在提供护理时收集的数据结合起来,以改进流程,并使护理团队更有效地工作。在这个校园里,有些提供者已经是使用数据来改善护理的领导者,我希望中心的成员继续通过分析的进步来补充这一使命。还有机会使用基于人工智能的分析来带来研究进展,例如在基因组分析方面,以加强临床护理。

关于我们的教育使命,大规模数据的普遍性意万博手机版下载味着更多的人可以从应用这些新的分析方法中受益。尽管我们知道其潜力巨大,但通常很难弄清楚如何将其用于我们每天面临的问题。当数据分析接近数据时,效果最好,这意味着生成数据的人应该能够以同样的方式思考数据。我们需要一套多方面的教育计划——这些计划是为那些将高级分析作万博手机版下载为主要职业的人设计的,为那些这些方法将补充他们主要关注的人设计的,为那些需要对分析做出决定但不太可能自己进行分析的人设计的。我希望我们招聘的教师能够为这些听众中的一个或多个做出贡献。如果我们要在这个校园里发挥我们的潜力,先进的分析方法应该被常规应用,每个人都应该拥有这种能力。

似乎很难衡量结果,但你有大量的工作,所以有方法来衡量这一点。你如何评价成功?

你说得很对,很难衡量结果。在研究中,我们可以在这些分析方法的指导下进行实验,也可以在传统方法的指导下进行其他实验,我们可以测量这些方法的命中率。在校园的规模上,我们真正想衡量的是这样的项目:先进的分析方法是否被更频繁地部署,是否收集到可以推动这些方法下一波浪潮的数据,以及这些方法是否建立了否则不会被观察到的联系。所有这些都很难衡量。

我们可以衡量的是代理。我们可以检查我们招聘的教师在多大程度上把这些分析作为他们研究项目的一部分,我们可以从技术进步和科学发现以及他们职业生涯的进步两个方面来检查他们的成功。我们可以通过衡量教育项目来检查万博手机版下载学习者的认知,如果我们对收集数据的方式谨慎的话,我们就有可能检查培训后的结果。最终,我们可以开始通过检查校园教师提交和接受更多多个首席研究员资助的程度,以及提交和接受更多计划项目资助的程度来衡量联系。我们可以寻找在个别研究实验室之外正在建立联系的指标。在理想的世界里,只要两个人联合起来,他们就能获得成功,并能找到彼此,更经常地合作。我同意你的观点:这很难衡量。

人工智能是否会对隐私构成风险?我们如何保护个人身份?

与许多技术一样,人工智能带来风险,但也可以提供解决方案。在我们几年前的一些研究中,我们想看看是否可以使用人工智能技术开发一种保护隐私的数据转换方法。我们使用了神经网络。计算机科学意义上的神经网络本质上只是一组数学函数,它们被串在一起,并随着时间的推移通过接触数据进行训练。在这种情况下,我们创建了两个神经网络,并训练它们相互对抗。其中一个神经网络的任务是创建全新的数据。另一组则被训练去分辨这些数据是真还是假。我们对这些网络进行训练,直到无法区分真实数据和虚假数据。

由于神经网络可能非常复杂,因此存在一种风险,即负责创建假数据的神经网络可能只是简单地记住真实数据。在这种情况下,我们引入了一种叫做“差异隐私”的技术,它使我们能够控制神经网络从任何一条记录中可以学到多少东西,并防止它们记忆数据。

这还远远不能说:是的,人工智能和先进的分析方法对隐私构成了风险。我可以非常清楚地看到,专注于开发新技术的研究人员和专注于研究中技术的道德部署的研究人员之间存在互动的机会。我们还需要考虑如何部署基于人工智能的技术来降低隐私风险。

我们还没有讨论的另一个挑战,但与之相似的是,人工智能模型掩盖了系统性偏见。通常,这些机器学习模型被训练成更有效地执行一些过去的行为,例如,通过训练基于先前观察的模型来建议潜在的治疗方案。如果训练数据有偏差,模型也会有偏差。很明显,基于人工智能的技术将在未来几年得到广泛应用。让校园里的研究人员检查这些模型中的偏见,并开发出抵消(而不是促进)不平等的方法,这将至关重要。

你小时候喜欢电脑和科技吗?你是如何对这一领域的研究和工作产生兴趣的?

在我记事之前,有一些我使用家用电脑键盘的照片,我总是觉得它们很迷人。当我还是一名本科生时,我很喜欢遗传学。我在一个果蝇实验室工作,虽然我很喜欢这个科学问题,但我也在为眼前的任务而挣扎,那就是数果蝇两侧的胸膜刚毛。我会看着苍蝇的一边,数着,“一、二……”然后把它们翻过来,看看另一边,然后重新开始。我最终达到了胸膜刷毛的极限。

接下来的一个夏天,我在佐治亚大学的果蝇实验室工作。他们没有在实验室工作,而是利用了我的编程经验,让我和一个计算机研究生一起工作。我想,哦,哇,我可以研究遗传学,不用数猪鬃。这太神奇了。从那以后,我就一直这样做。

你在工作中有什么最喜欢的发现吗?

我认为下一个发现总是最有趣的!我想到的一个例子来自我和达特茅斯大学的黛博拉·霍根的合作。我们今早刚去接了个电话。在过去的十年里,我们一直在与Deb的实验室合作,以了解铜绿假单胞菌的基因调控。在我们开始合作的时候,谷歌的一组研究人员开发了一种方法,可以从YouTube视频中截取静态图像,并将它们展示给神经网络。他们可以屏蔽视频的某些部分,并训练神经网络重建原始图像。他们展示的一件事是,神经网络开发出了一种能够识别猫的神经元,而不需要被告知猫是什么。所以我们这样做了,但是对于假单胞菌基因表达数据。

神经网络最终学会了共同调控基因的模式。许多人都能认出来,但也有一些不太清楚。我们用这种方法研究了一种关键营养物质对饥饿的反应。当我们查看所有公开数据时,我们确定了一个结果没有意义的设置:第二种基因的存在或不存在,本不应该相关,对假单胞菌的反应产生了巨大的影响。研究人员进行了许多后续实验来了解细节,但那种“啊哈”的时刻并没有消失。

你做过与新冠肺炎相关的工作吗?

我们确实做了一些事情。我们组的一位博士后在过去的一年里领导了一项对COVID文献的大规模合作综述。它现在超过10万字,涵盖了1000多篇论文和预印本。它基本上已经变成了一本书!我还与一个团队合作,他们正在努力整合一个症状自我报告应用程序。这个想法是通过调查来早期了解每个邮政编码的COVID情况——这是在测试广泛使用之前。这款应用名为“我们的感受”。Lady Gaga还发了推特。我认为新冠疫情确实揭示了我们加快生物医学研究步伐的紧迫性,我认为人工智能在未来几年将成为其中的关键部分。