X 注册生物链会员

扫描二维码关注生物链
细胞生物学撬开人工智能的黑匣子——深层神经网络揭露酵母细胞胞内过程
来源:环球科学   发布者:张小圈   日期:2018-05-09  

现代人工智能系统中举重若轻的深度神经网络的神秘工作原理依然未被世人知晓。

它们就像是黑盒子:在一端输入一个问题后(比如,图片里的是一只猫吗?这场围棋中下一步最好策略是?无人驾驶汽车在这个黄灯亮起的路口是否应该加速?),就能在另一端得到答案。我们或许不能知道AI系统这个黑盒子的具体工作原理,但我们知道它能有效工作。

在一项新的研究中,研究人员将神经网络嵌入一个简单的酵母细胞中,并由此观察到AI系统是怎么运行的。同时这能揭示细胞生物学的进程。这项研究的成果可用于新型癌症药物和个体化医疗的发展。

首先,让我们了解一下如今机器学习中一些关于神经网络的基础知识。

我们感兴趣的是由进化过程而不是计算机学家们优化的神经网络。—Trey Ideker, UC San Diego

计算机学家们通过设置不同的层来搭建神经网络的框架,每一层都包含了上千个执行简单指令的“神经元”。训练模型时,给神经网络投喂一个数据集(可以是百万张关于喵星人和汪星人的照片,百万种围棋走法,百万种驾驶行为与相应结果的配对数据),系统调配每层的神经元进行系统化的有序计算。数据经过神经网络后得到了结果,随后系统会评估神经网络的工作性能(比如,从照片中准确辨认出喵星人的概率)。最后重新调整神经元间的连接模式,再次输入数据,检测新的神经网络性能是否有所提升。当神经网络的性能达到一定准确率后,才能认为训练成功。

如今,AI系统的黑盒子魔法创下了不少壮举。尽管还在起步阶段,给互联网上的喵星人照片归类,围棋比赛中大败世界冠军,实现无人驾驶汽车在高速公路的飞驰。

美国加州大学圣地亚哥分校生物医学工程的教授Trey Ideker说,尽管名为神经网络,这类系统仅是受了人类神经系统结构的启发而已。

“以打败围棋大师的AlphaGo为例,它的内部运行完全杂乱无章,根本不像人类大脑”,Ideker说,“它们只是恰好进化成很好完成预测的新结构而已。”

Ideker主导了细胞生物学人工智能项目,想要尝试新的研究方向。他想要一个不仅产出结果、还能向研究人员展示得到结果过程的神经网络。将神经网络嵌入一个酵母细胞后,他的团队能了解生命的机理。“我们想要得到的是由进化过程而不是计算机学家们优化的神经网络。”他对IEEE Spectrum如是说。

这个项目的可行性在于,酿酒酵母是一种单细胞生物,自19世纪50年代以来一直作为研究的模式生物。Ideke说:“我们有大量关于细胞生物学的知识可以使用,很方便,“Ideker说,“事实上,我们对酵母细胞的结构足够了解。”

因此他的团队将神经网络的各层与酵母细胞的组成部分依次对应,从最微观的元素(构成DNA的核苷酸)开始,到更宏观的结构如核糖体(根据DNA的指令翻译蛋白质),最后到线粒体和细胞核等细胞器(执行细胞功能)。总体而言,这个称为DCell的神经网络,仿造了酵母细胞的2526个子系统。

这是关于DCell系统主页的屏幕快照,一个模拟细胞结构和功能的深度神经网络。

DCell允许研究人员改变细胞的DNA(它的遗传密码),并观察这些变化如何向上波动以改变其生物过程,以及随后的细胞生长和繁殖。DCell的训练集由数百万个真实酵母细胞中的基因突变组成,与突变结果配对。

研究人员发现,DCell模拟酵母的过程可以用于准确预测细胞生长。由于它是一个“透明的”神经网络,研究人员可以看到当DNA改变时,细胞机制是怎么受到影响的。

DCell的透明,意味着它可能将用于细胞的计算机模拟实验,而无需进行费时且昂贵的实验室实验。如果研究人员能够弄清楚如何对一个简单的酵母细胞甚至复杂的人类细胞建模,影响将很深远。“如果你能够构建一个人体细胞工作原理的模型并对其进行模拟,”Ideker说道,“这将是一场精准医学和药物开发的革命。”

癌症是最便于研究的疾病,因为每个癌症患者的肿瘤细胞都含有独特的突变组合。Ideker说:“用患者的基因组数据和突变信息作为模型的输入,会得到这些细胞的生长速度,以及癌症的侵袭性。”

更重要的是,开发癌症药物的制药公司使用细胞生长作为药物是否起效的检验标准。通过对大量调控基因开关的分子的观察,他们会猜测这种潜在的药物是否会导致肿瘤细胞停止增殖?研发抗癌药物需要数十亿美元,计算机模拟具有明显的价格优势。

从给酵母建模,到给人类细胞建模,并不是一件容易的事。研究人员需要收集关于人类患者的足够信息作为神经网络的训练集——他们需要数百万条记录,包括患者的遗传图谱和健康状况。Ideker预测数据的增长量会极其迅速。他说,这将需要对患者基因组进行大规模测序。

更棘手的部分是收集人类癌症细胞的工作原理,使神经网络可以映射到其组成部分。Ideker作为癌细胞图谱计划的参与者,试图解决这一难点。对癌细胞的生物过程进行分类非常困难,因为突变不仅可以控制细胞功能的开关,还能控制表达水平,且调控机制可以非常复杂。

Ideker希望他能够采用迁移式学习这种机器学习方法,从模拟酵母细胞的神经网络获得模拟人类细胞的神经网络。“一旦你建立了一个能识别喵星人的系统,你不需要为识别松鼠重新训练整个神经网络”他说。

关于作者:

Eliza Strickland高级副主编,于2011年3月加入IEEE Spectrum ,最初被分配到亚洲新闻板块。福岛第一核电站的核灾难一爆发,她立即着手报道。Strickland对该事故的报道和事故后24小时的详细记录,使她获得尼尔奖。

如今,她负责生物医学工程领域的报道,并负责Spectrum 关于“ 揭示人类操作系统奥秘”的特稿。该报告衍生了新的关于人类操作系统的博客,其中介绍可实现更精确和个性化的药物治疗的新兴技术。博客报道了可穿戴的生物传感器、大数据分析,以及可能使我们变成机器人的植入式设备。Strickland目前的兴趣领域是调控运动、情绪和记忆的神经调制技术。

Strickland报道科学界新闻已有15年,为《Discover》、《Nautilus》、《Sierra》、《Foreign Policy》和《Wired》等出版物撰写文章。她拥有哥伦比亚大学新闻学硕士学位。

相关新闻