生物学的一个长期目标是从 DNA 序列预测基因表达的能力。一种被称为神经网络的人工智能,基因序列结合高通量实验,现在让这一目标更近了一步。
基因表达影响生活的方方面面,例如细菌在特定环境中的生存方式,以及人体的解剖学和生理学研究。若人们能够借助调节基因表达方式的 DNA 序列,准确预测基因表达水平,那么我们探索生物领域的方式将迎来重大突破。然而,调节基因表达背后的生化机制极其复杂,50多年来,生物学家一直未能实现这一目标。近期,麻省理工学院的 Vaishnav 等人在 Nature 杂志上发表文章称,他们构建了从序列到表达模型(sequence-to-expression models),利用两项关键技术实现对酿酒酵母中基因表达的预测,这可以说为日后的目标实现带来了曙光。
这些研究者们使用的第一项技术是,测定在大量酵母中编码黄色荧光蛋白(YFP)的基因表达。这些酵母中,不同的细胞携带不同的调控 DNA 序列,这些序列被称为启动子,它们位于一小段环状DNA上,位置靠近YFP基因,这使得它们能够驱动YFP的表达。研究者们使用了一个含超过3000万启动子(每个含80个碱基对)的集合,一个细胞一个细胞地定量测定了表达的YFP。