这是一个关于“生物学遇见ChatGPT”的里程碑时刻。
这篇刚刚发表在《Nature》上的论文(Semantic design of functional de novo genes from a genomic language model),可能标志着我们从“阅读”生命天书,正式跨越到了“自由写作”的时代。

这是一个关于“生物学遇见ChatGPT”的里程碑时刻。
这篇刚刚发表在《Nature》上的论文(Semantic design of functional de novo genes from a genomic language model),可能标志着我们从“阅读”生命天书,正式跨越到了“自由写作”的时代。

想象一下,你的身体是一个庞大而精密的王国,时刻面临着病毒、细菌等外敌的入侵。为了保卫王国,你需要一支无敌舰队——这就是你的免疫系统。而这支舰队的主力战舰,就是“抗体”。
每一艘“抗体”战舰,都不是一整块钢铁铸就的。它由两个关键部件精密组装而成:一条又长又重的“重链”(Heavy Chain),和一条较短较轻的“轻链”(Light Chain)。只有当一条重链和一条轻链完美地“看对眼”,像天作之合的情侣一样紧密拥抱在一起,这艘战舰才能形成稳定的结构,开赴前线,精准锁定并摧毁敌人。
但问题来了:你体内的重链和轻链,种类都堪称天文数字。它们是如何在茫茫“人海”中找到自己唯一的、正确的“灵魂伴侣”的?这种配对是命中注定,还是纯属偶然的“拉郎配”?如果配错了,会发生什么?
你是否想过,每年例行公事般完成的体检,那张打印着密密麻麻箭头和数字的报告,除了告诉你血脂高了点、体重超了些,还隐藏着什么更深层的信息?
我们大多数人,包括许多医生在内,都习惯于孤立地看待这些指标。白细胞、红细胞、肝功能、肾功能……它们就像一个个独立的部门,各自汇报着工作。但如果,身体里有一个“隐形破坏者”,它并不直接在某个指标上敲响警钟,而是悄悄地、联动地影响着好几个部门的运作呢?
最近,来自浙江大学医学院附属第二医院的一群科学家,就揪出了这样一个“隐形破坏者”,并且,他们还训练出了一位能看穿它伪装的“AI 侦探”。
想象一下,你是一位站在一座巨大、无序的城市面前的侦探。你的任务是搞懂这座城市的运作方式——不仅仅是宏观的规划,还要了解每一位市民的生活:他们做什么工作,和谁交谈,是健康还是生病。现在,再想象一下,每位市民都留下了一本详尽的日记,但全是用一种复杂的、你完全不懂的外星语写成的。
这,就是“单细胞测序”时代生物学家的日常。
几十年来,科学家研究组织器官的方式,就像做一杯冰沙。他们把组织磨碎,得到一个总体的“风味”——比如,这个样本是 20%的苹果加 80%的香蕉——但却失去了每一颗独立水果的精美细节。而“单细胞测序”技术改变了一切。它让科学家能放大到极致,去分析一个组织里每一个细胞独特的基因活动。我们突然之间,拥有了数百万“市民”的日记。
想象一下,你的身体是一座巨大的城市,而疾病,就像是潜入城市的各种“破坏分子”——病毒、细菌、癌细胞。幸运的是,你的城市里有一支精英警察部队,叫做“免疫系统”,它们使用一种高科技武器——“抗体”——来抓捕这些坏蛋。
每个抗体,都像一把特制的钥匙,只能打开一把特定的锁。这个“锁”,就是坏蛋身上的某个独一无二的分子结构,我们称之为“抗原表位”(Epitope)。一旦钥匙插进锁里,坏蛋就会被标记、被摧毁。
几十年里,我们寻找新“钥匙”(研发新抗体药)的方法,都像是在一个装满了亿万把旧钥匙的仓库里瞎摸。我们要么给小老鼠注射疫苗,等它“碰巧”制造出我们想要的钥匙;要么大海捞针般地筛选一个巨大的“钥匙库”。这个过程不仅慢得令人抓狂、成本高昂,而且经常找不到那把最完美的钥匙——那把能精准插进坏蛋“致命要害”上的锁的钥匙。
想象一下,如果你的Google搜索引擎突然告诉你:“抱歉,互联网太大了,我只能帮你搜索其中1%的内容。”你会作何感想?是恐慌,还是无奈?
这听起来像天方夜谭,但这恰恰是过去十几年里,全世界微生物学家和流行病学家每天都在面对的窘境。他们赖以生存的基因“搜索引擎”——一个名叫BLAST的传奇工具——正被一场史无前例的数据海啸所淹没。
而今天,我们要讲的,就是一个关于如何在这场数据海啸中,重建一座能导航整个基因世界的“灯塔”的故事。
想象一下,你把车开去保养,问技师:“我的车状况如何?”
技师没有检查引擎、轮胎和刹车,而是回答说:“嗯,这辆车已经出厂 10 年了。”