人体由蛋白质组成的,人体内的宇宙

人体由蛋白质组成的,人体内的宇宙

光明/视觉中国

光明/视觉中国

光明/视觉中国

在分子时代,科学家发现蛋白质的种类、含量、性质、结构、时空定位和动态变化与生命健康密切相关,是疾病发生的最基本要素。细胞内外有数不清的蛋白质“机器”,时刻处于动态运行中,预示着生物体当前的健康状况和疾病进展。如果我们能够通过技术测量蛋白质的即时状态,我们可能会探索疾病发生和发展的规律,并开发出更有效的治疗方法。

1蛋白质世界的“暗物质”:生于基因,生于蛋白质。

说到生命科学,人们可能对基因更熟悉,但对蛋白质这门相对年轻的科学却知之甚少。其实基因虽然书写了生命的蓝图,但也只是一维线性序列。基因被转录翻译,表达为蛋白质,构成了三维世界的动态生命。例如,毛毛虫变成蝴蝶,蝌蚪变青蛙,它们的个体基因没有改变;一个人的基因组从出生到死亡基本上是稳定的。生命过程中的这些变化是由无数的蛋白质动力学驱动的。中科院院士贺福初教授总结得好,“生于基因,生于蛋白质”。

在一维空间,我们永远无法理解三维空间的复杂。相比较而言,蛋白质的复杂程度远高于基因。首先,一个基因可以表现为多种蛋白质;其次,蛋白质会像变形金刚一样在时间和空间上发生变化。此外,蛋白质处于不断的生产和降解平衡中,存在各种翻译后修饰,可以形成复杂的化合物,等等。

人体内有多少种蛋白质?据估计,已知物种至少有2万种,预测物种至少有16万种。再加上蛋白质的不同变异和修饰,蛋白质的种类可能超过一千万种。

蛋白质组是什么?蛋白质组的概念最早是在1994年提出的,它被定义为“由一个基因组表达的所有蛋白质”。

组学在蛋白质方面的研究面临多大挑战?在一个成年人身上找到一种蛋白质就像在成千上万条河流中寻找一滴水。从某种意义上说,每个人体都可以看作是主要由蛋白质机器构成的“蛋白质宇宙”。由于研究难度、需要复杂的技术手段等多种因素,我们对人体的蛋白质宇宙知之甚少,这是生命科学中最前沿、最具挑战性的方向之一。

据估计,目前人类蛋白质组95%以上的功能研究集中在研究充分的5000种左右的人类蛋白质上,而人体内还有一个巨大的“暗物质”——蛋白质世界3354,在蛋白质中没有研究过或者很少研究,也没有人关心。事实上,这些未知的蛋白质可能掌握着解决人类重大疾病的关键,如癌症、老年痴呆症和许多罕见疾病。

如今,在世界主要发达国家,科技界和工业界已经逐渐认识到蛋白质组的重要性。2018年,中国科技部组织遴选了一批国际大科学计划培育项目。由何福初教授牵头的“人类蛋白质组计划2.0及蛋白质组驱动的精准医疗”项目是首批启动的三个项目之一。2022年2月2日,美国总统拜登重启奥巴马时代的“癌症登月项目”,蛋白质组是这个项目最重要的方向之一。不久前,包括中国科学家在内的6个国家的科学家联合发起了一项“研究不足的蛋白质”的世界性调查,并在国际学术期刊《自然》的一系列子期刊上发表了关于该调查的文章,呼吁更多的研究人员和科学家加入研究,破译蛋白质世界中未知的“暗物质”,不断拓展人类对生命活动的认知边界。

蛋白质中的第二组人工智能:破解疾病治疗“密码”的新技术

来自人类、动物、植物、微生物等的样品。无论是液体血液、尿液、眼泪、脑脊液、唾液,还是手术取出的固体冷冻或石蜡组织,甚至一些特殊的样本,如头发、牙齿、指甲、骨骼、粪便等,都含有丰富的蛋白质。但是它们含有多少种蛋白质呢?有多少种蛋白质表达?其中大部分是未知的,这些未知的蛋白质组信息与疾病的诊断和治疗密切相关。

如果能尽可能多地收集样本中关于蛋白质组的信息,能否结合AI分析出规律,从而加深人类对疾病的认识,掌握治疗疾病的“密码”?这是一个未知的生命科学领域。

目前积累的微观世界,尤其是蛋白质形成的数据还很少,因为对蛋白质形成的数据的分析依赖于非常复杂的技术,而这些技术是近五年才开始快速迭代发展的。现在,我们有了一些新技术,可以用来分析非常小样本的蛋白质组。举个例子,我们可以从0.1mg的组织中提取分析出上千种蛋白质,它的组织大小只相当于半个小米。这样,即使样本非常有限,我们也可以通过多次全蛋白质组分析,检测数千甚至数万种蛋白质,实现快速、深入、高通量、高重现性的检测。而且得到的蛋白质数据可以永久保存,以后可以反复分析挖掘。

同时,虽然我们看不到蛋白质的形状,但是我们可以通过AI计算预测它的形状模型,让它出现在我们眼前。这些视觉模型直观地展示了蛋白质的多样性,就像宏观世界中各种形状各异的物体。

这种方法也有望在未来用于疾病的诊断和治疗。现在,人工智能技术可以用于智能分析常规医学检查图像和实验室生化测试的数据文本,这些数据文本已经可以用于辅助疾病诊断和治疗。

但这些数据都是宏观层面的,旨在区分病理表现型,探讨疾病的发病机制,一直在挠头。而追根溯源,微观层面上分子的性质和功能,才是真正的决定性因素。这样的分子数据集合被称为多组学数据,包括基因组、转录组、蛋白质组、代谢组等。其中核心组是蛋白质组,几乎所有的药物都是针对蛋白质的。蛋白质组也能直接反映疾病的发生发展。借助目前蛋白质组学技术的大量临床样本,积累海量蛋白质组大数据后,结合其他组学数据,通过AI整合,可以更准确地发现更多潜在的生物标志物。

3蛋白AI:

正在疾病诊断领域崭露头角

如今,蛋白质+AI的研究正在进行中,也取得了一些突破性进展。

例如,我们尝试发挥蛋白质+AI的优势,让甲状腺结节诊断变得更加精准。甲状腺形如蝴蝶,是人体最大的内分泌器官之一。有些人把它称为人体新陈代谢的CEO,影响各个器官。它接受来自大脑的信息,调控甲状腺素的分泌,这个激素会调控五脏六腑,也控制肌肉力量、情绪,对人体非常重要。数据显示,成年人中大概有一半的人患有甲状腺结节。从性别上看,女性甲状腺结节的患病率高于男性,大约是男性的3~5倍。从年龄上看,20~55岁是甲状腺结节高发的年龄段。

在临床实践中,10%~30%的甲状腺结节是无法在术前精确诊断的。这一诊断准确度也取决于医生较为主观的临床经验,不同的医生可能会对同一个结节的良恶性有不同的判断。难以诊断的甲状腺结节的判断有多种辅助检测的方法,基于基因水平的诊断在西方国家被广泛接受。然而,基因检测准确率并不是很高,因为甲状腺结节的基因突变总体比较少,且存在个体差异,mRNA相对来说又不太稳定,检测的难度较高。美国的一些实验室与公司开发了基因测序试剂盒,通过较为成熟的基因测序辅助判断结节的良恶性。这一方法的灵敏度达83%~100%,但是特异性只有10%~52%。这意味着,如果是恶性,基本可以检测出来,几乎不会漏掉,然而,对于良性结节的诊断仍存在巨大挑战。

这种情况下,医生和患者有时会选择一切了之。这虽然堵住了发展为恶性肿瘤的可能,但也给生活带来了很多不便——切除甲状腺后的患者需要终身服用甲状腺素代替药物,因为人体其他器官无法自行合成甲状腺素,如果不服药,失衡的激素水平会引起其他继发性疾病。

而蛋白质+AI则有助于判断甲状腺结节的性质。我们科研团队与包括新加坡和中国在内的几十家医院进行合作,建立了多中心、回顾性和前瞻性的数据集,对1000多名患者的甲状腺结节样品进行蛋白质组分析,再通过AI神经网络算法进行分析,建立了由多个蛋白特征构成的AI模型,可以用于结节良恶性的评估。这些结果的准确度高达90%。而通过现实可行的产业转化,该成果预期有望应用于临床。这个例子只是精准诊断中的一个应用范式,该研究范例理论上可推广至其他病种,比如卵巢癌、大肠癌等都可以用类似的方法进行处理。

蛋白质组对疾病的诊断非常重要,最新的蛋白质组技术越来越多地应用于临床生物标志物的发现。未来,我们会继续和临床医生、计算机科学家一起开发基于蛋白质组的大数据,进行人工智能分析的诊断筛查新模式。当然,蛋白质组只是所有测量中的一部分,我们还可以结合多组学,结合临床图像和病人临床数据建立综合模型,为健康生活提供更多保障。

相关推荐

要憋死我了,感觉要憋死了

今天载老爸回来的路上,老爸说:“不要和势利的人,还有把钱看太重的人深交,我和你妈从来...

自考需要什么条件与要求,自考本科大学需要什么条件

大学自考需要哪些条件和要求?自考是我国高等教育的一项基本制度,也是现阶段我国高等教育...

中国发布|上海中考,多地教学面试,全国专四、专八延伸.11门考试因疫情延期或取消。

中国网5月11日讯受疫情影响,近期,多项重要考试被迫延期或取消——上海中高考延期,河...

自荐专升本需要什么条件,大学专升本需要什么条件

如果你只愿意做容易的事,生活就会很艰难,但如果你愿意去做困难的事,生活就会变得很容易...

2020课标修订主要变化有哪些,2017版2020年修订 课标变化

从学科核心素养、课程内容、教学建议等方面做了重点提炼4月21日,新版义务教育课程方案...