人体所有组织中都存在蛋白质,地球生物体内蛋白质的重要组成部分

人体所有组织中都存在蛋白质,地球生物体内蛋白质的重要组成部分

光明/视觉中国

光明/视觉中国

光明/视觉中国

在分子时代,科学家发现蛋白质的种类、含量、性质、结构、时空定位和动态变化与生命健康密切相关,是疾病发生的最基本要素。细胞内外有数不清的蛋白质“机器”,时刻处于动态运行中,预示着生物体当前的健康状况和疾病进展。如果我们能够通过技术测量蛋白质的即时状态,我们可能会探索疾病发生和发展的规律,并开发出更有效的治疗方法。

1蛋白质世界的“暗物质”:生于基因,生于蛋白质。

说到生命科学,人们可能对基因更熟悉,但对蛋白质这门相对年轻的科学却知之甚少。其实基因虽然书写了生命的蓝图,但也只是一维线性序列。基因被转录翻译,表达为蛋白质,构成了三维世界的动态生命。例如,毛毛虫变成蝴蝶,蝌蚪变青蛙,它们的个体基因没有改变;一个人的基因组从出生到死亡基本上是稳定的。生命过程中的这些变化是由无数的蛋白质动力学驱动的。中科院院士贺福初教授总结得好,“生于基因,生于蛋白质”。

在一维空间,我们永远无法理解三维空间的复杂。相比较而言,蛋白质的复杂程度远高于基因。首先,一个基因可以表现为多种蛋白质;其次,蛋白质会像变形金刚一样在时间和空间上发生变化。此外,蛋白质处于不断的生产和降解平衡中,存在各种翻译后修饰,可以形成复杂的化合物,等等。

人体内有多少种蛋白质?据估计,已知物种至少有2万种,预测物种至少有16万种。再加上蛋白质的不同变异和修饰,蛋白质的种类可能超过一千万种。

蛋白质组是什么?蛋白质组的概念最早是在1994年提出的,它被定义为“由一个基因组表达的所有蛋白质”。

组学在蛋白质方面的研究面临多大挑战?在一个成年人身上找到一种蛋白质就像在成千上万条河流中寻找一滴水。从某种意义上说,每个人体都可以看作是主要由蛋白质机器构成的“蛋白质宇宙”。由于研究难度、需要复杂的技术手段等多种因素,我们对人体的蛋白质宇宙知之甚少,这是生命科学中最前沿、最具挑战性的方向之一。

据估计,目前人类蛋白质组95%以上的功能研究集中在研究充分的5000种左右的人类蛋白质上,而人体内还有一个巨大的“暗物质”——蛋白质世界3354,在蛋白质中没有研究过或者很少研究,也没有人关心。事实上,这些未知的蛋白质可能掌握着解决人类重大疾病的关键,如癌症、老年痴呆症和许多罕见疾病。

如今,在世界主要发达国家,科技界和工业界已经逐渐认识到蛋白质组的重要性。2018年,中国科技部组织遴选了一批国际大科学计划培育项目。由何福初教授牵头的“人类蛋白质组计划2.0及蛋白质组驱动的精准医疗”项目是首批启动的三个项目之一。2022年2月2日,美国总统拜登重启奥巴马时代的“癌症登月项目”,蛋白质组是这个项目最重要的方向之一。不久前,包括中国科学家在内的6个国家的科学家联合发起了一项“研究不足的蛋白质”的世界性调查,并在国际学术期刊《自然》的一系列子期刊上发表了关于该调查的文章,呼吁更多的研究人员和科学家加入研究,破译蛋白质世界中未知的“暗物质”,不断拓展人类对生命活动的认知边界。

蛋白质中的第二组人工智能:破解疾病治疗“密码”的新技术

来自人类、动物、植物、微生物等的样品。无论是液体血液、尿液、眼泪、脑脊液、唾液,还是手术取出的固体冷冻或石蜡组织,甚至一些特殊的样本,如头发、牙齿、指甲、骨骼、粪便等,都含有丰富的蛋白质。但是它们含有多少种蛋白质呢?有多少种蛋白质表达?其中大部分是未知的,这些未知的蛋白质组信息与疾病的诊断和治疗密切相关。

如果能尽可能多地收集样本中关于蛋白质组的信息,能否结合AI分析出规律,从而加深人类对疾病的认识,掌握治疗疾病的“密码”?这是一个未知的生命科学领域。

目前积累的微观世界,尤其是蛋白质形成的数据还很少,因为对蛋白质形成的数据的分析依赖于非常复杂的技术,而这些技术是近五年才开始快速迭代发展的。现在,我们有了一些新技术,可以用来分析非常小样本的蛋白质组。举个例子,我们可以从0.1mg的组织中提取分析出上千种蛋白质,它的组织大小只相当于半个小米。这样,即使样本非常有限,我们也可以通过多次全蛋白质组分析,检测数千甚至数万种蛋白质,实现快速、深入、高通量、高重现性的检测。而且得到的蛋白质数据可以永久保存,以后可以反复分析挖掘。

同时,虽然我们看不到蛋白质的形状,但是我们可以通过AI计算预测它的形状模型,让它出现在我们眼前。这些视觉模型直观地展示了蛋白质的多样性,就像宏观世界中各种形状各异的物体。

这种方法也有望在未来用于疾病的诊断和治疗。现在,人工智能技术可以用于智能分析常规医学检查图像和实验室生化测试的数据文本,这些数据文本已经可以用于辅助疾病诊断和治疗。

但这些数据都是宏观层面的,旨在区分病理表现型,探讨疾病的发病机制,一直在挠头。而追根溯源,微观层面上分子的性质和功能,才是真正的决定性因素。这样的分子数据集合被称为多组学数据,包括基因组、转录组、蛋白质组、代谢组等。其中核心组是蛋白质组,几乎所有的药物都是针对蛋白质的。蛋白质组也能直接反映疾病的发生发展。借助目前蛋白质组学技术的大量临床样本,积累海量蛋白质组大数据后,结合其他组学数据,通过AI整合,可以更准确地发现更多潜在的生物标志物。

3蛋白AI:

正在疾病诊断领域崭露头角

如今,蛋白质+AI的研究正在进行中,也取得了一些突破性进展。

例如,我们尝试发挥蛋白质+AI的优势,让甲状腺结节诊断变得更加精准。甲状腺形如蝴蝶,是人体最大的内分泌器官之一。有些人把它称为人体新陈代谢的CEO,影响各个器官。它接受来自大脑的信息,调控甲状腺素的分泌,这个激素会调控五脏六腑,也控制肌肉力量、情绪,对人体非常重要。数据显示,成年人中大概有一半的人患有甲状腺结节。从性别上看,女性甲状腺结节的患病率高于男性,大约是男性的3~5倍。从年龄上看,20~55岁是甲状腺结节高发的年龄段。

在临床实践中,10%~30%的甲状腺结节是无法在术前精确诊断的。这一诊断准确度也取决于医生较为主观的临床经验,不同的医生可能会对同一个结节的良恶性有不同的判断。难以诊断的甲状腺结节的判断有多种辅助检测的方法,基于基因水平的诊断在西方国家被广泛接受。然而,基因检测准确率并不是很高,因为甲状腺结节的基因突变总体比较少,且存在个体差异,mRNA相对来说又不太稳定,检测的难度较高。美国的一些实验室与公司开发了基因测序试剂盒,通过较为成熟的基因测序辅助判断结节的良恶性。这一方法的灵敏度达83%~100%,但是特异性只有10%~52%。这意味着,如果是恶性,基本可以检测出来,几乎不会漏掉,然而,对于良性结节的诊断仍存在巨大挑战。

这种情况下,医生和患者有时会选择一切了之。这虽然堵住了发展为恶性肿瘤的可能,但也给生活带来了很多不便——切除甲状腺后的患者需要终身服用甲状腺素代替药物,因为人体其他器官无法自行合成甲状腺素,如果不服药,失衡的激素水平会引起其他继发性疾病。

而蛋白质+AI则有助于判断甲状腺结节的性质。我们科研团队与包括新加坡和中国在内的几十家医院进行合作,建立了多中心、回顾性和前瞻性的数据集,对1000多名患者的甲状腺结节样品进行蛋白质组分析,再通过AI神经网络算法进行分析,建立了由多个蛋白特征构成的AI模型,可以用于结节良恶性的评估。这些结果的准确度高达90%。而通过现实可行的产业转化,该成果预期有望应用于临床。这个例子只是精准诊断中的一个应用范式,该研究范例理论上可推广至其他病种,比如卵巢癌、大肠癌等都可以用类似的方法进行处理。

蛋白质组对疾病的诊断非常重要,最新的蛋白质组技术越来越多地应用于临床生物标志物的发现。未来,我们会继续和临床医生、计算机科学家一起开发基于蛋白质组的大数据,进行人工智能分析的诊断筛查新模式。当然,蛋白质组只是所有测量中的一部分,我们还可以结合多组学,结合临床图像和病人临床数据建立综合模型,为健康生活提供更多保障。

来源: 光明日报

相关推荐

什么是自学考试?不懂就来看看。

一、什么是自考是成人教育的一种,国家承认学历,能在“学信网”进行查询。二、自考分为大...

大专生怎样出国留学,专科生如何出国留学

网罗最新资讯,分享前沿焦点带您了解日本的方方面面为您留学日本提供助力!⬇️留学信息|...

2019年4月四川自考港澳台及外国籍考生报名办法

根据《2019年4月四川自考通告》知悉,2019年4月四川自考报考时间自2月28日开...

学生证是校徽吗,学校毕业证书照片

学生是白底红字我不确定,现在的大学,是不是还有校徽。我把所有的课本扔了,唯一保留了这...

中西医临床医学报考条件,西医综合报考条件

2020年临床医学招生及报名条件,临床医学专业可参加临床执业医师考试,临床执业医师证...