中国科学院院士陈润生:以遗传密码为基础的大数据

责任编辑:耿鹏飞 2017.05.25 11:18 来源:通信世界网

通信世界网消息(CWW)2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。中国科学院院士陈润生出席并发表演讲,以下为演讲实录。

尊敬的各位领导,各位专家,非常容幸能够到这儿来介绍一下关于精准医学的情况,非常高兴能跟各位大数据专家进行交流。我们这里生物,对数据了解得很少,所以有机会向各位专家学习。下面讲的是精准医学,主要讲讲精准医学。大家知道,这个2015年1月20号美国总统奥巴马提到美国要开展启动所谓的精准医学研究,那么从此美国的精准医学就走上了国家计划的轨道,然后这个消息很快消息就传在国内,我们的习总书记和李克强总理有指示,2015年十几个部位就启动了精准医学。通过指南的提出和指标,在2016年的六七月份有60个以精准医学命名的重大专项的项目,总投资在12亿人民币。说精准医学在我们国家也开展起来了。第二批的招标已经招标完了,现在正在评议过程当中,说明精准医学在全世界已经彭勃开展起来了。所以我就精准医学就我的理解跟大家进行一些交流。

大家知道,包括人在内的所有高等生物都是细胞组成的,这个遗传物质在染色体里面,把这个链展开是很漂亮的,每一个链都是一个单位。有四个符号组成的基因密码链,长到3乘10的9次方。这个链有9个符号代表了我们所有的生长和发育。上个世纪90年代开始人类破解了自己的遗传密码,但是以前测一个人的遗传密码,需要消耗100亿美金,由于这个技术对人类健康的重大意义,短短30年里面,这个效率提高了10的6次方倍,价格降低了100万倍。目前,在国内花六千元就可以得到自己的遗传密码。没有大数据的时候,遗传密码可以测得,但是不知道它的含义。而我们知道最近国际上正在发布一个更加有效的系统,大约在今年年底每个人只需要花六到七百人民币就可以测自己的遗传密码。

不管是否明白,它代表你的遗传特征和信息。我相信在未来,有一个简单的事实,任何一个人花六百块可以拿光盘去找医生咨询自己的身体状况,就好像刚才云计算一样,很快的就会铺天盖地的涌入到人们的日常生活当中来。所以现在很现实的问题,从现在开始,每个人都有希望拿到自己的遗传密码,这就是当前划时代的科学进展的背景。

面就精准医学我来我自己五个方面的理解

第一,精准医学的核心是什么。精准医学的本质是什么东西。我的理解是,精准医学的本质一句话,就是组学大数据与医学的结合。实际上很简单,大家知道,近代生物医学革命性的变化就是得到了以遗传密码为基础的大数据。这是人类生物科学上的划时代的,以前没有,以后我们就开始用了。以后就变成常规的事了。因此,这个数据刚开始价格很高,现在变得普通、便宜了,任何人可以得到自己的遗传密码,而这些遗传密码的分析,分析什么?分析正常人和得了肿瘤的人的分析,遗传密码是哪些不同的,就可以得到信息。跟肺癌相关的,你的遗传密码的不足在什么地方。如果我们分析了更多人的跟肿瘤,跟心脑血管病,跟带学疾病相关的例子,这些人花几百块侧遗传密码,这样进行比较,哪方面可以存在突变,你就有得这个病的风险。

我们从上个世纪90年代以来可以测每个人的遗传密码,还有各样各种的大数据,我们叫蛋白质的大数据等等,以遗传密码为代表的组学数据,这些组学数据通过大数据分析以后获得知识,构建数据库可以用来对人类的疾病进行判断。这样的结合实际上就是当前精准医学的本质。你说精准医学和过去医学增加了什么东西,增加了组学大数据,加在临床医学当中来了。核心就是增加了以遗传密码为代表的大数据。也就是一系列的自遗传密码破译以来的医学等等的这样的思想的延续。

第二,精准医学刚才谈了本质是把组学大数据用到临床医学当中来了,这样的一种精准医学的概念会不会带来一些本质的变化?为什么会引起各国领导人的重视。我想我乐意谈一谈,精准医学虽然是把组学大数据加到临床医学当中来,但是它的意义并不仅仅在于提高了临床医学的几个百分点,可能还有更深刻的意义。这个更深刻的意义我们也可以用一句话来概括。精准医学的本质的意义就是可以使医疗健康的概念发生本质变化。我们知道,现在大家知道,这个健康科学的核心是什么,是诊断治疗,所以我们健康是为病人服务的,有了病才去医院找大夫,到医院。这是现在健康体系的核心,有了精准医学以后,大家知道我们可以对任何人在不得病的时候,在它的整个的全生长过程,从出生到死亡作全方位的监控,这个时候实际做的并不是对病人进行治疗,而是对每一个活在世界上的人健康做测量,做评估,做干预而使得有一些疾病不发生或者延缓发生,大大的提高生活质量。所以精准医学的概念下,健康医学的概念从现在诊断治疗为主发展到精准医学实现以后的健康保障为主。就是说它对世界上的全民,全部生产周期进行全方位的监控,所以这是本质的变化。这个本质的变化有人估计会带来相应的产业的发展,我找到一个资料说, 2018年全球跟精准医学相关的产业和带来的产值的变化有2000亿美金。因此精准医学研究已经成为新一轮国家科技竞争和引领国家发展潮流的制高点,很多人把精准医学和国家发展政策相关联了。

第三个要说的就是实现精准医学要建立哪些基础,既然精准医学也是重要的,也有重大的发展前景,要实现精准医学需要具备两个基础,一个叫组学大数据的基础,我们知道要实现精准医学首先得得到获取组学数据,但是获取的组学数据谁也读不懂,所以必须利用大数据的分析的理论技术和方法,因此要获得分子水平和疾病相关的知识必须把组学数据的获取和大数据挖掘这当前两大前沿领域有机的融合起来,才能得到跟疾病相关的知识。所以第一个基础是组学大数据的基础,没有组学没有大数据我们就不能够得到有效的知识。刚才邬先生讲了实际上有很多数据只利用了很少的一部分,其实下面我会讲,我们基因组充其量能利用了3%,97%都没有挖掘,所以我们有巨大的潜力。

第二个有组学大数据的基础我们就会获得分子水平上相关的知识。第二个基础就是把分子基础的变化和组学的桥梁。一定和当前的影像学和声化学结合起来。我发现一些测序公司为了宣扬自己的能力,我测了什么都可以解决了,实际上这是不对的,是片面的。精准医学是建立在现代临床基础上,是相关的,没有现在临床的结合,精准医学独自是不能实现目标的。

第四个问题是精准医学现在走到哪一步了,精准医学那么好,目标那么远大。我自己的观点是精准医学刚刚上路,为什么呢?因为在精准医学这个概念下,在精准医学的核心,我们用它来衡量,我们离达到这个目标差很远,我们遇到了非常大的困难和挑战。所以我利用这个机会讲一点点困难,挑战是非常多的。

在组学当中,在遗传密码当中只讲一个挑战,这个挑战就是基因组当中的暗信息,我们的遗传密码也存在暗信息。大家知道我们的遗传密码,大家看这个图,我们现在可以花五六千可以测得完整的遗传密码。今年年底可以花六七百测得遗传密码。我们的问题是,这个遗传密码现在我们把全世界生物医学领域的知识集中起来,我们能读懂他多少?我告诉大家,现在的科学进展告诉我们,这个遗传密码你可以很容易测得,但是真正从根本上从规律上能懂的部分不超过3%,我们称之为遗传密码当中的编码序列,也就是大家从中学就了解的遗传密码当中早蛋白的遗传密码,那些遗传密码的规律我们是知道的,因为我们知道中性法则,所以他的规律我们都知道了。这一部分我们只占到3%。我当时参加了基因组计划,当时测完了,我是搞数据分析的,就找不到基因,最后我们异味我们自己的能力优先,20年前觉得有差距,最后20多个国家谁都找不到。

另外,真正过去我们认为编码蛋白的部分其实没有那么多。刚开始认为可能有10%吧,后来又少了一点,觉得又是5%吧,现在的看法大约充其量3%,这是对遗传密码认识的将近。另外97%不是用来造蛋白的,这一部分我们叫遗传密码当中的非编码序列,这个非编码序列是很重要的,作为规律来讲,我们迄今为止,在这种情况下如何做到精准了,测了一个遗传密码只有3%,另外97%干什么的都不知道。所以从这个简单的例子就可以看到,其实我们精准医学才处在起步阶段,我们的起步点就是分析3%,我们随着全世界科学家的努力不断的努力,这样才能做到精准。这一件事其实比其他问题都好解决,大家只要查这一篇文献就可以,大家可以看2010年12月17号的Insights。也就是说离我们最近的10年,如果把自然科学所有的领域加在一块,哪10个事最值得人们关心,第一个事就是基因组当中的暗物质,也就是指的基因组当中现在不掌握的遗传密码。迄今为止我们仅有1.5%的遗传密码是知道归位的,充其量不到3%,所以97%的遗传密码可以测得,但是不知道生物学的作用。
   最后,简单的说对数据分析所遇到的挑战。大家知道第一个挑战很明确不说了。生物数据同样是大数据,我们一个人就是1乘10的9次方,如果一个人把这些都加在一起就远远比这个多,但是对人来说,一个特点增速非常快,由于测量速度的价格越来越便宜,所以它的速度是我知道的增速最快的数据,第一天和第二天就不一样。第二个质量目前不太好,有缺失质。这个大家知道是,这是我们双螺旋结构的发现者沃森,他发现了DNA双螺旋。这是他自己的遗传密码,当时大约是人类会遗传密码10年以后,测他的遗传密码花了100万美金放在小盒子里,我想他看了小盒子,实际上我们知道了一些东西,但是大部分东西存在这儿,依然不知道小盒子的含义是什么。

但是从样本源来讲,虽然我们的数据源很大,但是比如说我们要研究肿瘤,你要得到样品,你要研究肺癌,找100个肺癌的人就很难了,我跟协和的肿瘤医院院长合作,他应该是最容易得到肿瘤的,我们两个大约收集了很长时间,收集了150个试管林癌的样本,你要做某一个相关疾病的特定样品很难的。比如说肿瘤,像心脑血管病,实际上都是多基因病,它的自变量是千数量级的,但是你得到的样本,是百数量级的,这个模型是不熟练的,这样的变量都是几千个,你只能收集几百个。所以怎么办?国际和国内,精准领域的办法就是测10万,100万样品的人群,这样的话,我的样品量的就大量的体积量数,作为我们研究组来讲,办不到这点,没有那么多钱,我们只能找到子系统,分解出子系统的自变量数,这样的话才能解决这方面的问题,这是在数据处理当中的第二个挑战。

第三个挑战,实际上同样一种疾病,发生的微观的不一样的,发生肺癌这个人是这点变了,那个人那点变了,好不容易收集了肺癌病人,他分布在10个位点上,所以这种有效事件不是百分之百出现的。是按一定频率出现的。因此我们从组学水平提出分子水平的概念,就是共同的疾病,什么是分子疾病的共同的基础,什么是个体差异,这个需要在新的组学意义上定义。

最后一个,影响某一个疾病不仅仅是每一个基因的变化,大家知道你得了肿瘤不仅仅是基因的变化,还有基因和基因的相互作用,所以,一定还要考虑个个遗传密码的相互作用,也就是说复杂的网络,包括信号传导网络,包括大分子相互作用网络,包括调控网络等等。但是,大家知道这些复杂网络是动态的,一个生命是活的,由于网络之间都是有目的的,所以它是有向的,这个复杂网络是双向的,而且本身不是单一的。所以它可能是双色和多色的,网络和网络之间的关系是,对一个动态有向组成的非线性的网络是复杂的,数学上挑战。我们不仅仅是组学的,还要组合影像学的,有的做核磁,有的做CT。数据共享的问题,我们知道要做大数据,现在每个医院都存在在数据,怎么在国家层面上数据共享,不仅仅是科学问题,还有管理问题,共享问题,没有大数据的共享,那就是我们在大数据的时代做小数据的工作,所以这个问题实际上是更难解决的问题。

第五个问题我要讲讲,上面都是报的困难,最后讲这些困难对我们来讲是无限的创新机遇。我举一个例子,基因组的研究,我们的遗传密码知道3%,97%都不知道,对精准来讲是很不利的,但是对于创新来讲,但是是绝对的创新机遇。所以创新重大的机遇对我们的激动和鼓舞。

从遗传密码来讲,我们有97%不知道,问题是这97%是否有用呢?我们来看看这是不同净化水平的,这个是大干杆菌,这个生物,如果测它的遗传密码,它的遗传密码很小,整个遗传密码整个圆盘算它的遗传密码,红色部分就是掌握归类的,85%都是用来编码蛋白的,所以对一个大肠杆菌来讲,把遗传密码测了就知道它是怎么活的。但是上面中间的酵母,就要高等一点,然后我们已知归类的部分减少了,变成70%。我们看最上端又变了,是线虫,它是多细胞生物,虽然很低等,这个时候掌握规律的编码蛋白质是28%了。下面最左边的果蝇,更高档的昆虫遗传密码减少了17%了。人98%都是非编码,这个概念跟我们中学建立的概念,生物越复杂蛋白越多,编码基因越多,完成不对,生物越高等,是我们没有解析的那一般越多,生物从简单到复杂增加的是我们没有破译的非编码序列。告诉我们的事实就是那97%绝对是重要的。

大家知道从信息传递的观点来讲,任何一个基础遗传要发挥生物学作用,所谓信息发放发表,就是要产生一个由它制造出来的东西,所以人们当了解这97%是有用的时候就去找这97%的遗传密码有没有产物有没有信息发放。这个结果从人类进入21世纪以后发现来自那97%,所以这两点事实上让我们不怀疑这10%每时每刻发生着重要的作用。

下面我给大家举几个跟肿瘤相关的例子,虽然97%没有破译,但是人们关心这个变化是否会导致肿瘤。第一个例子是,有一个东西来自那97%,最后它也发放信息,这个发放出来的信息没有蛋白,但是它产生的RA会导致前列腺癌。这个是如果大家玛拉可1(英译),会导致非小细胞肺癌。因此你去医院看肿瘤,检查只用了3%的信息,另外的97%没有用,因为没有这个知识。只检查3%,你得了肿瘤你能判断得准吗?因为那是97%引起的。所以现在的状况是这样的,因此治疗的话也没有把97%的变化肿瘤作为治疗的法典,所以如果是97%得的肿瘤是没有办法治的。所以从这个意义上讲,包括肿瘤、心脑血管病,代谢疾病大部分疾病没有发现,大部分可以设计药物的把点都没有发现,所以这是巨大的机会和财富。这是我们跟协和做的例子,可以找到97%的例子来预测食管淋癌,我们做的干细胞,还有和免疫有关的,不详细讲了。我们虽然巨大的挑战,但是一个挑战给我们引发出无限的机会,所以非编码的研究对疾病的诊断治疗会有全新的平台,或者为全新的药物的设计和研发提供方向,提供全新的思考。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容