通信世界网消息(CWW)2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒•《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。中国科学院虚拟经济与数据科学研究中心副主任田英杰出席“大数据管理与决策”分论坛并发表题为《大数据应用案例介绍》的演讲,以下为演讲实录。
谢谢黄老师介绍。各位专家,各位大数据同仁,很高兴来这里和大家一起共同学习和交流。这里介绍一下我来自这个虚拟数据科学研究中心,我介绍一下我们中心以及在这个中心成立的大数据管理做的项目。看看是不是大数据,是不是大数据的挖掘应用。希望大家多多指正。
我分别介绍健康大数据,指纹大数据和征信大数据。健康大数据是我们和春雨医生2015年成立的叫健康大数据联合实验室,在这个实验室的框架下我们有一系列的研究任务,还有很多内容。这个里面如果大家不熟悉的话做一个简单的介绍。春雨医生就是用户可以在平台上提问,医生可以在平台上回答。应该算是移动医疗开通的开拓者,应该是全球最大的平台,每天的问诊数量都是领先的。
春雨的数据有什么数据呢?刚才说了,他的注册用户将近是9200万,另外一端是50万的医生,这个是二甲以上的医生,这个要你的资格和证书,每天解决的问题,我可以在上面提供什么数据呢?可以发文本、图象和语音。90%上是文本数据。每天要解决33万的问题。这是它的数据和量,我需要3分钟的急速效应,如果3分钟没有得到响应就是没有得到反馈。想象一下就是在不断的产生数据流,包括文本、语音和图象。他的产品现在在网上可以找到,叫春雨医生APP,我们有一个比较友好的界面,咨询的体验比较好,得到及时快速的回答。里面会有一些专业的服务,还有定制的服务。春雨包括在线问诊,这个里面覆盖妇科、儿科、内科等等,3分钟及时效应,还有空中医院,我可以得到一系列比较好的服务,怎么样得到服务呢,就是可以给你推医生,而且医生有自主的定价权。在我们这个实验室的框架下我们研究,目前我们已经完成了四个方面的研究任务。这个里面主要介绍两个,一个是智能分诊,医生推荐。我自动分诊到大科室,然后是医生推荐。另外两个问题就是一个是二级属性划分,医生质量评估。如果我积累了大量的患者的问题数据,我们在规则化的档案,我有成熟的档案,再来问一个问题了话,现在也不给你分诊和医生推进,我可以搜索,在没有进行分诊和回答之前进行类似的档案和参考。第二个问题是医生质量评估,我希望对这个医生的质量、信誉进行打分。这是我们做的两个内容。下面介绍什么叫自动分诊。
传统的分诊就是我们上医院去看病,去护士分诊台告诉你挂什么科,我们传统的分诊,这就是一个标准的数据,你好,我发多少度,我用了什么药,现在什么情况,就是这么一个短文本,我下面分成若干个科室,儿科医生收到问题就自动分诊,说白了就是如何对文本进行快速准确的分类,我们初步做了一些实验,我们不断的采集,那么这是其中的一个样例。在训练集上做测试,这个训练集就是2010到2017年期间抽调一些数据。每一条文本都有一个分类。那么我们要做的事情就是根据这个数据做模型,这个就跟刚才的数据类似的。比如说我嗓子疼,分到耳鼻咽喉科。我们首先要对数据进行基本的统计分析。用得最多的就是,儿科、皮肤科问得比较多。还有内科也有一些状态,我们可以看到一些基本的是一个分布,问诊的话描述得比较短比较合适。如果一个人问的几千人是可以分到神经科。所以大部分都是短文本。所以说我们可以看出,自动文本可以看出短文本的,一般的文本是有困难性的。短文本就是关键词出现比较少,还有口语话特别多。这个和一般的文本是有区别的,他是短文本,另外标注不准确,所以说我们按照一般的数据挖掘,无论是大数据还是小数据,找一些标准化的数据。
第三个进行模型训练,包括开放检验进行科学检测,我们可以做,做完以后发现效果并没有这么好,给出的训练是有误差的,我们就要扩充训练,最后我们达到几百万,上百万以上。他是一个短文本分类,他是一个特别稀疏的高危的向量,而且样本特别多的话,用什么模型比较好呢,就是线性模型。他应该是统计学理论基础上建立的算法。现在目前来说积极学算法在怎么设置这个套路上,2014年科学家做了这个工作,把所有的公开数据进行测试,得到的结论就是不是所有的方法在所有的数据上都是排第一的。我们用的软件也很简单,实现的就是快速处理的方法,我们在下面的网站就可以找到现成的软件。我们最上面的这个线索就表示我们特征的变化没有那么敏感,他是一个比较稳定的方法,所以我们选了这个方法进行分类。那这就是一个可视化图。可以看到三是一个大的科室,横向坐标就是真实的。如果说地表线比较亮的话就是方法比较好,在经济学方法达到79%,这经济学给你的辅助抉择,我们根据专家经验以及积累的专家规则,加上一些候选集达到90%。这个方法其实我们也可以看出,他是一个文本分类的,而且是多层次的分类,比如说我们大科室下面分了小科室,这不是一个简单的,而是多层次的文本分类。
分诊完以后,在这个科室里面,儿科里面有很多医生,我怎么给你推荐,我不能都给你推荐,我要给你推荐五个医生,我希望你在这五个医生里面选中,因为有指派的,免费的,如果什么都不选就可以得到免费的服务。当然我希望你们选到我们指派的医生。我们怎么样来分类呢,医生根据用户提出的问题,我需要付费就是提到的用户的信息,病人的信息,如何根据信息给出一个最好的推荐。这个推荐是什么呢?有一个评价标准,一方面有三个标准,我推荐100次用户购买的次数。我确实每次都购买了,我老是购买8块钱的,那对我来说流水就不高了,所以我希望流水越高。第三个目标就是,如果说我一个医生老是被你推荐,老是被大家选中的话说明这个医生的水平服务是很高的,这个医生就可以自动的提价,这个提价是有利的,就是这三个标准。下面就是一些具体的信息,用到的信息就是用户的信息,医生的信息在数据库里面,比如说有一些描述,有一些对医院的描述等等,这是一个X,数字化,用了一些方法,那么医生怎么被选择呢,就是原来历史被选中的医生,那些问题会做成正能量的,没有选种就是赴能量的,这样就把医生推荐转化成分类问题了。我们建好的数据是90多万。
下面就是如何对这些数据进行变化,比如说有一些定型的属性,比如说省份,山东、北京、上海,怎么样转化成数据,标准的数字化的方法,还有一些有序关系的,还有医院的级别,如何把这个数据变成一个数字性的东西,我们就可以进行打分的方式。刚才说的分本长度,用户的花费,我们可以给一个量化的数字。我有了数据,有了外置的标签,就可以用方法做。不难发现很多的方法,推荐方法是现在用得最多的GBDT是非常好的。现行能力优先,他需要有大量的特征组合可以做。GBDT就不一样,所以就把GBDT和LR结合在一起,发现他们有很多区分组合,通过他是一个回归的模型,比如说我们可以看到这个图,在这个决策者的基础上,一步一步递归下来的。在这个基础上效果比较好,但是有缺点。它的速度比较慢。所以说我们在上线一段时间以后找到新的方法。大家熟悉也可以熟悉这个模型,它是对GBDT的方式,这个模型比上一个模型快一点,如果速度更快那就是GBDT就是二进制的方式。那么我们速度快了还是不满意,所以我们找了一个微软开发的,现在用得最多的方法就是这个,他可以递进实现,他是分布式的,有更快的效率,所以现在更在用这个模型训练更大量数据。我们可以看到,在准确率都有提升的基础上他的速度有大幅度的提升。现在看到的医生的推荐就是按照这个方法来做的。
那我介绍第二个指纹大数据,这个项目是另外一个实验室,叫指纹大数据。这个项目在2002年开始的,我们团队做的其中一个科目,就是千万人的指纹识别,比如说上班打卡都要用这个东西,这个数据是来源于不同的指纹。比如说他有不同的特点,我们做这个课题的目标就是研究这么一个自动核心算法,有若干的不同的问题,比如说压缩复线,指纹的压缩,复员得更好,还有指纹的特征识别。仅仅的特征算法有这么多个。比如说指纹增强二质化,一直到最后给成一个真正的系列的特征。所以这个团队做的就是,建议所谓的自由化模型。我们团队主要是搞自由化。
指纹压缩我们是怎么做的。我们公安部做的指纹的数据,图像压缩的原理跟数学有关的。图象是压缩的核心技术。当然现在还有很多其他的压缩方法,指纹是有特点的,它是具有周期性,这些所有的指纹图像的特性一定要把共性用着。所以有三个步骤,在大的数据库做一个数据字典,然后做一个压缩指纹包,反过来怎么复员。上面是1234,反过来就是4321。这个文章呢,现在他们应用得很好,被认为目前是指纹压缩的最好的一个范文。
还有一个指纹的提取,我们有簸箕,有斗。这个叫三角点,这个叫核心点。如果我们快速的把核心找出来识别的话,我们指纹的识别是很关键的。我们这个模型就是叫优化模型,比现在用起来最好的方法还要好。这个是发表的一篇文章。具体过程不再讲了。
就是我们一般的优化是维护是固定的,也是说,我们中心点,我们的起点的各种变化的,如何快速的求解这个问题。所以我们主要的成果有这么多,然后它的效益怎么样,还有应有效果等等。比如说已经把这个指纹识别放到十各省市共公安进行侦破案识别。
好,谢谢大家。