通信世界网消息(CWW)2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。北京大学教授,大数据分析与应用技术国家工程实验室副主任袁晓如发表题为《可视化-让大数据触手可及》的演讲,以下为演讲实录。
可视化与数据是密切相关的,数据诞生的时候人类希望用各式各样的方法理解可视化,可视化是与人类之间架起一个桥梁,每个会场我们都在说各式各样的数据。今天前面几位老师讲了从科学的数据的角度来看各式各样的内容,可视化更好的接触这个数据,从科学的角度来讲,整个数据处理的流程有几个部分。实际上人在那里,人才参与和数据分析和管理里面,人是通过交互、通过我们的认知去理解数据,然后回头反馈数据决策之中,在这个里面可视化实际是我们对事物建立心理模型的过程,就象在贵阳我们还没有办大数据的活动的时候大家对贵阳的心理模型是很远的一个地方,但是今天我们大脑里面印象我们对贵阳的心理模型我们加上了大数据和每年的会议,其实我们对外界事物的认知。
所以今天我们从用户的角度我们来去可视化帮助我们更好的接触,今天的主题是将科学数据,我们首先讲讲科学家,我们对于可视化的需求是不一样的。可视化产生大量的数据,我们可以计算,可以观测,我们无论是小微生物,到天文的数据,我们需要来去提供对于基本数据的展示和基本的操作,我们去发觉隐藏在空间的关系,我们有很多的事情做。
科学家希望可视化帮助我们更好的看到我们面临的数据,我们举一个例子,比如说对于全球我们可以模拟风场,在这个里面是从模拟数据通过中国的数据。从中国出发会到哪里,会往日本、美国跑,所以日本经常埋怨我们的雾霾,那我们看看从美国出发会发生什么情况。这个里面都是同样的数据,但是对于这些数据我们需要给用户选择,只有选择之后才可以发现数据之间的联系,如果把所有的数据交给你不能看到从中国出发的例子是怎么样,从美国出发的例子是怎么样?我再举一个例子,贵阳有很多的工厂,中国的大飞机已经正式试飞,我们选取了一个小块的空气动力的计算结果,我们不能直接看一个照片来看,我们需要一个手段提供一些交互,让我们看到这些数据的内涵。当然这些说起来我们根本谈不上大数据,这个里面只是单一的数据,但是再往后我们会关心对于复杂的数据我们如何增强,在模拟中我们要了解一个聚分,我们要观察温度、湿度,压强,合起来才可以描述一个聚分的现象。
上面的例子是针对很多的维度在空间中的数据,我们可以设计相应的交互界面,最后我们可以比较快的定位出来,比如风眼是什么,这些可以帮助科学家更好的理解,我们还可以比较模型,比如上面的是一个全球风厂的模型。我们讨论全球气候变暖世界各国都在计算模型,但是中国计算的模型于美国算的模型不一样,我们需要什么工具来比较这些模型,比如这个里面实际上每条线代表了风往那边吹,这个是八个模型算出来的结果,这个是中间找到的点。我们看到这8个模型不一样,有几个模型很想有几个模型不一样,我们通过可视化的方式告诉科学家他们哪里想象,哪里相近,我们还可以得出他们也许在太平洋中部差不多,而不是给出的一个数据你没有办法判断,我们需要有更好的手段去接触了解这些数据。
还有一个我们来讲跟我们生活相关的,比如城市和交通,贵阳的交通人多了就拥挤,所以我们需要来获得各式各样的数据,对于这些交通更好的理解,但是我直接把数据给你你能不能得到一个更好的交通图象。其实也不是,这个是我们把北京的出租车时时的轨迹拿过来,我们可以看到每辆车是怎么走的,但是在这个里面数据其实太杂乱,很难得出清晰简单的结论,我们可以从另外的角度来看。我们简约一点,我看某一天,我把所有的压缩成几个不同的色街,我们看到整个的态势北京哪一块比较拥堵,比如早上黄色的地方拥堵,再看右上角可以知道有车在等待,这个里面看不到单个的个体,但是可以把握整个的态势。我们可以看到北京的右半部分朝阳有很多的酒吧和娱乐区,这些数据也需要提供一个更好的交互。比如在这个里面我们可以拿一些非常特殊的过滤的手段,比如从这个地方出发的轨迹有哪些,从A到B有哪些,但是对于广大的用户来说,用这个很快可以学会,可以很快找到,但是如果教他一个数据库他会拒绝,在这些方面任何人都可以很方便的接触数据。当然还可以通过这样的方法每一行是一天,一格是十分钟,我们看整个交通的拥堵情况。
大家如果做过数据分析,数据的清洗是头大的事情,这个里面可以引出交互的工作,比如举一个例子,在这个里面左边是很多的这种拿到的数据。原始数据其实不是这样,是一团乱麻上线的很多数据是很奇怪的,有一个点到北京,后来到天津,下一秒回来了。显然我们知道我们不可能有这么快的汽车,很多的时候是因为各式各样的数据有问题,有可能是人为的,有可能是机械的,我们通过交互的手段塞筛选出一部分让背后的系统学习,然后他可以帮你找出其他的,这个叫做交互式可视化的数据清洗工作。
我们再看下一个,社会媒体,很多人用微博,用微信,我们在这个方面微博微信对于社会媒体我们往往在上面发布很多的消息,比如今天你到了我们的博览会参加我们的论坛你会发一个消息,后面有一堆人给你专发,有的时候有一些讨论,荡产我们萦肠看到一些社会媒体,一些社会的突发事件,这些突发事件爆料出来,然后下面可以非常快涌现,对于这样的信息我们需要有一个方式来了解,如果我们仅仅是通过微博来看回复这个里面很难对所有的信息都能够更好的进行了解,我们同样可以通过可视化帮助我们理解一些复杂的信息,我们举及九例子。比如我们单个用户的影响力和信息的传播,单个用户的影响力是什么?这个是我自己的数据,我选择了一段时间我发的500条微博,这些微博发出来之后有上千人与我互动,我发了不同的内容,回复的人是不一样的。有的时候我讲北大的事情,回复的是可能是校友和老师,我写大数据,可能回复是大数据业内人士。这些人在我们的虚拟空间看得如此不一致,但是我们怎么让更好理解,我们可以转化为地图,转化为地图之后。
我们中国四川吃辣,新疆马上联想到天山,其实每一个省份和城市地域人有不同的特点,都是不同的用户,这个可以跟我在微博上互动和社交媒体上动的人划分为不同的省份,每个省是一个互动的好友,这个里面周围有的关心教育,有的关心大数据,如果我发一条微博,我可以把这样很多的微博浓缩到一个图上,这个图可以交互,我们可以考虑很多的特性,必须考虑参与者的影响力,谁是主要的参与者,信息是怎么发散和分布的,我们根据这些特点把这些,聚集起来,这个里面每一个蜂窝代表一群人,周围的不同的颜色代表相同兴趣的人,我们里面比较一些块比较神色不仅代表一个人,还代表一群人,我发布了这些信息首先是人口比较多的块转发我的信息,进行传播,我可以进行筛选,我可以看有哪些人专发知道了我的微博,同时我可以知道转发我微博的人是哪些地方。
一个事件,首先从我自己CD传播到C2,然后传播到C3,这个是在几个不同的类别之间相互的传播。我在这个里面还可以做一个事件是怎么传播的,我可以把这个事件看作我是在一片土地上,人是怎么扩散和传播的。比如说这个是我们把金正男有关的微博取下来,下面组成了中间是一个地图,里面不同的颜色对应不同的时间,主题是不一样的。第一步是最中间大家只是讲金正男被杀了,然后进行扩散,扩散之后是讲毒气被发现了。第三是讨论中韩之间的关系,后面是讨论其他的事情,比如半岛的局势等等。由这样的出发我们看到可视化可以做很多的事情,包括反恐和安全的领域。
我们可以举一个公开的例子,这个是国际竞赛的题目,是一个跨国公司的人被绑架了,我们要进行破案,我们不是出去一堆人抓起来问口供,我们需要用数据,用人力来做是可以做到,但是非常慢,不可能在很短的时间做完。这个里面我们要分析几千条的文本要进行交互式可视化进行分析,比如相同的颜色代表同一个单位,这个里面我们可以看到有一部分人最后加入了这个单位,但是最后的颜色是一样的,表示他们进入公司之前经历吻合,还有人的行为,我们可把轨迹转化为现象图, 更多的例子大家可以在网上看。无论是科学家还是部门遇到数据我们发现去少工具,我们不可能说今天发生了案子用一个月的时间实现工具再抓人,或者是科学家有数据了,再等工具做好。工具要怎么做?我们现在除了一些非常大数据的科学数据之外,我们还是在传统的平台做,很多的可视化应用我们会放在网络端,像JAEASCRIPT库来做,但是这个有一个问题,这个需要编程,即使编程难度降低了很多,我讲一下怎么快速构建可视化。
第一,我能不能像PS一样直接通过画图来做,这个是我们早期做的事情,我们进行了一个高维的数据,这些平行的鼠标和图我可以进行拉点连起来进行可视化。你可以画出来可视化,你可存储可视化,普通的用户不需要编可以直接做的结果,而且可以做别人做的结构上进行加工。但是你只做高维的数据不行,第二步的工作是INISDESIDNER,这是一个北京污染的站点。这个位置是我们采集污染的采样站的坐标,我们把每天的污染叠加起来进行比较,这些合起来既有时间空间的问题,还有时间序列的问题,但是这些不需要编程作一些搭配构建这样的形式,这样可以支持很多的散点图。这个是我们2013年本科生的毕业设计,我们花了一年多的时间做这个事情,可以一步一步进行搭建,而且也是开元的,这些都是构建出来的。
第三步我们针对更加进一步的数据我们怎么构建?这个是我们也一个DATA DRILLER,我们可以把数据拿进来进行调配产生数据可视化的结果,我们再进行一些分析,当然这个里面可以支持的分析还比较初步,但是可以解决很多的问题,你可以直接与后面的数据库连接起来。
最后我们还会碰到一个情况,你看到了别人的可视化,不是别人的可视化都好,不是说别人的孩子是最好的。反而我们往往发现别人的可视化做得不好,我看到这个数据非常有意思,但是我操作的时候发现原来的作者没有实现交互的功能,但是数据已经里面了,这个是非常普遍的。我们可以做一个插件,可视化框起来,然后产生交互过滤条,然后根据选择某一个范围,这样可以变成互动了,原来不互动可以互动,原来交互少的可以合起来他的核心思想就是把内部的元素提取出来进行分析,或者有时候我自己做一个可视化,我比较偷懒,我还是可以通这个来进行交互,我们可以提供不同的交互手段来结果解析和聚类,比如《纽约时报》我们可以分离出哪些是我们感兴趣的,原始可视化里面没有这些的形式,当然我们也希望比如屏幕我们自己也可以进行交互,不用等工作人员来调,我们可以自己拉升起来。
所以最终来说,可视化其实在不断的去发展之中,然后我们总结一下,可视化与可视分析是连接手中和我们的数据,使得我们的专业用户还是我们的普通大众可以与可视化进行交流,我想一开始数据是科学家的专利和贵族的专利,但是现在越来越多无论是个体还是企业都会面临重大的数据将来人从一出生就会建立自己的数据的稳当,我们也要对自己的数据进行分析。今年在青岛17号和17号有中国可视化大会,我要分享的到这里,谢谢大家。