英国帝国理工学院教授郭毅可:从机器学习到机器制造

责任编辑:耿鹏飞 2017.05.26 00:12 来源:通信世界网

通信世界网消息(CWW)2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。英国帝国理工学院数据科学研究所终生教授、所长郭毅可出席并发表演讲,以下为演讲实录。

老师好,我再补充一下。郑老师是我大学的班主任。今天非常有幸来报告这个研究。刚才几个院士的报告非常的精彩,我也学了很多东西。特别是徐院士讲的最后两个东西,我们方法也很多,我当时看文章的时候我没有想到是展开的方法系统的得出来。我们可能是几个学生拼命的学出来。

我讲的题目是从机器学习到机器创造,实际上是真的敢去创造,这是我们研究的方向。我们讲的时候,科学正在打架。不管怎么说,科学讲一句话很有道理,机器下围棋和个人下的是不一样的。机器和人的思维是很不一样的。我去年也做过这个报告。去年这个报告的时候,我有一个教授讨论这个问题,现在有一个假设,就是机器智能最高的极限是人的智能,我答应他今年这个报告讲这个问题,我也基本上是实现了。

首先带来两部分,先简单的解释一下,我理解的AI,再讲机器创造的部分。AI里面,很多,我在帝国理工的一个导师写的,就是所谓的第五代计算机,这个时候大量的研究问题,就是把一个AI的问题转换成算法的问题。最大的问题就是下象棋,就变成了规划问题来解决的。那个时候计算机大可以算出来。后来到了重要的10年,有一个重要的问题,神经元还不那么热闹,IA主要是实施感知和信号处理。现在真正的自动车是在2005年就有第一辆的自动车,这个是跟着系统方程进行规划。这个就是运用这种理论进行目标调整。这种研究是在这个AI的时候很热闹。后来就是说,刚才徐院士说了一个问题就是推理和分析不同,到了2010年的时候AI进入到一个推理最大的实现,举一个例子就是人和机器辩论的时候,人辩论不过机器,问一个问题考研你一个问题,机器有很大的存储和逻辑推理能力。现在AI知道,现在最厉害的一个问题,就是阿尔法狗,这个是深度学习算法,刚才徐院士讲的很多了。加上大数据,加上学习过程,我们强化学习也好,深度学习也好,这个在一起,导致了阿尔法狗很漂亮的算法,这个不是以搜索为标准,这个主要的问题是通过一个强化学习,对结构化的分析利用深度学习和强化结合做出的一个很好的算法。现在的算法越来越好。实际上阿尔法狗怎么完的呢?就是两个机器对打,人是很难战胜他。这个时候导致了这样一个结果,就是说机器现在的一个智能已经可以在很大程度上胜过我们人类。刚才陈院士讲了精准医学,精准医疗还有一个很重要的问题,就是我们的病例数据和以前医生所有诊断的历史,如果这些数据拿到的话实际上就有了一个下围棋一样治疗的基础,就可以把治病看成是下棋。正是这样的原因,就是一个博弈。所以阿尔法有一个很大的研究,现在和帝国理工研究肾病。这样我们心脏病还没有做到好结果,但是我们肾病的研究已经是超过了大夫的水平,所以这也是一个很惊人的发展。

而游戏呢越来越复杂,围棋是两个人的对博,现在打得更好的就是桥牌,不好玩儿了。是一对一对对博。机器和人可以共同打败机器和人。人和机器之间有一个交互。这些都是人工智能发展的一个。刚才徐院士讲了计算是很大的要求,这个计算对我们学习计算都是迭代,这个时候迭代算法有需要有非常好的计算机的支持,原来计算机如果还不够的话,现在Google都在做继续学习的芯片。清华大学也做过这个工作。做这样的工作使得我们的能力加强。还有一个重要的问题就是AI一个产品的构造,AI解决方案的构造已经节目化。我也跟上海一个公司一起做过事情,把所以AI的模块搭积木一样拼打成方案。刚才徐院士讲得很对就是要有领域知识的支持,这个是要分布在各个领域方面的,今天的AI怎么做就是一个很有趣的研究,就是大学研究怎么样去跟大公司竞争,他们有钱有数据。就像欧板的概念,就是说你有一个集团,那些科学家他们实际上是邀之即来,来之即战,战之不胜的。我在南京做了一个尝试,做了这么一个架构。

下面我就讲一讲创造。实际上我们已经到了新的智能文明的前沿。这还真不是一个忽悠,这真是我自己的一个看法。实际上我们今天站在一个非常有趣的时间,实际上过去把人变成机器,我们自动化,机器化,我们把机器变成人,那是一个非常有趣的科学的研究。那么如果展开一下AI的技术图,我认为今天的AI实际上的发展是大数据的一个部分,没有大数据AI跟过去就没有什么区别,而今天的AI是完全不一样的。我们知道AI有三个主要的学习任务,一个是监督学习,一个是非监督学习。现在主要讲非监督。还有一个是强化学习,那么在这个领域里面,你的数据大概有几个模态,一个是数据库的数据,就是关系的数据。一个有图,而非文字。那么我把整个的信号归在里面,那个里面有很多很多的应用了。刚才都说过了,就是徐院士举的最后一个例子,低精度到高精度的。我们图象的分割就是MI的例子,在图块上进行分析,这些技术都AI技术。所以一个AI做得好不好跟你的数据源好不好有很大的关系,现在我的学生最大的问题不是算法不会,而是没有好数据,没有好数据就很困难,比如说我像生产一个机器人,跟我吵架,这个很有意思吧,我没有办法找。所以这个搞不清楚,所以这个里面不好弄,所以有大数据学习,是非常非常重要的。我们研究所是这样的,我们大概有五个研究室,这是我们学校的研究所。我们现在有五个研究所,第一个研究所叫文化和社会分析。今天主要讲这个,专门研究讲积极创造。这个模型和你的数据本合,很重要的一点就是说实际上就是一个展开复杂的方程。这是我们工程院很大的工作。还有一个研究就是做大数据的积极学习的后面的模型管理,模型多了以后还是麻烦。怎么样把这个模型管理起来,使以后的模型变模型。最后一个就是跟精准有关的。今天讲的主要的工作就是一个文化。

我们为什么要做这个研究,想的问题就是机器和人的本质。机器是不是在想问题。判断学习,你取最好的理解,这个数据给我了,我看看他有什么样的性质。有什么样的隐藏量或者有内在关系,这是最好的理解,最后强化学习是找到一个最后的策略,寻来寻去无非是到处找方向,那个节就是你要用的机器学习。我们要两个模型,一个是生成模型,一个是判别模型。这是统计上的一个说法。实际上要做的就是变量,就是怎么样表达这个数据,怎么样理解他,只有理解他的变量深层次的分布,有了分布才有数据。这个一一来讲就是非监督学习。你的深层数据很重要,如果给我一个数据,最后生产出来,这里就有了一个基本的创造功能。第二个是判别模型,你给一个数据给一个目标,我有了这个观察以后,我们判断这个类别的,所以它是一个条件数据的。深层模型,我们来对整个的数据进行建模,举一个例子吧,这个是李院士的一个报告,这个是李白写的一些五言绝句。我把这个隐变量写出来就有一个很好的模型。怎么样生成模型呢?给一个随机变量。举一个例子,我有刚才的数据,我知道了这个隐变量。比如说我举一个例子,拿一个数字做索引,然后就可以作寺。我们讲一个概念就是机器创造,如果把生存模型学出来是可以创造的,大概的意思。实际上现在计算机写诗差不多就是这样的。

所以生成模型是具有创造性的。第一个特性化的数据,这个要发现韵律,计算机发现韵律是不容易的。这个时候就是要构成一个结构的空间,有了空间以后抽象,由简单的结构抽象。最后你就可以拿来总结,就会得到一个新的积极产生的一个项目。

这是一个积极创造的一个基本的,是现在,不说以后怎么办。这是第一步的工作,专注于生成模型,生成意味着理解,是创造的第一步。比如说有核磁共振的图,可以生成大脑的网区。你把一堆核磁共振的图拿过来,就可以做不同的模型,会生成不一样的脑区图。

现在在深度学习里面,最开始的算法其实就是生成模型。今天我稍微的讲一下,不简单的讲数学,而是讲实用基本思想。

那么编码,你要求出它的编码,求出他的数据,统计上来讲是有隐变量,最简单的方法,用学习的方法是说给你一个数据,后面的隐变量你要做什么呢,做两件事情,我用隐变量编码你,我最后可以恢复你,要求你什么东西呢,要恢复正确,原来的数据和恢复的数据之间的差要变小。虽然是没有标志的,把两个数据一给,我只要把中间两个生成一样就可以了。这是自编码的基本思想。当然也不能完全相等了,要相等的有一个线。这里面呢,刚才院士也说了,我要求他有一些规矩,这就是给他一个信念。然后要求我能恢复原来的数据,我也不是恢复数据本身,而是分布。这个里面我涉及两个非常好的,就是保证这两个分布有一致性,这就是后面的一套数据。那么这些有一个问题,这个问题计算机的人很懒的,跟数学家不一样,我们找懒的办法,叫对抗生成网。所以要怎么办呢?就有最简单的办法,我是来做一个生成器,做一个自动生成器是否可以。我给一个隐变量生成一个数据,这边给一个判断模式,要求什么东西呢?要求对这个判断模型来讲,我是无法区分这个,所以我要拼命区分真假,如果我们判断说明觉得不好,你就去改,当然我改到什么程度呢?改到判断不了,这两个在打架,一个是拼命的想骗你,一个不想被骗,最后就刻划了元素的分布。这个是对抗模型,给一个隐变量,进行判断,判断是真的还是假的,判断出来就可以学。那么这个对抗网络就很有意义,你突然可以非常有效的做很多生成模型,就可以做很多有意思的计算机的生成。这个里面有非常有趣的叫条件生成对抗网,如果我要条件怎么说?

比如说我要生成一个情诗,我要生成一个描述图怎么办。这个图就是说在生成的范围里面能不能做到这一点就很有趣。能做到就有很多很多事情可以发生。比如说我现在是这样,我年轻,还有一堆老年人,一堆年轻人,最后给我说我年轻时候是怎么样的,你没有见过,我收集一下年老的照片你我给一张年老的照片。比较有意思的话,比如说你年轻什么模样。这个做法是怎么做的呢?比如说我以前没有见过你,我是通过很多很多人年轻到年老的变化知道有皱纹,头发白了。我的学生还做了很有趣的问题,不光是可以对一个图片性的,还可以对分离化的进行标注,比如说这个鸟有颜色,羽毛的颜色,胸的颜色等等,我作为特征拿出来以后,就是我可以做改变,给我一个红鸟就生成一个红鸟,给我一个白鸟就可以做生白鸟,是很有趣的。你只要把字体拿出来也可以生成各种各样的字体。

还有就是说可以在学习的时候把艺术家的风格学出来,梵高的话,齐白石的话,现在都是做得很好。补图的概念,这个模型就是拿来做我们MI的发射等等,同时我们也有同样的算法做图象的存够。把这些拼起来,刚才说了钱是王道,广告的自动生成。广告的自动生成就是这样子,里面有很多很多的例子,我们知道怎么样生成一个图,怎么样生成一个意境,我只要是做什么路线,我把这个生成模型知道以后,像我这样不会画画的人大概可以生成一个草图,不断的进行交互以后可以生成一个有意思的广告,这是我们的一个工艺项目,里面分割开来就是很多的创造的模型。还有一个非常有趣的概念就是机器的生成生物信号。为什么有这个工作呢?很有趣的,我们现在有很多传感器,有心脏啊。比如说有心电图,脑电图,眼睛的。有趣的是什么呢,不是每一个信号能决定你的状态,而是不同的信号程度,特别的难测,因为没有完全不一样的信号。你唯一可以做的办法是说,你把生成的模型相关性找出来,可以生成相对应的模态。比如说脑电图、心电图,这个点图就把同步的问题转化为相似的问题就非常的有趣了。这又是一个机器的问题。

刚才徐院士讲的最后一个,机器的算法足来学习,实际上有一个物理模型,方程一大堆,然后你要观察,你要做的事情就是把隐藏不知道的部分生成,我们就可以生成动态系统。这是积极创造的一个部分。

我觉得机器正在创造,这本书不知道大家看过没有,这个书是小冰写的,这是小冰的训练。你给他一张图,他在手机上,你想想一下,小冰会写一首诗,你再给它一张图又会写一首诗,这个工作是机器做的。跟刚才说的例子是一样的。

机器不仅仅是可以创造现有的,还可以创造未知的。最近这个电影里面外星人的语言,这个是外星人的文字,这个做出来,这个就是机器可以创造出来的,这个是很好玩儿的事情。所以最后我总结了,实际上我讲这么多,三年前我就在英国讲,这种哲学文章,我英文还没有到这个本事,很难写。实际上问题是什么呢,图灵测出来是一个误区。100年英国有一个纪念大会,我这个图片假设可能有一点过时,什么叫图灵假设。但是有一个问题,这个假定是在于人的智能是机器智能的极限。但是从现在机器智能很可能跟人的智能是不一样的,它是另外一种智能,所以这个比是没有意义。所以我认为人类不要太傲慢,我们赋予机器不一样的智能,机器下棋跟我们人下棋不一样,过去的AI是以人为中心,它是基于人类的角度,是不是说我们一定是对的呢?为什么机器有不一样的呢?如果这样想问题的话,很多的事情就会完全的不同,所以我们不要太傲慢了。

谢谢。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容