英国帝国理工学院教授郭毅可：从机器学习到机器制造

责任编辑：耿鹏飞 2017.05.26 00:12 来源：通信世界网

通信世界网消息（CWW）2017年5月25日，由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。英国帝国理工学院数据科学研究所终生教授、所长郭毅可出席并发表演讲，以下为演讲实录。

老师好，我再补充一下。郑老师是我大学的班主任。今天非常有幸来报告这个研究。刚才几个院士的报告非常的精彩，我也学了很多东西。特别是徐院士讲的最后两个东西，我们方法也很多，我当时看文章的时候我没有想到是展开的方法系统的得出来。我们可能是几个学生拼命的学出来。

我讲的题目是从机器学习到机器创造，实际上是真的敢去创造，这是我们研究的方向。我们讲的时候，科学正在打架。不管怎么说，科学讲一句话很有道理，机器下围棋和个人下的是不一样的。机器和人的思维是很不一样的。我去年也做过这个报告。去年这个报告的时候，我有一个教授讨论这个问题，现在有一个假设，就是机器智能最高的极限是人的智能，我答应他今年这个报告讲这个问题，我也基本上是实现了。

首先带来两部分，先简单的解释一下，我理解的AI，再讲机器创造的部分。AI里面，很多，我在帝国理工的一个导师写的，就是所谓的第五代计算机，这个时候大量的研究问题，就是把一个AI的问题转换成算法的问题。最大的问题就是下象棋，就变成了规划问题来解决的。那个时候计算机大可以算出来。后来到了重要的10年，有一个重要的问题，神经元还不那么热闹，IA主要是实施感知和信号处理。现在真正的自动车是在2005年就有第一辆的自动车，这个是跟着系统方程进行规划。这个就是运用这种理论进行目标调整。这种研究是在这个AI的时候很热闹。后来就是说，刚才徐院士说了一个问题就是推理和分析不同，到了2010年的时候AI进入到一个推理最大的实现，举一个例子就是人和机器辩论的时候，人辩论不过机器，问一个问题考研你一个问题，机器有很大的存储和逻辑推理能力。现在AI知道，现在最厉害的一个问题，就是阿尔法狗，这个是深度学习算法，刚才徐院士讲的很多了。加上大数据，加上学习过程，我们强化学习也好，深度学习也好，这个在一起，导致了阿尔法狗很漂亮的算法，这个不是以搜索为标准，这个主要的问题是通过一个强化学习，对结构化的分析利用深度学习和强化结合做出的一个很好的算法。现在的算法越来越好。实际上阿尔法狗怎么完的呢？就是两个机器对打，人是很难战胜他。这个时候导致了这样一个结果，就是说机器现在的一个智能已经可以在很大程度上胜过我们人类。刚才陈院士讲了精准医学，精准医疗还有一个很重要的问题，就是我们的病例数据和以前医生所有诊断的历史，如果这些数据拿到的话实际上就有了一个下围棋一样治疗的基础，就可以把治病看成是下棋。正是这样的原因，就是一个博弈。所以阿尔法有一个很大的研究，现在和帝国理工研究肾病。这样我们心脏病还没有做到好结果，但是我们肾病的研究已经是超过了大夫的水平，所以这也是一个很惊人的发展。

而游戏呢越来越复杂，围棋是两个人的对博，现在打得更好的就是桥牌，不好玩儿了。是一对一对对博。机器和人可以共同打败机器和人。人和机器之间有一个交互。这些都是人工智能发展的一个。刚才徐院士讲了计算是很大的要求，这个计算对我们学习计算都是迭代，这个时候迭代算法有需要有非常好的计算机的支持，原来计算机如果还不够的话，现在Google都在做继续学习的芯片。清华大学也做过这个工作。做这样的工作使得我们的能力加强。还有一个重要的问题就是AI一个产品的构造，AI解决方案的构造已经节目化。我也跟上海一个公司一起做过事情，把所以AI的模块搭积木一样拼打成方案。刚才徐院士讲得很对就是要有领域知识的支持，这个是要分布在各个领域方面的，今天的AI怎么做就是一个很有趣的研究，就是大学研究怎么样去跟大公司竞争，他们有钱有数据。就像欧板的概念，就是说你有一个集团，那些科学家他们实际上是邀之即来，来之即战，战之不胜的。我在南京做了一个尝试，做了这么一个架构。

下面我就讲一讲创造。实际上我们已经到了新的智能文明的前沿。这还真不是一个忽悠，这真是我自己的一个看法。实际上我们今天站在一个非常有趣的时间，实际上过去把人变成机器，我们自动化，机器化，我们把机器变成人，那是一个非常有趣的科学的研究。那么如果展开一下AI的技术图，我认为今天的AI实际上的发展是大数据的一个部分，没有大数据AI跟过去就没有什么区别，而今天的AI是完全不一样的。我们知道AI有三个主要的学习任务，一个是监督学习，一个是非监督学习。现在主要讲非监督。还有一个是强化学习，那么在这个领域里面，你的数据大概有几个模态，一个是数据库的数据，就是关系的数据。一个有图，而非文字。那么我把整个的信号归在里面，那个里面有很多很多的应用了。刚才都说过了，就是徐院士举的最后一个例子，低精度到高精度的。我们图象的分割就是MI的例子，在图块上进行分析，这些技术都AI技术。所以一个AI做得好不好跟你的数据源好不好有很大的关系，现在我的学生最大的问题不是算法不会，而是没有好数据，没有好数据就很困难，比如说我像生产一个机器人，跟我吵架，这个很有意思吧，我没有办法找。所以这个搞不清楚，所以这个里面不好弄，所以有大数据学习，是非常非常重要的。我们研究所是这样的，我们大概有五个研究室，这是我们学校的研究所。我们现在有五个研究所，第一个研究所叫文化和社会分析。今天主要讲这个，专门研究讲积极创造。这个模型和你的数据本合，很重要的一点就是说实际上就是一个展开复杂的方程。这是我们工程院很大的工作。还有一个研究就是做大数据的积极学习的后面的模型管理，模型多了以后还是麻烦。怎么样把这个模型管理起来，使以后的模型变模型。最后一个就是跟精准有关的。今天讲的主要的工作就是一个文化。

我们为什么要做这个研究，想的问题就是机器和人的本质。机器是不是在想问题。判断学习，你取最好的理解，这个数据给我了，我看看他有什么样的性质。有什么样的隐藏量或者有内在关系，这是最好的理解，最后强化学习是找到一个最后的策略，寻来寻去无非是到处找方向，那个节就是你要用的机器学习。我们要两个模型，一个是生成模型，一个是判别模型。这是统计上的一个说法。实际上要做的就是变量，就是怎么样表达这个数据，怎么样理解他，只有理解他的变量深层次的分布，有了分布才有数据。这个一一来讲就是非监督学习。你的深层数据很重要，如果给我一个数据，最后生产出来，这里就有了一个基本的创造功能。第二个是判别模型，你给一个数据给一个目标，我有了这个观察以后，我们判断这个类别的，所以它是一个条件数据的。深层模型，我们来对整个的数据进行建模，举一个例子吧，这个是李院士的一个报告，这个是李白写的一些五言绝句。我把这个隐变量写出来就有一个很好的模型。怎么样生成模型呢？给一个随机变量。举一个例子，我有刚才的数据，我知道了这个隐变量。比如说我举一个例子，拿一个数字做索引，然后就可以作寺。我们讲一个概念就是机器创造，如果把生存模型学出来是可以创造的，大概的意思。实际上现在计算机写诗差不多就是这样的。

所以生成模型是具有创造性的。第一个特性化的数据，这个要发现韵律，计算机发现韵律是不容易的。这个时候就是要构成一个结构的空间，有了空间以后抽象，由简单的结构抽象。最后你就可以拿来总结，就会得到一个新的积极产生的一个项目。

这是一个积极创造的一个基本的，是现在，不说以后怎么办。这是第一步的工作，专注于生成模型，生成意味着理解，是创造的第一步。比如说有核磁共振的图，可以生成大脑的网区。你把一堆核磁共振的图拿过来，就可以做不同的模型，会生成不一样的脑区图。

现在在深度学习里面，最开始的算法其实就是生成模型。今天我稍微的讲一下，不简单的讲数学，而是讲实用基本思想。

那么编码，你要求出它的编码，求出他的数据，统计上来讲是有隐变量，最简单的方法，用学习的方法是说给你一个数据，后面的隐变量你要做什么呢，做两件事情，我用隐变量编码你，我最后可以恢复你，要求你什么东西呢，要恢复正确，原来的数据和恢复的数据之间的差要变小。虽然是没有标志的，把两个数据一给，我只要把中间两个生成一样就可以了。这是自编码的基本思想。当然也不能完全相等了，要相等的有一个线。这里面呢，刚才院士也说了，我要求他有一些规矩，这就是给他一个信念。然后要求我能恢复原来的数据，我也不是恢复数据本身，而是分布。这个里面我涉及两个非常好的，就是保证这两个分布有一致性，这就是后面的一套数据。那么这些有一个问题，这个问题计算机的人很懒的，跟数学家不一样，我们找懒的办法，叫对抗生成网。所以要怎么办呢？就有最简单的办法，我是来做一个生成器，做一个自动生成器是否可以。我给一个隐变量生成一个数据，这边给一个判断模式，要求什么东西呢？要求对这个判断模型来讲，我是无法区分这个，所以我要拼命区分真假，如果我们判断说明觉得不好，你就去改，当然我改到什么程度呢？改到判断不了，这两个在打架，一个是拼命的想骗你，一个不想被骗，最后就刻划了元素的分布。这个是对抗模型，给一个隐变量，进行判断，判断是真的还是假的，判断出来就可以学。那么这个对抗网络就很有意义，你突然可以非常有效的做很多生成模型，就可以做很多有意思的计算机的生成。这个里面有非常有趣的叫条件生成对抗网，如果我要条件怎么说？

比如说我要生成一个情诗，我要生成一个描述图怎么办。这个图就是说在生成的范围里面能不能做到这一点就很有趣。能做到就有很多很多事情可以发生。比如说我现在是这样，我年轻，还有一堆老年人，一堆年轻人，最后给我说我年轻时候是怎么样的，你没有见过，我收集一下年老的照片你我给一张年老的照片。比较有意思的话，比如说你年轻什么模样。这个做法是怎么做的呢？比如说我以前没有见过你，我是通过很多很多人年轻到年老的变化知道有皱纹，头发白了。我的学生还做了很有趣的问题，不光是可以对一个图片性的，还可以对分离化的进行标注，比如说这个鸟有颜色，羽毛的颜色，胸的颜色等等，我作为特征拿出来以后，就是我可以做改变，给我一个红鸟就生成一个红鸟，给我一个白鸟就可以做生白鸟，是很有趣的。你只要把字体拿出来也可以生成各种各样的字体。

还有就是说可以在学习的时候把艺术家的风格学出来，梵高的话，齐白石的话，现在都是做得很好。补图的概念，这个模型就是拿来做我们MI的发射等等，同时我们也有同样的算法做图象的存够。把这些拼起来，刚才说了钱是王道，广告的自动生成。广告的自动生成就是这样子，里面有很多很多的例子，我们知道怎么样生成一个图，怎么样生成一个意境，我只要是做什么路线，我把这个生成模型知道以后，像我这样不会画画的人大概可以生成一个草图，不断的进行交互以后可以生成一个有意思的广告，这是我们的一个工艺项目，里面分割开来就是很多的创造的模型。还有一个非常有趣的概念就是机器的生成生物信号。为什么有这个工作呢？很有趣的，我们现在有很多传感器，有心脏啊。比如说有心电图，脑电图，眼睛的。有趣的是什么呢，不是每一个信号能决定你的状态，而是不同的信号程度，特别的难测，因为没有完全不一样的信号。你唯一可以做的办法是说，你把生成的模型相关性找出来，可以生成相对应的模态。比如说脑电图、心电图，这个点图就把同步的问题转化为相似的问题就非常的有趣了。这又是一个机器的问题。

刚才徐院士讲的最后一个，机器的算法足来学习，实际上有一个物理模型，方程一大堆，然后你要观察，你要做的事情就是把隐藏不知道的部分生成，我们就可以生成动态系统。这是积极创造的一个部分。

我觉得机器正在创造，这本书不知道大家看过没有，这个书是小冰写的，这是小冰的训练。你给他一张图，他在手机上，你想想一下，小冰会写一首诗，你再给它一张图又会写一首诗，这个工作是机器做的。跟刚才说的例子是一样的。

机器不仅仅是可以创造现有的，还可以创造未知的。最近这个电影里面外星人的语言，这个是外星人的文字，这个做出来，这个就是机器可以创造出来的，这个是很好玩儿的事情。所以最后我总结了，实际上我讲这么多，三年前我就在英国讲，这种哲学文章，我英文还没有到这个本事，很难写。实际上问题是什么呢，图灵测出来是一个误区。100年英国有一个纪念大会，我这个图片假设可能有一点过时，什么叫图灵假设。但是有一个问题，这个假定是在于人的智能是机器智能的极限。但是从现在机器智能很可能跟人的智能是不一样的，它是另外一种智能，所以这个比是没有意义。所以我认为人类不要太傲慢，我们赋予机器不一样的智能，机器下棋跟我们人下棋不一样，过去的AI是以人为中心，它是基于人类的角度，是不是说我们一定是对的呢？为什么机器有不一样的呢？如果这样想问题的话，很多的事情就会完全的不同，所以我们不要太傲慢了。

谢谢。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动

...

通信世界电子刊