中国科学院院士张钹对国内外人工智能产业发展现状,提出我国仅靠跟随性的应用深度学习发展人工智能,是无法引领这项技术实现革命性突破的。语音也在里面学,文字也在里面学,图像也在里面学,会不会互相干扰呢?其实不仅不会互相干扰,在一定程度上还略微有帮助。北美已在引领这些发展,如果中国只低头用深度学习去解决应用问题,不去研究一个目的背后需要解决的问题,要做到“引领”则是不可能的。

 

为什么机器下围棋能超过人类;为什么在图像识别的某些方面会超过人类,成功的因素是什么?我认为有三大法宝:数据、计算资源和算法。这就是深度学习成功的三大法宝。大家对于前两个方面比较注意、有体会,很多人还没有体会到算法的重要性。

 

在这里主要是谈人工智能和大数据的关系,以及中国在人工智能领域如何赶上和超过世界的先进水平。

 

深度学习有三大法宝

 

首先认识一下基于大数据的深度学习。深度学习的提出,在人工智能领域中是一个重大突破。以往,人工智能只能用来解决人们对它非常了解,而且能够清楚地将它表达出来的问题。但深度学习拓展了人工智能所能解决问题的边界。

其次,深度学习具有一定的通用性。比如,人们用深度学习做图像识别,不一定要具备非常丰富、专业的图像知识。即使你不是这个领域的专家,也能把深度学习应用到这个领域。所以,深度学习是一种大众化的工具,它把解决问题的领域大大延展了。对大众而言,这些奇迹引发人们认识到了深度学习的威力。就是在图像识别领域,在某一个图像库里,机器识别准确度略微超过人类,或者机器的误识率低于人类,微软做的工作、百度在语音识别上的工作,识别错误率略低于人类,在两个领域的识别上机器都超过了人类。

 

现在要分析两个问题:

 

第一,大家都希望把深度学习的方法用到其他领域可能会产生新的奇迹,这些奇迹会不会发生,在什么样的情况下会发生;

第二,如何推动深度学习继续向前发展。

这些奇迹来自何处?为什么机器下围棋能超过人类,为什么在图像识别的某些方面会超过人类,成功的因素是什么?我认为有三大法宝:数据、计算资源和算法。这就是深度学习成功的三大法宝。大家对于前两个方面比较注意、有体会,很多人还没有体会到算法的重要性。我用阿尔法棋作为例子,具体谈谈它怎么来使用这三个法宝。

阿尔法棋用了两个多星期的时间,学了七千万局棋局。机器还自己跟自己下,跟李世石下之前也下了千万局的棋局。也就是说比所有的棋手多下了几千万局的棋,最后的结果是4比1战胜李世石。最好的棋手一生中所下的棋局是百万级,而阿尔法棋下过的棋局是几十亿级的,这两项数据非常不对称,人类绝对会输。这里可以看到数据的力量和计算资源的力量,大家没有看到背后算法的力量。但阿尔法棋能够在两三周里学到几千万个棋局,靠的是什么,其实是靠学习算法,它自己跟自己下棋,靠的是什么,靠的是强化学习算法,没有这些,它是做不到的。

 

人工智能目前做不到举一反三

 

是不是所有问题,只要有数据,就能够做到这么好呢?不是!这要受四个条件限制:

首先是需要有大量的数据,第二是完全信息,第三是确定性,第四是单领域和单任务。只有这四个限定条件达成后才有可能做到刚才说的,达到或者超过人类的水平。有很多问题(同时)符合这些条件,比如说医疗数据,可以做大数据处理,像某些疾病的医疗诊断、医疗图像的识别、医学图像识别等等,只要(问题领域)符合这四个条件,都可以做,而且经过努力,依靠那三大法宝是可以达到或者超过人类的水平。但是,大量的工作并不符合以上四个条件,不符合中间一条两条或者四条都不符合,如果一旦不符合这四个条件中的任何一个,现在的人工智能技术就有困难。

对此,大家以往一直感到困惑,语音也在里面学,文字也在里面学,图像也在里面学,会不会互相干扰呢,过去我们怕装不同东西的时候它会乱了,会互相干扰,其实不仅不会互相干扰,在一定程度上还略微有帮助。北美已在引领这些发展,如果中国只低头用深度学习去解决应用问题,不去研究一个目的背后需要解决的问题,要达到引领是不可能的。

深度学习也不是完美的。很多人以为用深度学习去做产业或者应用不会有问题,但是这里要强调,深度学习有大量的隐患,这些隐患在很多应用场合下是绝对不允许的。首先,它需要大量的样本,有些问题很难获取很多样本,比如特殊疾病,罕见疾病,根本没有那么多样本。最重要的是,不可理解性,现在看到深度学习建立的系统,实际上跟人的思路很不一样。因此,说机器识别能力超过了人,这只是在非常特定的环境下说,其实很多方面它不如人。比如它识别率比人高,只是说它区别马和牛的能力比人高,就是在一定的数据库下它识别能力比人高,但是它根本上不认识马和牛。将来如果做一个人机决策系统,机器做出来的决策,人都不知道它怎么做出来的,那怎么用呢,谁敢用呢?

机器和人如何相互理解

 

现在实际要解决的问题就是人和机器能够合作的问题。大家都在强调,今后的方向肯定是人和机器合作,要各展所长,这里面有一个问题就是机器如何理解人,人如何理解机器。过去的重点是放在机器如何理解人上面,比如说人类的语音命令,用自然语言发的命令它能够听懂,这是所谓自然语言对话。这其实忽视了一个非常重要的另外一个点,就是人如何理解机器,这是由深度学习引起的,因为深度学习出来以后,它做出来的事情人非常不理解,这就给人机共同合作带来了巨大的困难,所以现在很多的重点除了做自然语言理解,理解用户的意图等等这些工作外,还要集中在人如何理解机器这方面。

为什么会发生这种情况,为什么机器的思路跟人不一样,因为机器处理的方式要用专业的语言。机器怎么识别猫呢?它只是从一些局部的特征,局部的纹理来识别它,它根本不是从猫的整体来识别,因为机器要取得整体的特性是非常困难的,它只取得局部的特性,所以它都是在利用局部特性,在一个特征空间里去认识猫,跟人认识猫的角度完全不一样,人认识猫是从所谓语义空间里,是通过它的各种各样的属性来识别它。

目前,这些研究不仅只是大学或者科研机构的事情了,企业也都在纷纷参与。我有个团队也是围绕上面的问题,重点是如何突破将来人工智能要解决的基础和关键问题,而不仅只是低头跟随性地应用深度学习,只有从这点上着手,我们才有可能实现在人工智能领域追赶、超过或引领 的目标。