金称市村 首页
卫哲:为什么90%以上的人工智能都是「伪人工智能」?

今年 7、8 月份,我在美国花了比较多的时间,跟美国投资人、美国创业者和领域的专家交流沟通。重点关注了在中国最热的人工智能。

我和我们华人「人工智能第一人」——原来是斯坦福的教授,现在 Google 人工智能负责人之一——李飞飞教授,做了长时间的沟通。

第一个观点,我们两个达到非常高的一致, 就是今天的人工智能项目当中,存在大量的「伪人工智能」。伪人工智能比例可能高达 90%,或者 99%。


一、为什么说有伪人工智能存在?

第一,我们看一下人工智能的人才储备。

人工智能人才不是一夜之间冒出来的。无论在学校还是工作中,他必须、确实从事过人工智能的工作。其实这样的人才全世界不过几百个。但全世界有几万家人工智能公司,怎么突然冒出这么多人才?

从人才角度来说,无论是创建还是参与公司,怎么可能具备真正人工智能的优势呢?所以我们觉得存在大量的人才泡沫。

第二,我们看到很多项目真的是穿了个「马甲」又回来了。

我一直在跟创业者说,千万不要给自己的项目穿马甲,贴上很多流行的标签,流行什么贴什么,流行人工智能很多项目贴着标签来的。

贴标签之前这些项目挺简单的,早在阿里巴巴我们就看到过,什么叫机器学习,什么是算法。很多只是有一定算法的,或者还是基于机器学习的公司,今天摇身一变都给自己贴上了人工智能的标签。

二、如何识别「真人工智能」?

我跟李教授说,我不是技术专家,我也不懂技术,请问有没有比较简单的方法来识别真的人工智能和伪人工智能?

高手就是高手,用了一个非常简单的方法。我们先讲一个历史上的故事。

我们看到计算机和人类进行国际象棋的比赛,是在很多年前发生的,互有胜负。但是从教会计算机下国际象棋,到干掉世界冠军,不低于 10 年的时间。

Google 下面的「阿尔法狗」、这个人工智能的机器,从学会,到下赢一个围棋的入门级的初段选手,到干掉世界冠军,据报道只用了 1 年时间。

所以真正人工智能判定方法非常简单,看他算法的进步速度。机器学习也会进步,那么人工智能的算法进步是几何级的。

也就是说一个人工智能领域的项目,如果你隔 3 个月去看,它在算法上比如说人脸识别也好、语音识别也好,它的进步是代数级,而不是几何级的——那么它更像互联网时代早已有之的普通算法。或者叫机器学习而已,都是伪人工智能。

所以,如果我们不太了解过程的话,就从结果来看。人工智能一定是像这次下围棋一样,「进步神速」。

这是我们第一个结论。存在大量的伪人工智能,和如何去识别伪人工智能,不仅要识别伪人工智能的项目,还要可以判断伪人工智能的团队。

三、做人工智能最重要的,不是技术?

第二个结论,人工智能的技术,如果把它比喻一把刀的话,那么 massive refreshing data(大量海量且实时更新的数据),就是那把刀的磨刀石。

也就意味着,人工智能技术重要但不是最重要。这把刀一开始有多锋利,不是决定性的。一把锋利的刀一直不磨,而一把不太锋利的刀一直在磨,那很快那把不锋利的刀就会超过那把锋利的刀。

Deepmind 团队中,就是阿尔法狗的团队中,高级的华人工程师挺多的。见到他们,我问了个问题:你们怎么不立志搞一次中国象棋?

他说,David,这个不是说我们愿做不愿意做的问题。我们的围棋项目,还不得不感谢感谢日本人。日本人过去几百年几乎所有的棋谱都在,而且保留围棋的棋谱也特简单。只要一张纸,黑的白的,上面标好号码就行了:这是第 1 手,这是第 200 手。

所以它其实一张图就记录了整个围棋下的阶段,所以复盘也特别容易。围棋几百年来的棋谱都存在,也就意味着围棋的数据特别齐全。

咱中国象棋老祖宗留下了什么?叫残局。它怎么走到残局呢?不知道,没有数据。

如果你把残局喂给机器,它怎么学习?他要学习的是我如何走到残局,以及如何从残局走到终局。由于中国象棋的历史数据缺失,造成这么生猛的阿尔法狗机器在中国象棋领域就 go 不下去了。

这就是意味着数据对人工智能有多重要。离开数据,谈人工智能是没有意义的。

四、下一位人工智能新独角兽在哪?

在哪些领域,人工智能可以跑出来独立的公司、独立的平台?

如果在美国你要用的数据,大部分或者全部由 Google、Facebook、亚马逊所掌握,那磨刀石在别人手上。今天你的技术再领先,也维持不了多久。

我们看到很多这样的技术公司,唯一出路就是卖给美国 Facebook、Google、亚马逊。

同样在中国,如果你要做人工智能,所能用到的数据,都是为 BAT 所掌握。那最终这个磨刀石也不在你手里,你也没有太大机会。你就是一个技术还不错的团队。

最后的出路可能是把这个团队,以并不太高的估值,卖给这些有数据的大互联网公司。

那么在哪些领域,美国的 Facebook、Google、亚马逊也没有数据,中国 BAT 也没有数据呢?这种领域有没有?答案是有。

比如说医疗数据,BAT 也没有;很多金融相关的数据目前还是银行、保险公司的内部数据,互联网公司也没有;可能还有一些其他的领域。

那么就以这两个领域来说,和人工智能结合,至少不管这把刀是不是很锋利,找数据源或者找磨刀石的起步,你和大公司是平等的。那就有可能在医疗、金融等领域,你和人工智能的结合跑出大公司来。

我们就拿医疗说,美国 FDA 已经批准人工智能读很多片子。我们觉得一个医生一辈子读 10 万张 X 光片或者 CT 片子就很厉害了,但这个片子拍完以后,他完全基于自己的经验和知识来判断。他判断得先有积累。

但这个事对机器来说,对人工智能来说太简单了。就是图像和打完标签的图像,同时要结合这个标签打完的图像和最终诊断的病例,做一个闭环的学习过程。

所以机器 1 个小时可以学 10 万张片子;人类最有经验的医生,从业 30 年,一万多天,一天看 10 张片子,一辈子 10 万张片子。但机器可以 1 小时读 10 万张片子。

但同是,由于美国对隐私的很多保护,很多医院的数据,在美国并不能轻易开放给这些人工智能公司。

我们看到一个趋势,很多从事医疗行业的公司开始寻找中国的合作伙伴,因为中国人口同样众多,隐私的保护却没有那么严格,有机会让医疗数据迅速地集中起来。

同样的今天很多人脸识别的公司,估值很高。我无法评价他们技术多牛。但我突然发现不是从事这个领域的公司,只要有大量的数据,迅速可以追上或者赶超,有在 A 股上市的。

比如海康威视,这么多摄像头,它采集到很多真实的人脸。由于这个数据的存在,我觉得他们人脸识别的技术不仅目前达到,未来一定在中国这方面最优秀的公司,没有之一。

数据,无论说到人脸还是医疗都非常重要。