AI 定义新时代:人工智慧、大数据与物联网之间的关係

时间:2020-06-06    热度:901

AI 定义新时代:人工智慧、大数据与物联网之间的关係

大数据、物联网与人工智慧本质都指同一件事。物联网强调「触动器与感测器」,人工智慧强调「分析与决策」(分析依赖人工智慧,但决策还是操之在人),串流其中的是「数据」。以河川防洪为例,先有水位感测器蒐集数据,而人工智慧根据数据提出分析报告,人类依据报告做出防洪决策,启动触动器如水闸门做出改变,完成一个系统迴圈。

这是『第一次』,人类的眼睛不是唯一可以用来思考和探索世界的工具。」Google云端人工智慧暨机器学习首席科学家李飞飞说。寒武纪大爆发(Cambrian Explosion)是动物演化史中的划时代事件,在5亿4,100万年前至4亿8,500万年前,其间动物种类大量出现,几乎所有动物的祖先都在这时期现身。寒武纪大爆发的原因成为科学的谜团,一派学者认为是因为眼睛——这个形成图像的器官所驱动的。久远之后,另一个划时代来临:没有生命的机器也可以看到甚至理解这个世界。

近60年来,电脑视觉(Computer Vision,CV)科学家一直努力让机器具备与人类相同的视觉,教导机器像人一样理解所见之物,如辨识物品、辨认人脸、推论物体几何形态,进而理解其中的关联、情绪、动作及意图,如1963年麻省理工学院研究生罗伯兹(Lawrence Roberts)的博士论文概述了电脑如何将3D物体分解成简单的2D图形,是现代电脑视觉研究先驱;1970年代晚期,麻省理工学院教授马尔(David Marr)结合神经生理学和电脑科学后,提出电脑视觉的理论架构,又让电脑视觉发展向前迈进一步。在应用端,电脑视觉最先被应用在「工业影像检测」上,做机械或标籤检测,帮助产业自动化,后来到延伸到车牌、指纹以及人脸辨识,但是,「过去半世纪从最初的『规则式专家系统』到近年『统计机器学习』,电脑辨识能力虽有长足进步,却仍比不上可分辨猫狗的三岁孩童。」台大资工系教授林守德在〈深度学习的深度〉一文中指出。
真正让电脑视觉领域有了大跃进,能力超越孩童的是深度学习(Deep Learning)技术,其中深度学习演算法:卷积神经网络(Convolutional Neural Network,CNN)(p.60)让电脑辨识研究更上一层楼。有了新技术的加持,这些没有生命的机器不仅可以看到世界、分辨猫狗,甚至还超越了人类的视觉能力,2015年微软研究团队在图像辨识系统测试标竿ImageNet(p.61)中系统错误率已降低至4.94%,超越人类视觉能力,此前同样的实验中,人眼辨识的错误率约为5.1%。

「电脑视觉的下一个发展重点,我认为是『视觉 + X』,不论是生物学可视化也好,还是医疗图像等,视觉在这里面都有巨大机会。」李飞飞说。在医疗领域,IBM Watson Health正努力成为放射科医师的助手,给予医师最后的诊断建议。在自驾车领域,电脑视觉技术成为自驾车之眼,2017年3月Intel以153亿美元併购以色列公司Mobileye,Mobileye就是以电脑视觉技术闻名,从ADAS系统(Advanced Driver-Assistance Systems)切入自驾车系统,Intel执行长柯再奇(Brian Krzanich)就直言,「收购Mobileye真正意义在于电脑视觉技术,其技术不仅可用在汽车,也可用在直升机、高端无人机与机器人等设备。」

而在安防监控领域,人脸辨识成为重心。中国的人工智慧独角兽旷视科技,也是从电脑视觉技术起家,应用在1:N的人脸辨识技术中,协助中国警方过滤人潮抓逃犯,目前估值超过20亿美元。而影音内容辨识层面,台湾新创公司创意引晴赢得腾讯与搜狐等平台信赖,帮助平台搜寻非结构化的影音内容。

除了电脑视觉领域,听声辨语的语音辨识以及阅读并翻译文字的自然语言处理(Natural Language Process,NLP)也是非常活跃的感知智慧领域。自然语言处理主要是让电脑能够妥善处理文字、语言,最终让电脑可以理解自然语言。「再过几年,使用语音与机器对话将成为非常自然的事情,人们甚至会忘记不能和机器对话的时代。」接受《华尔街日报》专访的前百度首席科学家、现任Deeplearning.AI创办人吴恩达指出。

而智慧语音助理成为兵家必争之地,自从亚马逊以语音服务Alexa Voice Service后为核心,推出智慧音箱Echo后,Google与微软等大厂也纷纷起而效尤,台湾威盛也推出中文语音平台欧拉蜜。甫被微软併购的加拿大公司Maluuba则把触角延伸到机器阅读,要让电脑也能像十岁孩童般读懂《哈利波特》。除了科技巨头,中国科大讯飞与美国Nuance在语音辨识领域表现优异,台湾则有赛微科技。

翻译是自然语言处理的重要应用领域。2016年11月,Google藉由导入神经机器翻译技术(Google Neural Machine Translation),让Google翻译仅需要一套系统就能完成多元语言翻译,简化了过去需要建构多个不同翻译系统造成可观的运算成本,Google翻译产品经理卡蒂奥(Julie Cattiau)强调「神经机器翻译降低相对误差,让机器翻译的品质更接近译者。」

不过,就在语音与视觉等人工智慧应用欣欣向荣之际,市场传出泡沫论。

趋势科技全球资深研发副总暨人工智慧加速计画主持人周存貹就指出,「AI领域的确出现投资过热的吹捧现象,泡沫一定会发生。」台大电机系教授暨AI新创优拓资讯共同创办人黄钟扬也这幺指出,「两年内AI产业可能会泡沫化,这是全球市场性的。」

在技术层面上来看,先讨论语音领域,由于人类对于语音不仅有辨识需求而已,更有语言理解需求,但机器在语言理解的进展,还不够聪明,无法像真人般对话,因此,在商业应用发展上速度没有图像领域来得迅速。举例来说,现行人工智慧在语音互动层面,还没有办法突破鸡尾酒会效应(Cocktail Party Effect)等挑战,不像人类在吵杂的鸡尾酒会中,还是可以将注意力集中在某个音乐或与某人的谈话上。而电脑视觉目前进展最大的是辨识层面,但要理解图像的关联,甚至是情绪、动作或意图也还有一段路要走。而在投资层面,在中国与美国都出现团队估值过高的现象。

不过,我们不用担心这次的泡沫化来临,因为人工智慧已经创造真正的价值,和2000年的网际网路泡沫化有很大差异,而过去人工智慧虽然也经历两次泡沫阶段,这次的应用爆发和过去两次也明显不同。「前两次人工智慧热潮是学术研究主导的,这次是现实商业需求主导的;前两次多是市场宣传层面的,这次是商业模式层面的;前两次是学术界游说政府和投资人投钱,这次是多是投资人主动向学术和创业专案投钱;前两次热潮多是提出问题,这次更多是解决问题。」创新工场董事长李开复在《人工智慧来了》一书的论述就是最好的注解。