站内检索

AI时代仍遥远方法论亟待升级
作者:项锦文 发表时间:2020年10月12日

 

 

  过去十年间,AI方法论已经从依靠规则、知识设计人工智能算法,过渡到以数据为主要驱动力、知识与规则相对应用较少的方法论。

  中国科学院计算技术研究所研究员山世光指出,尽管人工智能已发展到新的方法论阶段,但离研究人员所期望的AI时代仍然非常遥远。

  “人工智能研发其实还存在着非常多的问题待解决,AI发展现状是‘问题远比办法多’”。

  AI时代仍然遥远

  在当下这种“数据为王、知识为后”方法论的支撑下,山世光在第二期《前沿科技论坛》上做公开报告时认为,基本上满足了两个条件的AI任务都得到了比较好的解决。

  “哪两个条件呢?一是专用的AI任务而非通用AI,二是好数据‘肥沃’,即能够通过商业模式大量获取数据。”

  他表示,专用AI任务好比一位专科医生,他只处理肺癌方面的问题,甚至可能只针对该病的CT而非核磁图像,这就是专用而非通用的AI算法。

  好数据的特点为规模大,并且有相应的强坚度数据做支撑。有些类似于见多识广而成名的专科医生,因为见过的病例足够多、学习能力也较强,成长为非常优秀的专科医生。

  不过,山世光指出,尽管人工智能已发展到新的方法论阶段,但离研究人员所期望的AI时代仍然非常遥远。

  他表示:“过去二十年间,我们在人工智能感知和简单推理方面有许多进步。也许在未来若干年,将逐渐从现在的感知、认知发展到情感、自主学习等,或许人工智能可以逼近普通成年人的某些智能能力。”

  但若以此为发展目标分析,人工智能研发其实还有着非常多的问题待解决,而这被业内称之为“亟需升级的AI能力”。

  具体而言,即要从浅层感知(看听读)发展至认知和深度理解,从单模态智能发展到多模态智能(看、听、触、嗅、味融会贯通),从静态智能发展到动态行为智能(智能机器人),从被动训练的智能发展到主动学习的智能等。

  比如人工智能从现在只能简单地临摹某个艺术家风格的作品,发展到能够形成自己风格的艺术创作。又如大多数的AI系统从现在并不自知的状态——即不知道自己何时错、何时对,也不知道自己缺少什么——发展到有一定的“自知之明”。

  AI发展“问题远比办法多”

  不过,山世光坦言,现有的AI方法论并不足以支撑AI能力继续升级,AI发展现状是“问题远比办法多”。

  作为AI“三驾马车”的算法、算力和数据均发展疲软。尤其是算法“马力”不足,深度学习在工业界仍然依靠大数据和大算力勉力支撑。

  “依靠大量人力、物力和财力的投入,而且没有理论支撑,导致大量算力和数据都浪费在试错上。”山世光说。

  他认为,深度学习在学术前沿已经是强弩之末,其本身克服不了高度数据依赖的问题,无法像人一样基于“弱小”数据而进行精确的学习。

  显而易见,AI方法论也亟需升级。比如从强大数据驱动的算法升级到弱小数据驱动的算法、从纯数据驱动的机器算法升级到知识和数据联合驱动的类人算法,从人设机器学习(参数学习)升级到自动机器学习(算法学习),从单任务专业算法升级到多任务通用算法、甚至元方法(授之以渔),从黑盒子算法升级到可解释、懂因果的算法,从被动学习方法升级到主动学习方法,以及从一次性学习升级到终身学习。

  从数据依赖的角度比较人工智能与人类可以看出,人类的智能具有一些非常重要的特性。AI这种强大数据依赖即强监督、大规模的特点,和人类智能“知识+弱小数据”驱动的特点并不一致。

  人类智能具备对小样本的归纳和演绎推理能力,可以举一反三与触类旁通,甚至会“吃一堑长一智”,能从少量错误中学习。

  “但现在AI的算法是‘吃一千堑长一智’,有时候甚至可能‘吃一千堑还不一定长一智’。”山世光指出。

  而且,人的大脑时刻都在预测和检验,并修正误差、进行自纠错的学习。同时还有使用元方法的能力,可进行多模态、多学科知识校验和融合,发挥想象力和创造力。

  山世光指出:“人类智能的特性,非常值得研究机器学习算法或者AI算法的研究者参考。这其中的每一个特性,都值得设计成相应的AI的算法,促使AI出现更多的应用。比如怎样在小规模的数据、弱监督、半监督、无监督等各种复杂处理条件下进行机器学习。”

  不过,即便是人类,如果没有知识而只有小量的数据,也不可能实现强大的学习能力。如何才能将人类的知识融入其中?在AI研发中已经变得越来越重要了。

  山世光认为,AI在经过若干年的发展后,开始逐渐积累了机器知识的能力。“什么是机器知识?就是解决了一万(N)个任务后,是否可以继续归纳出一个通用的任务模型?这种模型有些类似于元方法、元模型,当再面对一个新的任务时不再需要大量的数据,只要通过元任务模型,利用小规模的、弱小数据就可以进行演绎。”

  这种通过N个任务总结出来的模型,并不是由人总结的,而是由机器算法总结的“机器知识”。这种机器知识针对新的任务能提出更好的解决办法。

  山世光举例道,譬如为了检测人脸需要收集数万张的人脸照片,为了检测马脸也需要收集数千张甚至数万张的马脸照片。

  “自然世界中有这么多种动物,如果每一种动物都检测,是不是都需要收集如此大量的数据呢?这其实是一件非常可笑的事情,显然不是我们所期望的。如何才能建立一个通用脸的模型?这种模型在某种意义上,就是一个元知识、元模型。当然也希望能够加入一些人类知识。”

  他指出,今后可能只需要收集某种动物比如考拉、海豚等非常少量的脸的照片,就可以通过元模型的演绎,来获得不同动物脸的检测或者识别的模型。

  正视差距发力未来

  虽然在过去十年间,AI方法论已经从人类知识驱动发展成由强大数据驱动。但在山世光看来,在今后十年或者更长的时间内,还需要再回过头将知识和数据联合起来发展方法论。

  “当然这种‘知识’,不仅仅是指人类可以理解的知识,也包括已经解决的大量任务里,所蕴含的人类可能不能理解的机器知识的联合。”

  在AI应用研究方面,山世光认为,中国和国外先进水平差距“不那么大”,但在纵深的应用细节上仍然需要努力。比如生物信息学领域,国外深度学习已经渗透的比较厉害,但我国国内研究才刚开始起步。

  “在AI基础研究方面,中国与国外差距肯定在缩小的,但是加速度不是很够。比如在过去十年间,最具代表性的基础性AI方法主要来自于欧美大学和企业,我们要实现‘平起平坐’恐怕至少还需要5~10年。”山世光直言。

  那么,其中存在的问题是什么?他认为,这源自对基础研究长期性的认知不足,并且缺乏足够的耐心。

  “比如深度学习里最重要的算法是深度卷积神经网络,它其实是上世纪80年代的产物,距今已近30年。就是这个30年前的产物,直到现在才发挥出它的威力。基础研究发挥作用的效果和方式,有时候并不是线性的,需要耐心。”

  反观当前的环境,一些基础研究项目与一些重大的项目,可能在两年内就需要获得重大成果,甚至在申请时就需要提出非常清晰的技术路线。如果技术路线不清晰,可能就拿不到这个项目。

  此外,在AI基础设施方面,我国与国外的差距也不小。中国基础硬件平台投入大,但存在大量资源浪费的问题。与此同时,中国基础软件平台投入却较少,导致先机尽失,落后国外先进水平至少3~5年。深度学习的主流框架如TensorFlow、PyTorch、MxNet等,基本上已经成了国际通用的事实标准。

  “是不是未来会成为类似于我国芯片产业‘卡脖子’的问题?现在不好说,但有这种可能。”山世光建议,包括基础算法研究在内的中国基础智件体系投入要加大,“过去建设了计算中心、数据中心,未来是不是要有AI算法的支持中心?是否要建设国家级的知识中心”?

  他提出,要加强基础智件体系研究,建设计算中心、数据中心与算法中心;尽快建设国家级的“知识中心”,比如“通用知识+领域知识”的人类知识中心、AI算法和模型为中心机器知识中心,让已实现的AI成为如同水、煤、电一样可以取用的智件。

  在低门槛的AI研发的平台和工具领域,山世光认为中国有可以抢占先机的机会。“‘学AI到蓝翔’虽然是一句玩笑话,但我认为这是有可能的。”

  未来五至十年,中国需要大量的AI人才,他们可以通过相对比较低门槛的AI研发平台进行培训,做一些相对比较简单、但应用面广的一些AI算法工作。

  而在AI人才培养的倾斜力度方面,山世光的体会则是“不太够”。当前中国AI人才的缺口很大,但AI相关专业的研究生数量又不足。许多不是AI领域的学生,都主动或因为工作需要而被动地“AI化”了。

  “这是否合适?又是否能够真正解决AI人才缺口的问题?我认为可能还是不够,如果人工智能被列为国家战略方向,在人才培养领域应该有一些倾斜。”山世光建议。

  他还指出,当前AI领域产学研的倒挂非常严重。近年来,企业大学化、大学和科研机构企业化的现象一直相当突出。“典型的表现就是企业在发文章,大学科研机构却在做短期的技术研发。背后的原因很多,包括相关部门对一些Long-term的基础研究缺乏支持的耐心,以及有些科研人员担当不够。这背后与‘帽子’和title文化催生的‘快餐式科研’占主流也有关系。”

  此外,我国对企业科技创新的支持导向性也值得商榷,“不是说国家不应该支持企业做科技创新,而是企业该做什么样的创新、大学科研机构应该做什么样的创新,要有更加明确的分类”。

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn