作为产业界的技术人员,我们很关心最新的趋势,大模型、大算力、大数据带来的新智能涌现会对产业界会带来什么样的影响?对工业界会带来什么样的应用场景?
ChatGPT带来万亿美元商业机会
其实,人工智能经历了较长的发展过程。最早甚至可以追溯到图灵测试提出之前的“电子脑”概念,之后就是图灵测试,再往后是1956年达特茅斯会议;2006年Geoffrey Hinton和合作者提出深度学习模型框架,2012年图像识别实现突破,再到2016年的“阿尔法狗”以及2022年底出现的ChatGPT。经过一系列的发展,人工智能进入了新的阶段。简单而言,ChatGPT代表两个词“Chat”和“GPT”。Chat指的是人机交流、人机对话,这是图灵测试提出后研究界长期面临的挑战。人和机器怎样才能更深入地交流?才能让机器具有深刻的语言理解的能力和认知能力?G是深层次模型即Deep level model,怎样才能让AI生成内容?这预示着人工智能开始进行跃迁,从之前判别式的人工智能如人脸识别、图像识别进入生成式人工智能,AI可以直接生成文本内容、图像内容,生成声音、生成音乐。这意味着人工智能开始真正进入生产力革命,它可以直接产出内容,让整个生产力的价值变成闭环。近年来人工智能在这一方向获得长足的进步,2016~2017年机器和人分布生成内容的质量差距仍然比较明显,但差距已经在迅速地减小。到2022年底,机器生成的内容已经接近或超过职业人士生成的内容。但带来的表象是模型越来越大——“大”的定义其实也在不停地被重新定义,三四年前提到大模型时往往指10亿级别参数的大模型,但到今天“大”已经指的是千亿级别。
通过ChatGPT,我们对人工智能三大基础的认知有了新的提升。这三大基础支柱即数据、算力、算法,如今都变得更“大”,已不是简单 量变而是已经发展到质变阶段。比如数据已经开始从传统的人工标注,进化到无监督的网络数据。ChatGPT推出后,短短几个月时间内可以与全球1亿人进行交互。这一动态的交互数据在过去几个月给ChatGPT带来大量的新数据,这种场景驱动的数据会成为下一代人工智能更多、更深的智能来源。
算法从单点、单个的算法进化到整个产品级或者系统级的算法。ChatGPT一推出来就跟之前的很多算法不一样,它是比较完整的产品形态,使得每一个基础用户都能直接与它进行交流。在某种意义上,ChatGPT是一系列算法的联合优化与联合协同,使得它一出现就变成很完整的产品形态。
算力从之前关注单卡和单点的计算速度,进化到如何让多卡资源集群成为高速沟通、通讯的计算集群。在新的大模型时代下,我们要对新的大模型的需求设计新算力。从商业角度来看,这是一个非常令人激动的时刻。搜索是目前用户最广泛获取信息和服务手段。在搜索技术出现之前,20年前大家用的是什么?是黄页。在没有搜索技术时只能翻目录,当我们从黄页时代进入到搜索引擎时代时,带来了巨大的商业机会,以至于现在人们已经习惯性地认为不可能没有搜索。除了百度、谷歌等搜索引擎之外,其实任何一个APP包括京东、美团等都有搜索框,搜索已经变成人们获取信息的基本方式。
但随着ChatGPT和大模型的出现,随后十年可能会进入智能交互时代,将从搜索时代进入智能对话时代。AI会生成更精准的内容,形成更高效的沟通,使得人获取信息和服务的范式会发生新的变迁,同样会带来万亿美元级别的商业机会。
京东聚焦任务型智能对话交互
京东在做大模型时会从产业实际需求出发,在某个特定产业领域做大模型的原因是京东是拥有长业务链条的实体企业。虽然在用户界面看到的只是一家电商企业,但实际上京东作为自营电商拥有采购、流通、物流、仓储、交易等环节,全环节、各个链条有大量具体的实体需求。
以客服服务为例。客服服务是对话性比较强的环节,京东在宿迁、扬州设有大量的实体客服人员,需要打造大模型以帮助他们更高效地服务顾客。这一任务其实是更深度的,我们更关心的是有具体任务导向的对话,能真正解决零售、金融、物流等真实世界的深度任务,希望这个大模型能够做得更深,能够对这一领域的知识把握得更准,才能够真正产生产业的价值闭环。
我们希望聚焦在任务型智能对话交互上,能够帮助用户通过多模态方式如语音、文本、视觉、数字人等,以人机交流的方式完成非常复杂的深度现实生活中的任务,为此我们聚焦于如何实现高表现、可控、可信的智能对话体验。
具体而言,即在高表现智能规划生成领域聚焦语音的生成。语音合成是人和机器重要的交流通道和渠道,让语音听起来不是干巴巴的,而更有人性化、更具有情感能打动用户,这是非常现实也是非常具有挑战的课题。为此我们提出了多粒度语音合成和语音增强技术,通过在不同的层次如词的层次、句子层次和篇章层次进行语音合成,使得语音合成更加有表现力。
除语音外,对于文字内容、对话内容本身,我们也提出知识融合的预训练模型。大模型虽然一方面很强大,但另一方面往往会出现一些没有“营养”的话或“正确的废话”,有时甚至是一本正经地胡说八道。在做产业应用、在面对真正的产业需求时这些都是不允许的,因此要将产业知识嵌入大模型中,让大模型按照产业规范、产业知识进行表达。
第二,很多时候提及的大模型其实是语言模型,在视觉上也有很多用武之地。因为人和人之间的交流是多模态的,可以通过语言、表情、手势、形象进行交流。同样地,我们也希望AI也能够有这样的能力,因此开始将大模型技术推广到视觉形象重建,能够把数字人高效率地建造起来,通过数字人这种更丰富的方式来与人进行交流和服务。
比如在一些具体的对话过程中有大量需要决策的过程,包括用户口语化过程中有大量的停顿、不规律的断断续续等。如何处理这样的对话,使得对话真正能够提高体验?这些问题在实际落地过程中将会大量出现,这也需要彻底解决,才能使得人机对话真正成为一个良好体验的过程。在实际的应用场景中,对话不只是语言理解和语言生成的问题,还有大量的信号处理、决策依据等。我们要做出一个综合性的能做判断、做决策的多模态智能,才能使整个体验达到闭环。
其实并不是在看到ChatGPT后,京东才决定做大语言模型,在两三年前我们就已经开始投入到深度语言模型的建设,或者产业驱动的大语言模型研究和打造之中。2021年,京东基于自研领域的模型k-plug实现了参数量10亿级别;2022年京东与其他研究团队合作推出百亿级别的织女模型Vega v1,在各种榜单上获得到很好的名次。今年我们将发布千亿级别的大语言模型,在更深、更多的产业应用场景上加以应用。k-plug模型主要的创新点在于,怎样把专业度和知识嵌入到大语言模型中,使得语言模型的生成更加可控、专业与丰富,使得生成的知识更加忠实。“忠实”这点特别解释一下:比如介绍某个商品时,不能无中生有地把一些不存在的特性加在产品之上,也不能忽视商品真正的卖点和亮点,而只是说一些比较通用的话。对产业大模型的应用要有特定的要求即生成文本的忠实度,这也是我们希望通过知识注入,能使大模型能够更好地把握和表达知识。我们希望以京东跨过多产业业务为基础,打造产业的基础大模型。比如同时在零售、金融两个大垂直领域生成更深度的应用,在具体的应用上作为牵引来验证大模型的效果和进一步推广。
大语言模型技术将带来生产力革命
以言犀在语言大模型上的应用情况为例。比如我们会为很多新商品直接进行语言模型AI的描述生成,把枯燥无味的说明书直接通过AI与大语言模型进行读取和理解后,用更生动的文字进行描述以吸引用户,更好地向用户表达这个商品的特性。
除了语言之外,京东在语音方面也通过大模型技术,使得语音更加拟人化、更加惟妙惟肖以及更有表现力。它带有一定的口音和情绪,以及一些非常拟人化的停顿,使得整个交流就与真人的感觉一模一样。图像生成也包括一系列的工作,包括通过早期GAN、近期Diffusion Model如何生成更好的图像内容,并应用在不同的零售场景。我们还通过大模型技术进一步生成更好、更加有表现力的数字人。大模型的加持使数字人的生成变成工业化的流水线,甚至能让我本人的形象说出任何事情。
除此之外,我们也通过大模型技术做艺术生成,不光只是简单生成照片级的图像,还可以生成如书法这种高结构化的艺术内容。比如与今日美术馆合作对画家塞尚的风格进行仿真,可以生成类似塞尚风格的人工智能图像和艺术作品。同时,我们在工业层次上也在尝试如何通过大语言模型,更好地优化和控制机械手、机械臂来做想让它实现的任务。
总结来说,整体一站式的京东人工智能或言犀大平台这种大模型的基本架构,以最底层的云计算平台为基础,打造关键的人机交流和内容生成技术,包括知识输入、知识获取技术,最后沉淀到言犀平台形成行业级的解决方案和SARS级的产品方案赋能应用行业。
目前京东APP已经开始大规模地使用虚拟数字人的直播零售形态。我们也将类似的技术更多地应用在政务管理行业,通过人工智能技术、大模型技术使得政务热线能更好地接听市民的反馈和诉求,并且及时给予解答与跟进。
人工智能基于大模型技术发展到新的转折点,我们开始进入一场真正的生产力革命。不管是数字内容生成、对话文字等,都开始进入一种以工业化的规模进行低成本、大规模高效率的部署,并形成流水线的形式。以ChatGPT为代表的大语言模型技术将带来一场生产力革命,真正为未来带来更多商业上的变革和机会。
(根据“2022 中国人工智能产业年会”主论坛报告整理,有删减)
![]() |
版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号 地址:北京市海淀区中关村北四环西路33号 邮编:100080 联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn |