联系热线:400-123-4657

首页 > 新闻动态 > 最新公告

雷泽体育入口对话 IDEA 研究院张家兴:预训练模型将成 AI 未来「底层设施」

最新公告 2022-12-06

  雷泽体育手机版时至今日,人类与 AI 似乎仍处于 磨合期 。但 AIGC(AI-Generated Content)发生的一些新进展,正让这件事变得有趣起来。

  10 月 17 日,当前 AI 绘画领域独角兽公司、英国开源人工智能公司 Stability AI 宣布获得 1.01 亿美元融资,估值达 10 亿美元。其 爆款 产品 Stable Diffusion 是一款功能强大、免费且开源的文本到图像生成器。

  AIGC 的应用场景已经开始变得广泛,未来也呈现出非常强劲的渗透前景。 近日,张家兴与「明亮公司」进行了一场关于 AIGC 及预训练模型的深度对话,以期展现当前该领域的新进展以及商业化前景。

  不久前,AIGC 初创公司 Jasper 曾宣布以 15 亿美元估值获得 1.25 亿美元 A 轮融资。而早在 2019 年便获得微软 10 亿美元投资的曾人工智能公司 Open AI,当前估值已蹿升至 200 亿美元。

  可以确定的是,伴随 AI 绘画工具的进步,插画、海报、数字人制作、游戏及视频原画设计等领域正开始有节奏地使用 AIGC 相关的预训练模型,以减轻创作过程中因大量而枯燥的基础工作导致的低效等问题。未来,更多与生活相关的产品设计,比如服装、雷泽体育入口鞋帽等,都将可能出现 AIGC 及其背后预训练模型的身影。

  我们认为,未来AI 将成为完全由模型驱动的产业,有什么样的模型就会有什么样的产品。而预训练模型作为‘底层设施’,将以底层架构的角色被铺设在未来 AIGC 的应用之前,分享随之产生的所有商业化机遇。

  他认为,以一支团队为单位形成一个算法集群,生产出一个或多个模型,将成为未来的主要发展路径。 一方面,新的模型可直接催生一些相应的产业。另一方面,对于已经存在的成熟产业,亦可通过这些模型催生出相应的产品,而产品反过来又需要大量模型进行迭代 。

  进入 IDEA 前,张家兴曾任微软亚洲研究院研究员、蚂蚁集团资深算法专家、360 数科首席科学家,从零到一创建了阿里巴巴和蚂蚁集团的深度学习团队,落地了智能客服等多个自然语言技术方向,并于任职 360 数科期间组建了 AI 数据融合中台部门。

  「明亮公司」了解到,封神榜已经开源 88 个预训练模型,成为中文最大的预训练模型体系。张家兴带领的封神榜团队正受邀与阿里和华为进行接洽生态入驻,目前已在迁移当中。

  在张家兴及其团队的眼中,AI 绘画是一件可激发人类创造力的事情,它可以成为工具,亦具备情绪价值,而非人类智慧的替代或者颠覆。

  A:张家兴 IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)负责人、讲席科学家

  Q:11 月初我们刚刚完成了太乙 Stable Diffusion 中文版和双语版的开源,这对于 IDEA 研究院和开发者而言意味着什么?

  A:从模型本身而言,功能并不复杂。使用者输入一个文本,模型在文本的指导下从一张完全白噪声的图片开始,一点一点精细化,最后生成一张清晰的图片。Diffusion 可以理解为加噪的过程,而生成图片则是一个去噪的过程。

  人类在作画时,也是一个逐渐从模糊到清晰的过程,而 Diffusion Model 便是模仿人类大脑的动线——先有一个想法,然后加一点新的启发,生成一张大概的图像,再增加更多启发,最后令作品愈加精细和复杂。

  人类艺术家的能力有两个优势,一是在每一个启发之间具备强关联能力,雷泽体育入口即可以通过上一个想法启迪下一个想法;二是对细节充满各种想象。

  这两种能力如果对应到 Diffusion 模型中,首先要实现的就是,从最初的文本到最终的图片,中间所有环节都具备强关联性,即模型可以像人类一样去思考下一步;其次,能够实现最后呈现出的作品足够清晰并具备丰富的细节。目前我们的模型通过从海量数据中不断的学习,已经可以达到这个效果。

  在中文世界里用中文描述去生成图片,是一个质变。生产的结果图片会更有中国元素、更符合中国文化,对中文的语义理解更准确,而不是此前以英文为模型将中文翻译过去进行生产,比如输入 女孩 一词,可能生成的图片是国外的一个女孩子。

  A:2022 年 7 月,IDEA CCNL 开源了第一个中文 CLIP 模型,目前已经有 4 个版本。以其中一个 Taiyi-CLIP-Roberta-large-326M-Chinese 版本为例,IDEA CCNL 用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。

  在这些工作的基础上,10 月份我们全力投入到 Stable Diffusion 模型,很快就把太乙 Stable Diffusion 做了出来,为时不足一个月。

  如果追溯到更早,从去年 11 月份宣布封神榜大模型开源计划,我们一直在持续生产模型,并已经成功推出自然语言领域很多预训练模型,基本覆盖该领域全部主流模型结构。截至目前,仅一年多时间已经开源了 88 个模型。而且很多都是目标领域内先进的,多次获得 FewCLUE 和 ZeroCLUE 权威榜单的冠军。

  Q:我看过 铁马冰河入梦来 太乙版本和 Stable 版本的 AI 翻译,差距悬殊,请问我们是如何实现将中文的 意会 进行具像化的?

  A:就这句诗词而言,作为文本输入模型时,是作为一整句话被识别的,而非只对应一个字或者一个词,所以我们太乙版本的翻译结果与其他非中文语言版本的结果会呈现出显著不同,更能实现 意会 的目的。

  在中国的文化中,词的组合会表现出不同的意境。比如床前明月光这句诗,拆解开来,模型会识别中文语境中如床前和明月、明月和光等组合在一起所表达的意义。而模型在训练的过程中,也是从这些组合所处的上下文中,学到的这些组合所表示的意义。只有在海量的中文预料中训练,这些中文意境才会被模型正确的理解。而这正是太乙模型的优势。

  所以,其中的评判标准不应是多少张图片,而是使用者对图片的满意度有多高。由于产生的图片每次都是随机的,所以对使用者而言每次看到相同的文本指引出不同的图片,本身也是一件很有乐趣的事情。

  A:我们背后是有审美模型的,通过寻找一些高质量的图片,会训练数据挑选好看的图,而生成图片也可以按审美设备模型去排序。未来或许可以获得更多海量用户反馈,作为训练数据,能够让我们的审美模型的效果越来越好。所以归根结底,什么是美的,还是取决于人的标准。

  A:封神榜是目前国内唯一的以开源模型为目的的团队。我们希望把这件事做到极致。我们也在积极的与各个开源模型社区,比如阿里巴巴的 ModelScope、华为昇腾生态等进行合作,把我们的中文预训练模型加入到他们的生态中。通过加入更加广泛的开源生态,我们希望封神榜模型能够让更多人使用,这也是做所有开源人的理想。

  根据在 Huggingface 网站上的统计,目前全球的预训练模型总计约 8 万个,而其中的中文预训练模型不到 1000 个,只占到 1%。这与中国人工智能的规模和总体经济体量很不相称,我们也希望更多的中国人工智能团队能够加入到开源模型的队伍中。

  具体而言,假如我想生成一张 鸟蹲在树枝上 的图片。输入这些文字后,发现鸟的翅膀是收起来的,我只需要输入 鸟张开翅膀 ,那么在背景都不变的情况下,鸟就张开了翅膀。这是一种图片局部编辑的技术,背后有很大的算法探索的空间。

  之前绘画需要从场景到细节一一把握,现在你想要一张精美的图片只需要首先画出场景即可,然后再应用局部编辑技术增添各种细节。比如你想用 AI 形成一个热带雨林这种场景,但你从来都没见过热带雨林,通过这一模型便可以先创造一张雨林的图片。然后进行自由编辑,添加各种元素。

  A:比如插画师,因为本身就需要配合文字进行图像的创作。还有海报设计,需要生成非常多的创意进行选择。另外游戏和影视的原画设计也非常需要这一技术手段,来拓展想象空间。甚至修图类软件中,图像的编辑技术也有广泛的应用。

  还有一种个性化的训练模型,你可以训练一个只属于你的模型。比如,用几张你的各种角度的照片去训练模型,然后把这些照片一个名字 小张 ,然后输入 小张站在沙滩上 ,模型会生成一张你站在沙滩上的照片,而且可能生成你的任何角度和任何形象,并且完美的融入环境。这样的个性化训练,代价也不大,可以在 10 分钟左右完成。

  我们正在把这种个性化训练的能力做成一个引擎。使用者无需懂算法,即可在个人电脑上训练自己的个性化模型,生成个性化的照片。这个引擎也会开源,也欢迎各个公司在这个引擎基础上进行各种产品创新。

  A:作为有益尝试,当然我们也会做 C 端产品,积极进行产品创新和尝试。但生产 AIGC 基础预训练模型仍是我们的主要工作。

  我们会坚持作为基础设施的角色,其商业逻辑是 等风来——我们提供基础模型,只要生态中下游有一个行业成为机遇,那么我们也是机遇,因为大家都在使用我的底层设施。从这个角度来说,我们首先想成为英特尔、AMD 这样的公司,铺设在所有的机遇面前,成为下游生态的必要前提。

  A:我们首先以中文 AIGC 市场作为出发点,但同样也面向全球市场。因为AIGC 是天然的有文化和语言区分的,每个国家和文化,都该有自己的 AIGC 模型。如果看当下的开源 Stable Diffusion 模型,也仅有英语、中文、日语和韩语四种语言版本。因此这里还存在一个很大的市场开拓空间。

  A:商业的成功可能要借助于爆款,但不能固步自封在一个爆款,因为这种模式不长久。可以依赖一个爆款的前提是,可以针对这款产品进行不断升级,并具备可持续性,但任何一个技术最终都会饱和。

  比如某个算法,其他人准确率只有 50% 而你可以做到 90% 时,的确有巨大优势。但别人也能做到 90%,你能做到 95%,在应用方面差别就很不明显了。且后面 5% 的提升,需要投入的成本会非常昂贵。

  我们真正应该做的,不是坚守一个爆款,而是具备持续不断打造新 AIGC 的能力,尤其是全球范围内还没有出现的新能力,这是我们追求的目标。

  A:比如 3D 和视频生成,以及我们已经具备领先优势的文本生成技术。目前可以透露的是,我们目前投入了很多精力在做因果推理的文本生成,可以直接生成多步的因果推理链路。一方面,我们非常想将其在传统领域推广,比如应用于金融领域,进行事件推理;另一方面,我们更希望它作为(针对元宇宙的)数字人 / 虚拟人的底层驱动,因为我认为,人的思考实际上是一个永不终止的因果推理链路。

  A:我认为其中有两大市场前景,一是成为专业人员的生产力工具,同时让更多人能够通过技术实现专业化效果;一是对非专业人员的日常生活产生巨大影响,能够为个人生成大量个性化、多模态的沉浸式体验。

  比如预训练模型与视频 3D 结合后。设想一下,你带上 VR 眼镜,说 我想体验一下亚马逊丛林 ,系统可以为你生成逼真的沉浸式场景。这种实现目前尚有难度,因为 3D 场景的生产成本比较高。雷泽体育入口我们把 AIGC 扩展到 3D 生成,可以大大提升行业效率。

  A:技术就是 套娃 ,大家都是在用旧的技术生产新的技术,用之前的模型生产第二个模型,然后用第二个模型再去生产第三个模型。所以技术没有终局,他是一个不断演进的过程。

  其实 AI 生产 AI 这个事情也是非常值得讨论的,现在 AI 模型的都是算法工程师在生产,用模型生产模型还是比较值得期待的。我们也刚刚开源了 GTS 乾坤鼎引擎,这是一种模型自动生产引擎,在中文权威的 FewCLUE 榜单上,这个引擎自动生产的模型已经击败了国内各个顶尖的算法专家所训练的模型,取得了冠军的成绩。

  A:首先,AI 要变成专业人员或者说人类的生产力工具。其次,就艺术而言,它其实是一个被技术影响最大的一个领域。回顾美术发展史,文艺复兴时首先出现了湿壁画,诞生了文艺复兴三杰。接下来很快就出现了油画技术,整个欧洲开始步入一个新时期。后来,由于颜料可以随身携带,从而艺术们可以从工作室走出步入乡间田野,印象派出现。

  我认为,对艺术最大的一次冲击应该是相机的诞生。但实际上,照片尽管极大冲击了肖像画这一类别,但同时也直接催生了另一个新的艺术门类——摄影艺术。这世界背后有无数的逻辑在推动某些事情发生,他就一定要发生,无法阻挡,也不必固守。

  技术的发展就是一个人类不断被‘异化’的过程,从互联网普及后,很多东西已经被‘异化’了。但同时,我们也会具备一些新能力,世界也因此变得更加丰富。人类具有很强的调试能力,并在其中发现新优势。

  A:我们希望让世界上每个人都能用 AI 创造自己的美好生活,希望 AIGC 技术彻底普及之后,每个人能通过它给自己创造各种美好的体验。