原文:Generative AI: A Creative New World
译者:Evelyn|W3.Hitchhiker
一类强大的新型大型语言模型正在使机器有可能以可信的、甚至有时是超人类的结果来书写、编码、绘画和创造。
人类善于分析事物。但机器可能做的更好。机器可以分析一组数据,并在其中找到模式,用于多种用途,无论是欺诈或是垃圾邮件的检测,预测你的快递的 ETA,还是预测下一步该给你看哪个 TikTok 视频,等待。它们在这些工作上变得越来越聪明。这样的机器被称为 "分析型 AI",或传统 AI。
但人类不仅擅长分析事物,也擅长创造。我们写诗、设计产品、制作游戏以及编写代码。直到最近,机器还没有机会在创造性工作方面与人类竞争(因为它们的行为被归为分析和死记硬背的认知劳动)。但是,机器才刚刚开始善于创造有意义和美丽的东西。这一新类别被称为 "生成型 AI",意味着机器正在生成新的东西,而不是分析已经存在的东西。
生成型 AI 正在不断改变,不仅只是更快、更便宜,同时也在某些情况下创造的东西可能比人类手工创造的更好。每一个需要人类创造原创作品的行业(从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从营销到销售)都有可能被它们重新来过。某些功能可能会被生成型 AI 完全取代,而其他功能则更有可能在人类和机器之间紧密的迭代创造周期中茁壮成长,但生成型AI应该在广泛的终端市场中释放出更好、更快、更便宜的创造力。我们对此的梦想是,生成型 AI 将创造和知识工作的边际成本降至零,产生巨大的劳动生产率和经济价值,以及相应的市场容量。
生成型 AI 所涉及的领域(知识工作和创造性工作)覆盖着数十亿的工人。生成型AI可以使这些工人的效率和/或创造性至少提高 10%:他们不仅变得更快、更有效,而且比以前有更强的能力。因此,生成型 AI 有可能产生数万亿美元的经济价值。
为什么是现在?
生成型 AI 与更广泛的 AI 都有着相同的 "为什么是现在"的疑虑:更好的模型,更多的数据,更大的计算。这个类别的变化比我们所能捕捉到的要快,但也值得我们来概括性地回顾一下最近的历史,以便把当前的时刻也放在背景中。
浪潮 1:小型模型至上(2015 年之前)。
5 年多以前,小型模型被认为是理解语言的 "最先进的技术"。这些小型模型擅长分析任务,并被部署在从预测交付时间到欺诈分类的工作中。然而,对于普遍的生成任务来说,它们的表达能力还不够强。生成人类水平的写作或代码仍然只能是一个梦想。
浪潮 2:规模竞赛(2015 - 今天)。
谷歌研究院有一篇里程碑式的论文(Attention is All You Need),描述了一种用于自然语言理解的新型神经网络架构,称为 transformers,它不仅可以生成质量上乘的语言模型,同时还具有更高的可并行性,需要的训练时间也大大减少。这些模型是少数的学习者,因此可以相对容易地针对特定领域进行定制。
(随着 AI 模型逐渐变大,它们已经开始超越人类的主要性能基准。SOURCES: © THE ECONOMIST NEWSPAPER LIMITED, LONDON, JUNE 11TH 2022. ALL RIGHTS RESERVED; SCIENCE.ORG/CONTENT/ARTICLE/COMPUTERS-ACE-IQ-TESTS-STILL-MAKE-DUMB-MISTAKES-CAN-DIFFERENT-TESTS-HELP)
当然,随着模型越来越大,它们开始提供与人类相当的水平能力,然后是超人类的成果。从 2015 年到 2020 年,用于训练这些模型的计算量增加了 6 个数量级,其成果在手写、语音和图像识别、阅读理解和语言理解方面超过了人类性能的基准。OpenAI 的 GPT-3 脱颖而出:该模型的性能不仅比 GPT-2 有了巨大的飞跃,并且在他们提供的充满吸引力的 Twitter 演示中也能看出,不管是在代码生成还是冷笑话写作等任务上,它的表现都令人大开眼界。
尽管所有的基础研究都取得了进展,但这些模型并未得到普遍应用。它们体积庞大,难以运行(需要 GPU 协调),不能广泛使用(不可公用或仅有封闭测试版),而且作为云服务使用的费用昂贵。尽管有这些限制,但最初的生成型AI应用也开始进入“战场”。
浪潮3:更好、更快、更便宜(2022 +)。
计算变得更便宜。新技术,如扩散模型,缩减了训练和运行推理所需的成本。研究界也在继续开发更好的算法和更大的模型。同时开发者的权限也从封闭测试版扩大到开放测试版,甚至在某些情况下,还开放了源代码。
对于那些一直对大型语言模型(LLM)的使用较少的开发者来说,那么现在就是探索和应用开发的闸门大大开放的时候,各色应用也开始绽放。
(用midjourney生成的插图)
浪潮 4:杀手级应用的出现(现在)。
随着平台层开始巩固,模型继续变得更好、更快、更便宜,以及模型的访问 / 使用趋向于免费和开源,应用层的创造力爆发的时机已经成熟。
正如移动通信通过 GPS、相机和随身连接等新功能催生出了新类型的应用,我们预计这些大型模型将激励新一波生成型 AI 应用的诞生。正如十年前移动通信的拐点为少数几个杀手级应用创造了一个市场缺口一样,我们预计杀手级应用也将出现在生成型AI当中。如今,比赛正在激烈进行当中。
市场格局
下面是一个示意图,描述了将为每个类别提供动力的平台层,以及将建立在其上的潜在应用类型。
模型
文本:文本是最先进的领域。然而,语言表达自然流利却是很难做好的,而且质量也很重要。今天,这些模型在普遍的短篇/中篇写作方面还算不错(但即便如此,它们通常也被用于迭代完善或生成初稿)。随着时间的推移,随着模型变得更好,我们应该期望看到更高质量以及更长篇的内容输出,除此外,针对各垂直领域能够更好的进行优化调整。
代码生成:如 GitHub CoPilot 所示,代码生成很可能在短期内对开发者的生产力产生很大影响。它也将使非开发者更容易获得对代码的创造性使用。
图像:图像是一个较新的现象,但它们已经开始像病毒一样的疯狂传播:在 Twitter 上分享生成的图像比文字要有趣得多。我们也看到许多具有不同审美风格的图像模型的出现,以及编辑和修改生成图像的不同技术。
语音合成:语音合成已经存在了一段时间(比如:你好,Siri!),但消费者和企业应用才刚刚起步。对于像电影和播客这样的高端应用来说,要想一次性获得听起来不那么机械的人类质量的语音,其标准是相当高的。但就像图像一样,今天的模型为进一步完善或为实用性应用的最终输出提供了一个起点。
视频和 3D 模型:视频 3D 模型领域正在迅速崛起。人们对这些模型在这一创意市场中具有的无限潜力而感到兴奋,如电影、游戏、VR、建筑和物理产品设计。研究机构也正在发布基础的 3D 和视频模型。
其他领域:许多领域都在进行基础模型的研发,从音频和音乐到生物和化学(任何人都可以生成蛋白质和分子?)
下面的图表说明了我们可能期望看到的基础模型的进展和相关的应用成为可能的时间表。2025 年及以后只是一个猜测。
应用
以下文字描述的是一些令我们感到兴奋的应用场景。这一页上的应用远比我们所记录的要多,我们对创始人和开发者所梦想的创造性应用感到兴奋。
文案写作:对个性化网络和电子邮件内容的需求日益增长,进一步促进销售和营销策略以及客户支持,这些都是语言模型的完美应用。简短的形式和风格化的言语,加上这些团队的时间和成本压力,应该推动对自动化和增强型解决方案的需求。
垂直特定领域的写作助手:今天的大多数写作助手是横向的;我们相信有机会为特定的终端市场建立更好的生成型应用,从法律合同写作到编剧。这里的产品差异化在于对特定工作流程的模型和用户体验模式进行微调。
代码生成:目前的应用为开发者提供了极大的动力,使他们的工作效率大大提升。GitHub Copilot 现在在安装它的项目中生成了近 40% 的代码。但更大的机会可能是为普通消费者打开了编码的通道。提示学习(Learning to prompt)可能成为最终的高级编程语言。
艺术生成:整个世界的艺术史和流行文化现在被编码在这些大型模型中,允许任何人随意探索以前需要用一生才能掌握的主题和风格。
游戏:理想的模式是使用自然语言来创建复杂的场景或可操纵的模型;这种最终状态可能还很遥远,但有一些更直接的选择在短期内更可操作,如生成纹理和天空盒(skybox)艺术。
媒体/广告:想象一下将代理工作自动化的潜力,并为消费者优化广告文案和创意。在这里,多模式生成的机会很大,可以将销售信息与互补的视觉效果配对。
设计:数字和实物产品的原型设计是一个劳动密集型且不断反复的过程。从粗略的草图和文字提示中来实现高保真渲染图已经成为现实。随着 3-D 模型的出现,生成设计的过程将朝着制造和生产(从文字到物体)方向延伸。在未来,你的下一个 iPhone 应用或运动鞋可能是由机器设计的。
社会媒体和数字社区:是否会有人借助 AI 生成的新方式来自我表达呢?像 Midjourney 这样的新应用正在创造新的社交体验,因为消费者能够学习使用这项工具在公共场合进行创作和表达。
(用midjourney生成的插图)
生成型 AI 应用的剖析
生成型 AI 应用会是什么样子?这里有一些预测。
智能化和模型微调
生成型 AI 应用是建立在 GPT-3 或 Stable Diffusion 等大型模型之上的。随着这些应用不断获得更多的用户数据,他们可以对模型进行微调,从而:1)为他们的特定问题领域提高模型质量/性能;2)减少模型尺寸/成本。
我们可以把生成型 AI 应用看作是一个 UI 层和 "小脑",它位于大型通用 AI 模型这个 "大脑 "之上。
形式因素
今天,生成型 AI 应用程序在很大程度上是作为现有软件生态系统的插件存在的。代码完成运行在你的 IDE 中;图像生成发生在 Figma 或 Photoshop 中;甚至 Discord 机器人也是将生成型 AI 注入数字/社交社区的一个理想容器。
还有少数独立的生成型 AI 网络应用,如用于文案写作的 Jasper 和 Copy.ai,用于视频编辑的 Runway,以及用于笔记的 Mem。
插件可能是一个有效的楔子,一方面可以引导你使用自己的应用程序而不需要引入新的应用,另一方面它也以一种聪明的方式来避免了用户数据和模型质量的鸡和蛋的问题(你需要获得足够的使用量数据来改善你的模型;你需要好的模型来吸引用户)。我们已经看到这种分销策略在其他市场类别中得到了回报,如消费者/社会。
交互范式
今天,大多数生成型 AI 演示都是 "一劳永逸 "的:你提供一个输入,机器吐出一个输出,你可以保留它,或者把它扔掉再试。越来越多的模型在不断迭代,也在变得更加强大,未来,你可以对输出的作品进行修改、完善、提升和产生变化等操作。
今天,生成型 AI 的产出能力被用作生产原型或初稿。应用程序很擅长吐出多个不同的想法,让人们的创意过程也得以进行(例如,标志或建筑设计的不同选项),它们也很擅长提出需要用户微调才能达到最终状态的初稿(例如,博客文章或代码自动完成)。随着模型变得更加智能,其中部分也需要依靠用户数据,我们可以期待这些初稿会变得越来越好,直到它们好到可以作为最终产品使用。
持续的类别领先
最好的生成型 AI 公司可以通过在用户参与、更多数据和模型性能之间的飞轮而产生持续的竞争优势。要想获胜,团队必须通过以下方式让这个飞轮运转起来:1)拥有卓越的用户参与度→ 2)将更多的用户参与度转化为更好的模型性能(提示改进、模型微调、用户行为作为标记的训练数据)→ 3)利用优秀的模型性能来推动更多的用户增长和留存。他们可能会进入特定的问题领域(例如,代码、设计、游戏)来发展,而不是试图成为覆盖所有人的一切。他们可能会首先深入整合到目前人们的应用程序中,从而实现分发和利用自己的程序,然后尝试用 AI 原生工作流程取代现有的应用程序。用正确的方式建立这些应用程序来积累用户和数据需要时间,但我们相信最好的应用程序将是持久的,并有机会成为大规模的。
障碍和风险
尽管生成型 AI 潜力无限,但在商业模式和技术方面仍有许多问题需要解决。有关版权、信任、安全以及成本等重要问题还远未解决。
开阔视野
生成型 AI 仍然是非常早期的。平台层刚刚有了起色,而且应用空间也刚刚开始起步。
说白了,我们不需要大型语言模型的生成型 AI 来写一部托尔斯泰的小说。这些模型今天已经足够好,可以写出博客文章的初稿,并生成标识和产品界面的原型。有大量的价值创造将在近期至中期内发生。
第一波生成型 AI 应用类似于 iPhone 刚问世时的移动应用景观(有些噱头和单薄,竞争差异化和商业模式不明确)。然而,这些应用中有一些提供了对未来可能出现的有趣一瞥,让我们有了方向。一旦你看到机器产生复杂的功能代码或出色的图像,就很难想象未来机器不会在我们的工作和创造中发挥根本作用。
如果我们允许自己做几十年的梦,那么就很容易想象出这样一个未来:生成型 AI 已经深入到我们的工作、创造和娱乐中:备忘录可以自己写;3D 打印能打印出任何你能想象到的东西;从文字到皮克斯电影;类似 Roblox 的游戏体验,在我们能想象出它们的时候就能快速生成丰富的世界。虽然这些体验在今天看起来像科幻小说,但科技进步的速度是令人难以置信的,我们在几年内从渺小的语言模型到代码自动完成,如果我们继续沿着这种变化的速度并遵循 "大型模型摩尔定律",那么这些遥不可及的场景可能会变的触手可及。