游戏中的生成式人工智能革命-Tesla

https://a16z.com/the-generative-ai-revolution-in-games/

要了解生成式 AI 将如何彻底改变游戏，只需看看@emmanuel_2m最近发布的Twitter 帖子。在这篇帖子中，他探讨了如何使用流行的 2D 生成式 AI 模型 Stable Diffusion + Dreambooth 为假设的游戏生成药水图像。

这项工作的变革性不仅在于它节省了时间和金钱，同时还保证了质量——从而打破了经典的“成本、质量或速度只能兼顾两个”的三角关系。艺术家现在只需几个小时就能创作出高质量的图像，而如果手工创作则需要数周时间。

真正具有变革意义的是：

现在，任何人只要学会一些简单的工具就可以获得这种创造力。

这些工具可以以高度迭代的方式创造出无数的变化。

一旦训练完成，整个过程就是实时的——几乎可以立即获得结果。

自实时 3D 以来，还没有出现过如此具有革命性的游戏技术。花点时间与游戏创作者交谈，兴奋和惊奇的感觉显而易见。那么这项技术将走向何方？它将如何改变游戏？不过，首先，让我们回顾一下什么是生成式 AI？

什么是生成式人工智能？

生成式人工智能是机器学习的一种，计算机可以根据用户的提示生成原创的新内容。如今，文本和图像是这项技术最成熟的应用，但几乎每个创意领域都在进行这项技术，从动画、音效到音乐，甚至创造具有丰满个性的虚拟角色。

当然，人工智能在游戏中并不是什么新鲜事。即使是早期的游戏，比如雅达利的 Pong，也有电脑控制的对手来挑战玩家。然而，这些虚拟的对手并不是我们今天所知道的人工智能。它们只是游戏设计师编写的脚本程序。它们模拟了人工智能对手，但它们无法学习，而且它们的水平只取决于创造它们的程序员。

现在的不同之处在于，得益于更快的微处理器和云计算，可用的计算能力更强。有了这种能力，就可以构建大型神经网络，识别高度复杂领域的模式和表征。

这篇博文分为两部分：

第一部分包括我们对游戏生成人工智能领域的观察和预测。

第二部分是我们的市场地图，概述了各个细分市场并确定了每个细分市场中的关键公司。

第一部分——观察与预测

假设

首先，让我们探讨一下这篇博文其余部分的一些假设：

1. 通用人工智能的研究数量将持续增长，创造出更有效的技术

请看一下arXiv 档案中每月发表的有关机器学习或人工智能的学术论文数量的图表：

如您所见，论文数量呈指数级增长，没有放缓的迹象。这还只是已发表的论文——许多研究甚至从未发表过，直接进入开源模型或产品研发。其结果是兴趣和创新的激增。

2. 在所有娱乐领域中，游戏将受到生成式人工智能的最大影响

就涉及的资产类型数量而言（2D 图像、3D 图像、音效、音乐、对话等），游戏是最复杂的娱乐形式。游戏也是互动性最强的娱乐形式，高度重视实时体验。这为新游戏开发商设置了很高的准入门槛，并且制作现代、排行榜前列的游戏的成本也很高。这也为生成式 AI 颠覆创造了巨大的机会。

以《荒野大镖客 2》为例，它是有史以来制作成本最高的游戏之一，制作成本接近 5 亿美元。原因显而易见——它拥有市面上所有游戏中最美丽、最完整的虚拟世界之一。它还花了近 8 年时间打造，拥有 1,000 多个非玩家角色（每个角色都有自己的个性、艺术作品和配音演员），世界面积近 30 平方英里，有 6 个章节中超过 100 个任务，以及由 100 多位音乐家创作的近 60 小时的音乐。这款游戏的一切都很大。

现在将《荒野大镖客 2》与《微软模拟飞行》进行比较，后者不仅规模大，而且规模庞大。《微软模拟飞行》让玩家能够飞越整个地球，即 1.97 亿平方英里的地球。微软是如何打造如此庞大的游戏的？通过让人工智能来做。微软与blackshark.ai合作，并训练人工智能从 2D 卫星图像生成逼真的 3D 世界。

这是一个不使用人工智能就无法构建的游戏示例，而且该游戏还受益于这些模型可以随着时间的推移不断改进的事实。例如，他们可以增强“高速公路立交桥”模型，重新运行整个构建过程，突然间整个星球上的所有高速公路立交桥都得到了改进。

3. 游戏制作中涉及的每项资产都将有一个生成式 AI 模型

到目前为止，Stable Diffusion 或 MidJourney 等 2D 图像生成器已经吸引了大部分人对生成式 AI 的兴趣，因为它们能够生成引人注目的图像。但几乎所有涉及游戏的资产都已经有了生成式 AI 模型，从 3D 模型到角色动画，再到对话和音乐。这篇博文的后半部分包含一个市场地图，重点介绍了一些专注于每种内容类型的公司。

4. 内容价格将大幅下降，在某些情况下甚至降为零

在与尝试将生成式 AI 集成到制作流程中的游戏开发者交谈时，他们最兴奋的莫过于时间和成本的大幅减少。一位开发者告诉我们，他们从头到尾为一张图片生成概念图的时间从 3 周缩短至 1 小时：时间缩短了 120 倍。我们相信整个制作流程都可以实现类似的节省。

需要明确的是，艺术家不会面临被取代的危险。这确实意味着艺术家不再需要自己做所有的工作：他们现在可以设定最初的创意方向，然后将大量耗时且技术性强的执行工作交给人工智能。在这方面，他们就像手绘动画早期的赛璐珞画家，其中技艺高超的“墨水画家”绘制动画轮廓，然后大批低成本的“画家”将完成耗时的绘制动画赛璐珞画、填充线条的工作。这是游戏创作的“自动完成”。

5. 我们仍处于这场革命的起步阶段，许多做法仍需完善

尽管最近有这么多令人兴奋的事情发生，但我们仍然只是站在起跑线上。我们还需要做大量的工作才能弄清楚如何将这项新技术应用于游戏，而那些迅速进入这一新领域的公司将获得巨大的机遇。

预测

基于这些假设，以下是有关游戏行业未来转型的一些预测：

1.学习如何有效地使用生成式人工智能将成为一项有市场价值的技能

我们已经看到一些实验者比其他人更有效地使用生成式人工智能。要充分利用这项新技术，需要使用各种工具和技术，并知道如何在它们之间切换。我们预测这将成为一种有市场价值的技能，将艺术家的创意视野与程序员的技术技能相结合。

克里斯·安德森有句名言：“每一次丰富都会产生新的稀缺。”随着内容变得丰富，我们相信，最短缺的是那些知道如何与人工智能工具进行最有效协作的艺术家。

例如，使用生成式人工智能制作艺术品面临着特殊的挑战，包括：

连贯性。对于任何制作资产，您都需要能够在以后对其进行更改或编辑。对于 AI 工具，这意味着需要能够使用相同的提示重现资产，以便您可以进行更改。这可能很棘手，因为相同的提示可能会产生截然不同的结果。
风格。一款游戏中的所有艺术作品都必须具有一致的风格，这一点很重要 — — 这意味着您的工具需要根据您既定的风格进行训练或与之挂钩。

2. 降低门槛将带来更多冒险和创造性探索

我们可能很快就会进入游戏开发的新“黄金时代”，进入门槛降低将导致更多创新和创意游戏的爆发。这不仅是因为较低的制作成本可以降低风险，还因为这些工具可以释放为更广泛受众创建高质量内容的能力。这引出了下一个预测……

3. 人工智能辅助的“微型游戏工作室”兴起

有了生成式 AI 工具和服务，我们将开始看到更多可行的商业游戏由只有 1 到 2 名员工的小型“微型工作室”制作。小型独立游戏工作室的想法并不新鲜——热门游戏Among Us是由只有 5 名员工的 Innersloth 工作室创建的——但这些小型工作室可以制作的游戏的规模和规模将会增长。这将导致……

4. 每年发布的游戏数量增加

Unity 和 Roblox 的成功表明，提供强大的创意工具可以创造更多游戏。生成式人工智能将进一步降低门槛，创造出更多游戏。该行业已经面临着发现挑战——仅去年一年就有超过10,000 款游戏加入 Steam——这将给发现带来更大压力。然而，我们还将看到……

5. 生成式人工智能出现之前不可能实现的新游戏类型

我们将会看到一些没有生成式人工智能就不可能诞生的新游戏类型。我们已经讨论过微软的飞行模拟器，但将会有全新的游戏类型诞生，这些游戏类型依赖于实时生成新内容。

以Spellbrush的 Arrowmancer为例。这是一款 RPG 游戏，以 AI 创建的角色为特色，几乎可以带来无限的新玩法。

我们还知道有另一家游戏开发商正在使用人工智能让玩家创建自己的游戏头像。以前，他们有一系列手绘头像图像，玩家可以随意组合来创建自己的头像——现在他们完全抛弃了这些，只是根据玩家的描述生成头像图像。让玩家通过人工智能生成内容比让玩家从头开始上传自己的内容更安全，因为人工智能可以接受训练以避免创建令人反感的内容，同时仍能让玩家有更强的主人翁感。

6. 价值将集中在行业特定的人工智能工具上，而不仅仅是基础模型

围绕稳定扩散和 Midjourney 等基础模型的兴奋和热议正在产生令人瞠目结舌的估值，但新研究的不断涌现确保了随着新技术的完善，新模型将不断出现和消失。考虑 3 个流行的生成式 AI 模型的网站搜索流量：Dall-E、Midjourney 和稳定扩散。每个新模型都会成为焦点。

另一种方法可能是构建与行业一致的工具套件，专注于特定行业的生成性 AI 需求，深入了解特定受众，并丰富地集成到现有的生产流程中（例如用于游戏的 Unity 或 Unreal）。

Runway就是一个很好的例子，它利用 AI 辅助工具（如视频编辑、绿屏移除、修复和运动跟踪）来满足视频创作者的需求。这类工具可以吸引特定受众并从中获利，并随着时间的推移增加新模型。我们尚未看到 Runway 等游戏套件的出现，但我们知道这是一个活跃的开发领域。

7. 法律挑战即将到来

所有这些生成式 AI 模型的共同点是，它们都使用大量内容数据集进行训练，这些数据集通常是通过抓取互联网本身创建的。例如，Stable Diffusion 就是使用从网络上抓取的超过 50 亿个图像/标题对进行训练的。

目前，这些模型声称其运作符合“合理使用”版权原则，但这一论点尚未在法庭上得到明确检验。显然，法律挑战即将到来，这可能会改变生成式人工智能的格局。

大型工作室可能会通过建立基于他们拥有明确权利和所有权的内部内容的专有模型来寻求竞争优势。例如，微软在这方面的优势尤为明显，目前拥有 23 个第一方工作室，在收购 Activision 后又拥有7 个。

8. 编程不会像艺术内容那样受到如此深刻的颠覆——至少目前不会

软件工程是游戏开发的另一项主要成本，但正如 a16z Enterprise 团队的同事在他们最近的博客文章《艺术并未消亡，只是机器生成的》中所分享的那样，使用 AI 模型生成代码需要更多的测试和验证，因此与生成创意资产相比，其生产率提升较小。Copilot 等编码工具可能会为工程师带来适度的性能提升，但不会产生同样的影响……至少在短期内不会。

建议

根据这些预测，我们提出以下建议：

1. 立即开始探索生成式人工智能

要想完全利用这场即将到来的生成式人工智能革命的力量，还需要一段时间。现在开始的企业将在以后占据优势。我们知道有几家工作室正在进行内部实验项目，以探索这些技术如何影响制作。

2. 寻找市场地图机会

我们的市场地图中有些部分已经非常拥挤，例如动画或语音和对话，但其他领域则开放广阔。我们鼓励对这个领域感兴趣的企业家将精力集中在尚未开发的领域，例如“游戏跑道”。

第二部分——市场地图

当前市场状况

我们绘制了一张市场地图，列出了我们在每个类别中发现的、我们认为生成式 AI 会对游戏产生影响的公司。这篇博文将逐一介绍这些类别，并对其进行更详细的解释，并重点介绍每个类别中最令人兴奋的公司。

2D 图像

根据文本提示生成 2D 图像已经是生成式 AI 应用最广泛的领域之一。Midjourney、Stable Diffusion 和 Dall-E 2 等工具可以根据文本生成高质量的 2D 图像，并且已在游戏生命周期的多个阶段应用于游戏制作。

概念艺术

生成式人工智能工具在“构思”方面非常出色，可以帮助非艺术家（如游戏设计师）快速探索概念和创意，从而生成概念图，这是制作流程的关键部分。例如，一家工作室（匿名）正在使用其中几种工具来大幅加快其概念艺术流程，仅用一天时间就能制作出一幅图像，而之前这幅图像需要长达 3 周的时间。

首先，他们的游戏设计师使用 Midjourney 来探索不同的想法并生成他们认为鼓舞人心的图像。
这些被交给一位专业的概念艺术家，他把它们组合在一起并在结果上进行绘制以创建一个单一的连贯的图像 - 然后将其输入到稳定扩散中以创建一系列变化。
他们讨论这些变化，选择一个，手动进行一些编辑 - 然后重复该过程，直到他们对结果满意为止。
在那个阶段，最后一次将该图像传回稳定扩散 (Stable Diffusion) 进行“升级”，以创作最终的艺术作品。

2D 制作艺术

一些工作室已经开始尝试使用相同的工具来制作游戏内艺术作品。例如，这里有一篇来自 Albert Bozesan 的精彩教程，介绍如何使用 Stable Diffusion 创建游戏内 2D 资源。

3D 艺术品

3D 资产是所有现代游戏以及即将到来的元宇宙的基石。虚拟世界或游戏关卡本质上只是 3D 资产的集合，这些资产被放置和修改以填充环境。然而，创建 3D 资产比创建 2D 图像更复杂，涉及多个步骤，包括创建 3D 模型和添加纹理和效果。对于动画角色，它还涉及创建内部“骨架”，然后在该骨架上创建动画。

我们看到有多家不同的初创公司正在研究 3D 资产创建流程的各个阶段，包括模型创建、角色动画和关卡构建。然而，这个问题尚未解决——目前还没有一种解决方案可以完全集成到生产中。

3D 资源

试图解决 3D 模型创建问题的初创公司包括Kaedim、Mirage和Hypothetic。一些规模较大的公司也在关注这个问题，包括 Nvidia 的Get3D和 Autodesk 的ClipForge。Kaedim和 Get3d 专注于图像转 3D；ClipForge 和 Mirage 专注于文本转 3D，而 Hypothetic 对文本转 3D 搜索和图像转 3D 都很感兴趣。

3D 纹理

3D 模型的真实度取决于应用于网格的纹理或材质。决定将哪种苔藓、风化的石头纹理应用于中世纪城堡模型可以完全改变场景的外观和感觉。纹理包含有关光线如何对材质做出反应的元数据（即粗糙度、光泽度等）。允许艺术家根据文本或图像提示轻松生成纹理对于提高创作过程中的迭代速度非常有价值。包括BariumAI、Ponzu和ArmorLab在内的多个团队正在寻求这一机会。

动画片

制作出色的动画是游戏制作过程中最耗时、最昂贵且最需要技巧的部分之一。降低成本并制作更逼真的动画的一种方法是使用动作捕捉，即让演员或舞者穿上动作捕捉服，并在专门配备的动作捕捉台上记录他们的动作。

我们现在看到的生成式人工智能模型可以直接从视频中捕捉动画。这要高效得多，因为它不仅消除了对昂贵的动作捕捉设备的需求，还意味着您可以从现有视频中捕捉动画。这些模型的另一个令人兴奋的方面是，它们还可用于将滤镜应用于现有动画，例如使它们看起来醉醺醺的、年老的或快乐的。涉足这一领域的公司包括Kinetix、DeepMotion、RADiCAL、Move Ai和Plask。

关卡设计和世界构建

游戏创作中最耗时的方面之一是构建游戏世界，而生成式人工智能应该非常适合这项任务。《我的世界》、《无人深空》和《暗黑破坏神》等游戏已经因使用程序技术生成关卡而闻名，这些关卡是随机创建的，每次都不一样，但遵循关卡设计师制定的规则。新虚幻 5 游戏引擎的一大卖点是其用于开放世界设计的程序工具集合，例如树叶放置。

我们已经看到了该领域的一些举措，例如Promethean、MLXAR或 Meta 的Builder Bot，并且认为生成技术在很大程度上取代程序技术只是时间问题。该领域已经有一段时间的学术研究，包括Minecraft 的生成技术或Doom 中的关卡设计。

期待生成式 AI 工具用于关卡设计的另一个令人信服的理由是，它能够创建不同风格的关卡和世界。你可以想象让工具生成一个 20 世纪 20 年代的纽约世界，或一个反乌托邦的银翼杀手式未来世界，或一个托尔金式的奇幻世界。

Midjourney 使用提示“游戏级别风格为...”生成了以下概念。

声音的

声音和音乐是游戏体验的重要组成部分。我们开始看到公司使用生成式人工智能来生成音频，以补充图形方面已经进行的工作。

声音特效

音效是人工智能的一个有吸引力的开放领域。已经有学术论文探讨使用人工智能在电影中生成“拟音”（例如脚步声）的想法，但在游戏中却很少有商业产品。

我们认为这只是时间问题，因为游戏的交互性质使其成为生成式人工智能的明显应用，既可以在制作过程中创建静态音效（“星球大战风格的激光枪声音”），也可以在运行时创建实时交互式音效。

考虑一些简单的事情，比如为玩家角色生成脚步声。大多数游戏通过包含少量预先录制的脚步声来解决这个问题：在草地上行走、在砾石上行走、在草地上奔跑、在砾石上奔跑等。这些声音的生成和管理非常繁琐，运行时听起来重复且不真实。

更好的方法是使用实时生成的拟音 AI 模型，该模型可以动态生成适当的音效，每次都略有不同，以响应游戏中的参数，例如地面、角色体重、步态、鞋类等。

音乐

音乐一直是游戏面临的挑战。音乐很重要，因为它可以帮助设定情感基调，就像电影或电视中一样，但由于游戏可能持续数百甚至数千小时，音乐很快就会变得重复或令人厌烦。此外，由于游戏的互动性，音乐很难在任何特定时间与屏幕上发生的事情精确匹配。

自适应音乐是游戏音频领域二十多年来的一个主题，可以追溯到微软用于创建互动音乐的“ DirectMusic ”系统。 DirectMusic 从未得到广泛采用，主要是因为这种格式的作曲难度很大。只有少数游戏，如 Monolith 的《无人永生》 (No One Lives Forever)，创作了真正互动的配乐。

现在我们看到许多公司都在尝试创作人工智能生成的音乐，例如Soundful、Musico、Harmonai、Infinite Album和Aiva。虽然当今的一些工具（如Open AI 的Jukebox）计算密集度高且无法实时运行，但大多数工具在初始模型构建后都可以实时运行。

演讲和对话

有大量公司试图为游戏角色创建逼真的声音。鉴于人们通过语音合成为计算机发声的尝试历史悠久，这并不奇怪。这些公司包括Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai等等。

使用生成式人工智能进行语音处理具有多个优点，这在一定程度上解释了为什么这个领域如此拥挤：

即时生成对话。游戏中的语音通常是由配音演员预先录制的，但这些仅限于预先录制的预录语音。借助生成式 AI 对话，角色可以说任何话，这意味着他们可以完全响应玩家的行为。结合更智能的 NPC AI 模型（超出了本博客的范围，但目前同样令人兴奋的创新领域），完全响应玩家的游戏承诺即将到来。
角色扮演。许多玩家希望扮演与现实世界中身份毫无相似之处的幻想角色。然而，一旦玩家用自己的声音说话，这种幻想就会破灭。使用与玩家角色相匹配的生成声音可以维持这种幻想。
控制。生成语音时，您可以控制语音的细微差别，如音色、语调、情感共鸣、音素长度、重音等。
本地化。允许将对话翻译成任何语言并以相同的声音朗读。像Deepdub这样的公司专门专注于这一领域。

NPC 或玩家角色

许多初创公司正在考虑使用生成式人工智能来创造可以与之互动的可信角色，部分原因是这个市场在游戏之外具有广泛的适用性，例如虚拟助手或接待员。

创造可信角色的努力可以追溯到人工智能研究的初期。事实上，人工智能的经典“图灵测试”的定义是，人类应该无法区分与人工智能和人类的聊天对话。

目前，已有数百家公司在开发通用聊天机器人，其中许多都采用了类似 GPT-3 的语言模型。少数公司专门尝试开发娱乐目的聊天机器人，例如Replika和Anima正在尝试创建虚拟朋友。电影《她》中探讨的与虚拟女友约会的概念可能比你想象的更近。

我们现在看到了这些聊天机器人平台的下一代迭代，例如Charisma.ai、Convai.com或Inworld.ai，旨在为完全渲染的 3D 角色提供情感和代理，并提供工具让创作者为这些角色设定目标。如果要让它们融入游戏或在推进剧情发展中占有一席之地，而不是纯粹作为装饰，这一点很重要。

一体化平台

最成功的生成式 AI 工具之一是Runwayml.com，因为它将一系列创作者工具整合到一个软件包中。目前还没有这样的平台为视频游戏提供服务，我们认为这是一个被忽视的机会。

我们愿意投资具有以下特点的解决方案：

涵盖整个生产过程的全套生成 AI 工具。（代码、资产生成、纹理、音频、描述等）
与 Unreal 和 Unity 等流行游戏引擎紧密集成。
设计旨在适应典型的游戏制作流程。

结论

这是成为游戏创作者的绝妙时代！部分得益于这篇博文中描述的工具，生成构建游戏所需的内容从未如此简单 - 即使您的游戏与整个星球一样大！

甚至有一天，我们甚至可以想象一款完全个性化的游戏，专为玩家打造，完全基于玩家的需求。这种游戏在科幻小说中已经存在很长时间了——比如《安德的游戏》中的“人工智能思维游戏”或《星际迷航》中的全息甲板。但随着这篇博文中描述的工具飞速发展，不难想象这种现实即将实现。

如果您是创始人或潜在创始人，有兴趣创建一家游戏 AI 公司，请联系我们！我们想听听您的意见！

游戏中的生成式人工智能革命