2023-关于3D AIGC的务实探讨

原文地址

NeRF基础概念

NeRF（Neural Radiance Field，即神经辐射场）就是将它们付诸现实的关键技术。它可以通过多角度拍摄的场景图像，重构出场景的3D表示，进而生成场景在任意视角和位置下的图片（新视角合成）。

近两年，NeRF技术已经成为计算机视觉的热门领域，从2020年Mildenhall等人奠基性的工作NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis开始，NeRF领域如火山爆发般产生了许多后续研究，特别是最近的改进工作Instant NGP (Instant Neural Graphics Primitives)更是被时代杂志列为了2022年最佳发明之一。

和之前的研究相比，上面提到的NeRF和Instant NGP两篇论文取得的重大突破是：

NeRF可以获得场景的高精度表示，从新角度渲染的图片十分逼真；
在NeRF工作的基础上，Instant NGP大大缩短了训练和渲染时间，训练时间被缩短到一分钟以内，并且很容易做到实时渲染。

简单地说，神经辐射场就是把整个3D场景编码为神经网络的参数。为了能从任意新的视角渲染场景，神经网络至少需要学习空间中每个点的RGB颜色和体密度$\sigma$（即这个点有没有被“占据”）。一点处的体密度与视角是无关的，但颜色是会随着视角变化而改变的（比如换个角度看到的物体就变了），所以神经网络实际上需要学习一个点$(x,y,z)$在相机不同视角$(\theta,\phi)$即经纬度）下的颜色$(r,g,b)$和体密度$\sigma$。

于是神经辐射场的输入是五维向量$(x,y,z,\theta,\phi)$，输出是四维向量$(r,g,b,\sigma)$：

假设我们拥有了这样一个神经辐射场，将空间中每个点对应的$(r,g,b,\sigma)$进一步送到体渲染中，就可以得到当前视角$(\theta,\phi)$下视角看到的2D图像（体密度(volume rendering)的概念在图形学中常用在云、烟雾等介质的渲染中，它表示当一条光线穿过该点时，这个点有多大的概率会挡住光线。体密度衡量了这个点对光线最终颜色的贡献权重）。

体渲染

NeRF训练和渲染的核心步骤是体渲染技术(volume rendering)。体渲染可以把神经场“拍平”成一张2D图像，从而可以和基准图像进行比较。这个过程是可微的，从而可以用来训练网络！在介绍体渲染之前，先了解一下相机成像的基本原理。在图形学中，为了节约计算资源，会假设从相机发出的光线在击中场景中的点之后，该点的颜色就是光线与屏幕交点处像素的颜色：

然而在渲染大气、烟雾等类似介质时，光线会穿过介质而不是仅仅在介质表面处停止。而且在光线前进的过程中，会有一定比例的光线被介质吸收掉（不考虑散射和自发光）。吸收光线的这部分介质会对光线的最终颜色有贡献。体密度高的地方吸收的光线就多，这部分介质的颜色就显得浓重。所以光线最终的颜色是光线沿途经过的点的颜色的积分。

在实际计算时我们需要用离散和来逼近积分值。也就是在光线上采集一些离散点，将它们的颜色加权求和。这个离散化的具体过程我们就不介绍了，大家可以去看比如上面图片链接中的讲解。

NeRF的训练

有了神经场和体渲染的预备知识，我们来介绍NeRF的训练。整个过程分为五步，如下图所示：

1.[Camera paramertes]在准备好一组拍摄的2D图像后，首先解算每张图像对应的相机位姿参数。这一步可以使用如COLMAP等现成工具。COLMAP会匹配不同图像中出现的场景共同点来计算相机位姿。此外我们假设整个场景位于范围是$[-1,1]^3$的立方体盒子内。

2.[3D point sampling]对一张真实图像，从相机发出一条光线，光线穿过图像进入场景。光线和图像的交点$p$的像素值$I(p)$是基准颜色。我们在这条光线上离散采样得到若干个点。把这些采样点的空间坐标$(x,y,z)$和第一步解算出的对应的相机的姿态$\theta,\phi$组合起来作为神经网络的输入。

3.[NeRF model]通过神经网络预测光线上每个采样点的颜色和密度。

4.[Rendering]通过体渲染，我们可以用上一步神经网络输出的采样点的颜色和密度作离散和，近似计算对应光线的像素值$\hat{I}(p)$。

5.[Photometric loss]把$\hat{I}(p)$和光线颜色的真值$I(p)$比较计算误差和梯度，就可以对神经网络进行训练。

Instant NGP的改进

原始版本的NeRF给出的效果已经十分惊艳，但它的训练速度较慢，通常需要一到两天左右。这里主要的原因是NeRF使用的神经网络还是有点“大”了，2022年NVIDIA的论文Instant NGP大大改进了这一点。Instant NGP相对于NeRF的核心改进在于它采用了“多分辨率哈希编码” (Multi-resolution hash encoding)的数据结构。你可以理解为Instant NGP把原始NeRF中神经网络的大部分参数扔掉，换成一个小得多的神经网络；同时额外训练一组编码参数(feature vectors)，这些编码参数是存储在网格的顶点上的，这样的网格一共有$L$层，它们按照分辨率从低到高，用于学习场景不同层次的细节。在每次训练时，小神经网络的参数和每层网格上只有点$(x,y,z)$周围的8个顶点中的编码参数会被更新。

Instant NGP的另一个重要的工程优化是将整个网络实现在一个CUDA kernel中(Fully-fused MLP)，使得网络的所有计算都在GPU的local cache中进行。据论文所称这会带来10x的效率提升。

选择一个好问题

2D AIGC基本上只有一种选择：生成图片。但是3D资产比2D内容复杂，因为3D资产有很多种：模型、贴图、骨骼、（关键帧）动画等等。这里我们只考虑最主流的资产，也就是3D模型。而3D模型的表示又分为网格（Mesh）、体素（Voxel）、点云、SDF、甚至上文提到的NeRF等等。一旦考虑到实际落地到渲染管线中，基本上只有一种主流表示可以选择：Mesh。

从CG工作流程来看，从文字生成3D模型分两步：

AI建模：给定文字输入，产出3D白模（即无贴图的模型）；
AI画贴图：给定文字和白模，画上diffuse贴图或者PBR贴图组合（base color, metallic, roughness等）。

从工业生产可控性的角度来说，用户会希望两步能够分离。而在学术界，大家更喜欢一步到位，对于可控性和PBR追求不高。

学术研究

学术界通常不太考虑AI建模和AI贴图的分离，往往会一步到位，输入文字，得到带贴图的3D模型。这部分工作有两个“流派”，下面我简单梳理一下。

“原生3D派”

这一流派的特点是直接在ShapeNet等3D数据集上进行训练，从训练到推理都基于3D数据。一些有趣的工作如下：

3D-GAN是NIPS 2016比较经典的早期工作了。比较直观，就是GAN的3D版本，以voxel为单位，生成3D模型。用ShapeNet dataset，输入是一个Gaussian noise，2016年的时候还没实现text conditioning。

GET3D：通过differentiable rasterizer (NVDiffRast)加上类似GAN的架构，分别生成mesh和texture，质量看起来也挺不错的，后面也会提到differentiable rasterizer会是3D AIGC很重要的基础算法。

这一类基于3D数据的工作还包括TextCraft （实现了text conditioning）、AutoSDF等等。这类方法生成速度往往较快，但是也有比较直接的问题：由于3D数据集往往相对LAION等巨型数据集都小至少3个数量级（后续有讨论），这一类方法比较难实现数据多样性。比如说，生成数据集中存在的汽车、家具、动物等完全没问题，但是生成需要“想象力”的模型，比如 “一只骑在马背上的兔子”、“带着皇冠的鹦鹉”、“手持大锤、生气的牛头怪” 等，就比较有挑战了。由于Stable Diffusion等2D AIGC模型的想象力完全可以描述后者，用户自然也会期待在3D空间的AIGC也能做到类似的效果：给出各种奇奇怪怪的文字，AI能够得到高质量的3D模型。这种“想象力”（本质上是在多样的训练数据集中插值）是AIGC的核心价值所在，但是目前3D数据集却较难提供。

“2D升维派”

既然3D数据集无法满足数据多样性的要求，不妨曲线救国，借助2D生成式AI的想象力，来驱动3D内容的生成。这个流派的工作在最近乘着Imagen、Stable Diffusion等2D AIGC基础模型的突破取得了很多进展，因此本文着重讨论。

OpenAI Point·E:只需要1-2分钟就可以在单块GPU上生成点云。第一步是以文字为输入，用2D diffusion模型（选择了GLIDE）生成一张图片，然后用3D点云的diffusion模型基于输入图片生成点云。

DreamFusion：很有意思的工作，大体思路是通过2D生成模型（如Imagen）生成多个视角的3D视图，然后用NeRF重建。这里面有个“鸡生蛋蛋生鸡”的问题：如果没有一个训练得比较好的NeRF，Imagen吐出的图会视角之间没有consistency；而没有consistent的多视角图，又得不到一个好的NeRF。于是作者想了个类似GAN的方法，NeRF和Imagen来回迭代。好处是多样性比较强，问题也比较明显，因为需要两边来回迭代15,000次，生成一个模型就需要在4块TPUv4上训练1.5小时。

Magic3D: DreamFields的升级版本，巧妙之处在于将重建过程分为了两步。第一步仅采用NeRF（具体来说，是上一篇提到的InstantNGP）进行比较粗糙的模型重建，第二步则采用一个可微的光栅化渲染器。NeRF比较适合从0到1、粗糙重建，更多的表面细节还需要更加特定的算法，比如说differentiable rasterizer。

目前DreamFusion / Magic3D这一类算法的性能瓶颈有两点：一是NeRF，二是依赖的Imagen / e-diffI SD等2D生成模型。如果沿着这个算法思路进行优化，可能有下面两点机会：

NeRF是否是最佳的differentiable renderer?从直觉上来说，并不是。NN在NeRF中一开始只是作为一个universal function approximator，如Plenoxel等工作其实说明了NN在NeRF中甚至不是必要的。还有个思路是直接不用NeRF，直接用differentiable rasterizer，比如说nvdiffrast，一方面能够提速，另一方面由于直接在三角网格上优化，能够避免NeRF的结果转化到生产过程中需要用的三角网格的损失。
2D生成式模型，如Stable Diffusion生成速度如果能够更快，那么对提速会相当有价值。GigaGAN让我们看到了希望，生成512x512的图只需要0.13s，比SD快了数十倍。

当然，SDF也是可微性（differentiability）比较好的一种表示。Wenzel Jakob组在这方面有一篇很棒的工作，重建质量非常棒，不过还没有和AIGC结合：

Differentiable Signed Distance Function Rendering

另外，除了生成通用资产，数字人的生成也是一个独立的有科研、商业价值的方向。影眸科技做的ChatAvatar、MSRA的Rodin，都是最近有代表性的工作。

数据、算法、算力，谁更重要？

在AI领域一直有“数据、算法、算力三要素”的说法，这里我们讨论一下对于3D AIGC这三要素的重要性排序。

数据：目前3D AIGC比较大的一个问题是3D的数据集（ShapeNet有51 K模型、Objaverse有800+K、商业模型网站SketchFab有5M）和2D的LAION的5B数量级的数据差了至少三个数量级，并且这个状况很可能短时间不太容易改变，因为3D数据天然的稀缺性、收集的难度等客观原因。况且，就算收集到了大量数据，如何无损地把他们喂给深度学习系统，也是一个悬而未决的问题。
算法：这里面比较核心的算法是differentiable renderer，目前看更像是differentiable rasterizer。另外，效果比较好的工作基本上都有multiscale的特性，比如从NeRF到coarse mesh再到fine mesh逐级优化，一方面跳过local minima，另一方面加快优化速度，具体如何设计这些stages，为算法研发者留下了空间。换个角度，生成2D 512x512的图片开销尚能接受，如果不去想好的算法，直接暴力扩展到3D，变成512x512x512，这个计算量是非常可怕的。
算力：3D AIGC会在训练、推理两部分都需要算力。基于前面的假设，3D AIGC目前看来还是会基于2D的基础模型，如Stable Diffusion，加上并没有真正大规模的3D数据集，3D AIGC的训练部分其实并不需要除了fine-tune 2D模型以外的大量算力。在“推理”部分，目前主流的做法都依赖于differentiable renderer，如果要提高这部分的性能，常见的写法是手写CUDA，并且手动写出对应的gradient kernels。而一个可微分的SIMT编程系统会显著加速相关的研发、提高正确性。（打个广告，这一点上看，Taichi确实有一定的优势:-）

综上，我认为对于3D AIGC，算法>算力>数据。这意味着3D AIGC需要对计算机图形学、人工智能、可微编程框架等问题比较有洞见的团队来攻关。虽然学术界不断有激动人心的进展，AI建模、画贴图要落地依然是很有挑战的。一是目前的技术依然不够成熟，无法达到工业生产的标准，甚至有很远的距离；二是市场方面的风险依然存在。后面我们会着重讨论。

商业落地

学术研究和商业落地中间存在着鸿沟，要跨过这个鸿沟，还有大量要考虑的产品化和商业化问题。其中最关键的问题无非是如下几点，直接决定产品是否能够有Product-market fit (PMF)：

到底解决了谁的问题？第一批用户是谁？（用户是谁？）
采购决策者是否有动力采用？（客户是谁？)
一个单一产品是否可以解决3D内容创作者的一个比较通用的问题？（能否标准化？是否scalable？开发产品的ROI如何？是否能够真正成就一家产品公司，而不是项目公司？）
是否已有解决方案，如素材库、资产外包公司、程序化生成工具Houdini？切换成本多高？（竞品是谁？）
商业模式是什么？SaaS？按量计费还是订阅制？GPU成本如何？毛利能否做到令人满意的水平？
渠道是什么？PLG、SLG？
先发者的护城河在哪里？是更早转起来的数据飞轮，还是算法、产品力等？

落地场景

从市场角度，3D资产的最大消耗者就是游戏产业。2022年全球游戏行业营收是$~200 B，比影视（$26B）、建筑可视化、产品渲染等大不少。国内游戏市场规模（2022年为2650亿RMB）约为全球的1/5，3D各行业占比与全球类似。

具体比较游戏与影视行业：游戏行业中，不少重资产品类（如3D MMORPG）研发成本的1/3~1/2用于美术，而美术开销中又有1/2以上是3D资产开销。影视行业中虽然也有特效镜头需要用到3D资产，但其中灯光、合成等环节却是比3D资产更大的开销。因此，游戏行业中的3D资产比重，要比影视大不少。

考虑到游戏市场整体比影视等其他市场大，而其中的3D资产占研发费用的比例又比其他市场更高，我们优先集中讨论3D AIGC在游戏行业的应用。这里又有两种：

面向专业的游戏美术。这边的主要挑战是游戏生产对于资产的质量要求是极高的，要做到质量达标，目前看来技术风险很大。
直接面向用户（UGC场景)。质量要求会相对低一些。但是这里的问题是，和2D资产（图片）不一样，大众并不能直接消费3D资产，必须有一个好的场景。而UGC游戏是一个比较不错的场景。为玩家提供丰富创造自由度、并且创造巨大商业价值的游戏有很多，比如Minecraft（史上销售份数最多的游戏）、Roblox（目前市值~$30B）、Fortnite（~$6B revenue）等。

技术风险

3D AIGC何时才能在生产中变得实用？说实话，这一点非常难预测：按照2D AIGC近期的发展速度，3D AIGC也许一两年就能做到同等的质量；但是毕竟3D AIGC比2D要困难得多，如果说5年内没法实现，也完全有这个可能性。那么，生产环境可用（production-ready）的AIGC到底意味着什么？我个人认为要在现有工作的基础上（以目前的text-to-3D SOTA Magic3D举例），做到以下三点本质提升：

i.质量好10倍（网格和纹理）

网格方面，在游戏资产需要有比较好的topology（布线等）、UV分布，对面数（poly count）也有较为严格的限制，目前的3D AIGC系统基本上无法满足这种需求。另外，即使不谈这波AIGC技术，自动重拓扑、自动展UV得出的效果依然无法和手动的结果匹敌。AI建模实现合理的布线，是极其有挑战的事情，在学术界目前也较少有人研究。

纹理方面，对于PBR流程的游戏，需要AI生成较好的base color、metallic、roughness、normal等贴图，需要较好的从2D AIGC分离出PBR channel的算法（其实已经有一些了）；如果是风格化的游戏，一张高质量的diffuse也可以满足需求，只要质量够高。如果依赖于多个视角的2D AIGC来绘制3D模型的贴图，如何剔除光照、阴影的影响，且保持视角之间的一致性，会成为比较大的挑战。

当然，也可以寄希望于随着半导体技术（缓慢）的发展，游戏能用上的机能更加富余一些，这样对于3D资产的质量（如面数等）要求也许会有所放松；另一方面，如果并非并非专业人员使用而是每个玩家都能创作内容，那么质量要求也会放松。

ii.控制能力强10倍（几何、贴图风格等）

在游戏的工业化生产管线中，建模师的上游是原画。传统生产过程中，建模师的工作是在3D建模、画贴图过程中还原原画的效果。如果不改变这个流程，就需要3D生成模型能够以2D图片为输入，产出符合原画要求的模型贴图。

如果改变这个流程，不让原画给出输入了，直接生成3D，就需要回答谁来用3D AIGC工具的问题（原画？主美？）。另外，在游戏中资产风格的统一性是至关重要的，这一点目前看也许要寄希望于LoRA之类的技术和深入的prompt engineering了:-)

iii.速度快30倍（小于1分钟生成时间）

我自己对这一点比较乐观。原因是在过去的AI系统研发历史上，速度往往是最容易突破的问题。只要东西能work，卷速度往往是大家喜闻乐见的工作。比如，AlexNet在2012年训练一次要5~6天，现在利用最新的GPU和分布式加速，train一把只需要几分钟。另一方面，半导体领域摩尔定律的放缓也许是一个值得担忧的问题。

这三点技术风险中，质量是最让人担忧的。如果做不到真正满足生产要求的质量，那么有好的风格控制和速度也是白搭。而突破质量的方式，目前尚不明晰。

实际上，3D AIGC要做到生产级别能用，除了算法层面的创新。必然还需要做很多工程层面的dirty work。根据我之前多年在学术界的经验推断，这类工程上的工作其实并不是学术界的焦点（因为大多不会被科研界认为是学术创新），而需要工业界的工程团队静下心来深耕，这也是创业团队的机会所在。

市场风险

如果上面提到的技术风险都能解决，依然有不少市场风险是需要考虑的。这里我抛砖引玉列出一些可能会成为市场风险的点：

版权问题：这一点不用多说了，一直是AIGC生成图片争议比较大的问题，对3D同样成立。长期来看，在3D游戏这个主要应用场景，也许玩家并不在乎内容是不是AI生成的，只要质量达标，AI带来的高生产力能够帮助工作室做出更好的作品，社会应该还是接纳的。当然，这个过程中一定伴随着大量的争议和讨论。
工作流风险：3D工作流天然比2D更加复杂，已经形成的工作流更难改变。因为3D数据格式无法完全统一的问题，用户会更加倾向于在一个软件中完成所有操作。能否融入工作流，便成为了至关重要的一环。举个例子，不同DCC软件中的空间坐标系都不一样（Y-up/Z-up），更不要说BSDF模型等高度和软件架构设计耦合的数据表示了。法线贴图的G通道有DirectX/OpenGL两种格式，至今都无法统一：3D资产内生的复杂性会导致软件之间无法统一，而这种不统一天然会导致3D资产跨软件传输时必然造成损耗，需要小心翼翼地避免、甚至开发专属工具。更进一步地，3D workflow的可重塑性会因此比2D差。因此，3D AIGC产品的工作流整合风险至少是值得花大精力去解决的问题。
“注意力退潮”：目前AIGC太火热，很多人的注意力都被吸引了，从而会愿意尝鲜一些自己并没有真正需求的产品。这会引出一系列问题，比如：Midjourney是否真的有长线用户留存？有较长留存的用户到底是谁？到底解决了谁的工作中的刚需？付费率是否能到达到文章中推算的5%？当AI热度褪去，是否依然会有目前数量级的活跃用户？我自己的看法是相对乐观的，虽然这些问题目前没法准确回答，我依然认为大众对AIGC的注意力褪去后，Midjourney之类的应用会有不错的留存。
基础模型（Foundation models）抢饭碗：多模态是否会对3D AIGC有冲击？GPT-5/6/7/… 是否能够直接生成3D模型？有点类似Jasper.ai/Grammarly受到ChatGPT冲击一样。一种观点认为，如果底层模型足够强，确实是有可能让上层工具白干（就像搜索引擎大家基本只用Google/百度一样，啥都能搜）。我的个人看法：3D AIGC需要大量计算机图形学的domain knowledge，需要同时有图形和AI的背景团队去做产品。其中，3D图形人才的供给更加稀缺。有较好AI经验的图形团队去卷3D AIGC，比顶尖AI团队学图形学来卷3D AIGC，更加容易一些。（这一点3D和2D不一样，因为2D是可以相对直接地用U-Net +大数据量+通用算法搞出来的。）
“AGI干掉一切”：如果几年后真的实现AGI了，直接让AI看Maya/Max/Blender建模教程、学会操作Maya就行了，而不用去重新定义一套新的生产工具。这是比较激进的看法了。我自己感觉最近5年这样发生的事儿并且能落地的可能性不太大。（如果放在1年前，我可能会认为10年内也不会发生这样的事儿。但是最近一年AI的发展改变了我的看法。当然，如果真的发生了，社会、商业都会发生巨大变化，也许人类可以直接迈入共产主义，人人都可以躺平，也不用辛苦地创业了。）
“计算机图形学不存在了”：假如Midjourney能够做到60 FPS、帧间consistenct、成本完全可控等，那么生成式AI会直接干掉实时图形的市场，“传统”图形技术（i.e.,基于渲染方程的光栅化、光线追踪技术）某种意义上讲就没有必要在主流市场存在了。我个人感觉10年内不需要担心这种风险，至少目前看来AI不是万能的。
“到底谁来用？”：整个游戏生产环节涉及到的岗位众多，公司老板、制作人、策划、主美、原画、建模师、TA、Level art/design，到底谁是用户？谁是客户（采购决策者）？推进3D AIGC在游戏工业化生产流程的切入，可能会成为和3D CG workflow切入同等重要的问题。（当然，如果切入前面提到的第二类3D AIGC需求，也就是面向大众的3D AIGC，便不会有这个问题。但是，更加直击灵魂的问题就会变成 “为什么大众会有3D资产生成的需求？” 除了游戏，还有一点希望：圈子里广泛流传今年WWDC苹果会发布Apple Glass，成为XR的 “iPhone” 时刻，也许会成为一个答案，因为一旦VR/AR让界面变成了3D，大众便有了生成3D内容的需求。）
产品化/标准化：是否真的能够用通用的生成式AI模型实现比较广泛的品类的游戏的3D资产？画风上来说，游戏风格有仙侠、三国、赛博朋克、美漫等等，差别很大（好在基础模型如Stable Diffusion已经可以覆盖各种画风，并且通过LoRA / ControlNet等技术控制，一定程度上对画风进行了标准化）；品类上来说，SLG、RPG、FPS等游戏对3D资产的需求强度、质量要求、数量要求也许并不一样。有些品类比较重资产，有些则其实对3D资产没有太高的要求，甚至2D是更好的表现形式。好在不同品类的3D资产生产流程相对比较统一，存在标准化的可能性。总之，这一点我相对乐观：大家之所以觉得这一次AI浪潮机会多，本质上就是基础模型（GPT、SD等）足够通用，提供了制造出标准化产品的机会，让产品开发ROI变高了，以前一些做项目的机会，现在可以做产品了。
“Moat（护城河）在哪里？”：A16Z的一篇文章 “Who Owns the Generative AI Platform?” 提到了已有的生成式AI应用层产品的潜在困局：（特别是图像、文本AIGC工具）大家都用一样的底层模型、一样的数据集，比较难真正形成差异化和护城河。3D的AIGC，尚未是完全解决的问题。产品开发者必须有自己的算法创新，才能形成护城河，保持领先地位。
“下游收缩”：3D数字资产的生成市场能做多大，主要还是看下游（游戏等行业）有多强烈的需求、多少研发成本。而游戏满足的是人类娱乐的需求，这一点是刻在基因里的，很难改变，因此游戏行业本身并不会在未来缩水。加上全球游戏行业盘子很大，我感觉这一点不用太担心，按目前的情况看反而是非常积极的。

已经有的产品

我们还是聚焦到3D。考虑到AI直接生成3D模型比较难，可以退而求其次，做给定模型和prompt，产出贴图。甚至也可以只产出用于tiling的贴图，不考虑几何了。于是出现了下面三种产品：

生成平面贴图（生成平铺材质，本质是2D问题。比下面的AI画贴图简单一些，因为不需要考虑几何）：
- barium.ai主打生成PBR贴图，已经被Unity买了；
- spline.design很早就实现了基于AIGC的2D贴图生成功能；
- Maliang:很有意思的产品，在生成贴图的基础之上加上了编辑投影功能，更加实用。官网在这里。
根据几何（mesh）在UV空间生成贴图（“AI画贴图”）：国际上有几款产品，都比较早期：
- Meshy.ai是目前能够公开访问，主要做的是给白模在UV空间上贴图，使用体验类似Midjourney。生成一次大概要半分钟。
- Leonardo.ai放出了一个很炫酷的demo（可以到他们的twitter查看），不过暂时还没有上线。他们表示会在月底上线Blender插件，可以期待一下。
- Polyhive.ai也实现了这个功能，不过生成一次要5分多钟。

这类产品和平面贴图工具主要的不同在于对于几何的理解。比如说，能够比较智能地在网格的头部画上眼睛，而不仅仅是生成tiling的纹理。下面是Meshy.ai的demo，比较有代表性，给白模上贴图：

直接生成3D模型（AI建模+贴图）

目前还没有真正公测的产品。Luma.ai的imagine目前还不能公开访问，而Kaedim3D稍有争议：虽然之前号称是AI建模，但是目前看起来很可能还是需要人工辅助。除此之外，在2D游戏资产生成领域大红大紫的Scenario.gg也表示自己有要做3D资产生成的愿景，不过还没做出动作。

总结

总的来说，我认为3D AIGC（特别是text to 3D mesh，从文本生成3D模型和贴图），在学术界是非常值得探索的topic，在商业界也是值得一试的创业机会。我个人认为几个有价值的推断：

要实现能够产品化、标准化的通用text to 3D，数据多样性非常重要。而目前LAION这样的2D数据集带来的数据多样性，会比3D数据集数据量大三个数量级，因此2D生成基础模型，如Stable Diffusion，会是3D AIGC必要的宝贵资源。短时间内，看起来 “2D升维派” 会比 “原生3D派” 更像是3D AIGC的主流方法；
（图形）算法和算力会比数据更加重要，需要图形行业的团队深耕产业需求、甚至做出一些底层基础设施的创新（如带AutoDiff的并行编程系统）来满足算法研发、提高计算速度；
游戏行业，很可能会是text to 3D mesh的首选市场；
Text to 3D mesh的技术风险和市场风险共存；
即使由于上述风险做这事儿很可能失败，由于游戏行业对于3D资产的需求足够强、市场够大，且具备有标准化产品的可能性，从ROI角度来说依然是值得尝试的。

引用一下Amara’s Law：

We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.

新技术的短期影响往往被人们高估，而长期影响却会被低估。技术创新是推动人类进步的重要力量，但创新之路充满着不确定性和风险，需要决心与勇气去面对。只有在相互支持和鼓励的氛围下，创新才能更好地发挥其作用，推动社会不断向前发展。

如果创新者畏惧失败，往往不会成功。3D AIGC的风险与机会并存，不论谁去做，只要做成了都会有巨大的社会价值，都应该得到同行者的祝福。因此，虽然到目前只是浅浅的调研和早期产品实验，我觉得还是应该分享一下自己的看法，希望也能够帮助对这个方向有兴趣的同行者少走点弯路。

最近更新于0001-01-01