克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
腾讯混元3D模型,又又又上新了!
此次呈现的是一款达到艺术水准的3D建模工具Hunyuan3D-PolyGen,它能够制作出拥有数万面数的繁复几何图形模型。
此外,该模型还能将三维模型转化为资源,鹅厂自家的游戏制作团队采纳后,美术师在建模方面的效率显著提高了超过70%。
有网友感叹,AI如今已掌握拓扑学知识,这让他们对AI创造的3D效果感到前所未有的激动。
目前,该模型的拓扑功能已经在混元3D工作台上线运行,并且与其他功能一同享受每天20次的免费使用机会。
实测“艺术级”3D生成模型
美术级的模型生成和一般的3D建模,区别主要有这几个方面:
那么,混元3D的表现如何呢?来看量子位的实测。
该模型接入的是位于混元3D平台(具体链接请参考文末)上的“3D智能拓扑”模块,此模块具备文字生成能力,并能接受单张或最多四张参考图。
目前,该功能支持以三角形或四边形两种形式对模型进行拓扑。
第一个测试样品,是一架波音747飞机,我们选择三角面拓扑。
先看大致轮廓,生成的结果是这样的:
像发动机等细节部位,也进行了工整、精细的划分。
第二道题,是一个毛绒玩具,这里直接拿线稿来试验。
经过拓扑处理,不仅保持了原有的细节,而且混元3D对物体的表面进行了更加精细的拓扑优化。
此外,智能拓扑还能够对现有模型进行优化,将其转变为面数较少且布线更为整齐的“艺术级别”模型。
比如这辆奔驰小轿车,原来的模型转换成白模之后是这样的:
经过拓扑处理,其结构得以保持完整,线条排列有序,疏密得当,同时车内如方向盘、座椅等内饰细节亦得以清晰展现。
总体来看,混元3D-PolyGen在维持物体细节特征的基础上,确实能够成功生成面数适中、布线有序的“艺术级别”3D模型。
同时,依据混元3D团队所发布的报告,混元3D-PolyGen在重拓扑或AI拓扑方面相较于其他竞品,能够以更少的面数展现出更丰富的细节。
那么,混元3D-PolyGen是如何实现的呢?
解决复杂物体建模和稳定性
目前,混元3D团队尚未公布混元3D-PolyGen的全面技术文档,不过,他们已经对该技术的核心原理与关键技术进行了简明扼要的阐述。
自回归生成框架
Hunyuan3D-PolyGen整体上运用了自回归网格生成技术,该技术通过顶点与面片建模的方法,实现了空间推理的功能。
具体而言,此框架涵盖了三个关键步骤——首先将网格转换为Tokens,接着由自回归模型进行加工,最终再将Tokens转换回网格。
在正式开展自回归建模之前,Hunyuan3D-PolyGen会首先对网格进行序列化处理,具体操作是利用点云编码器将网格的顶点与面片转换成Token序列,以此方式来展现Mesh的结构信息。
所谓的Mesh结构,是一种用于描绘三维物体表面形态的多边形网格系统,其中涵盖了顶点、边、面以及法线等关键信息。
Hunyuan3D-PolyGen在转换过程中,以点云为输入Prompt,借助自回归模型,生成了以Token序列形式呈现的Mesh结构。
在生成完毕后,需对生成的Tokens序列进行解码处理,进而将其还原为Mesh结构,并最终构建出三维网格模型。
压缩mesh结构,解决复杂物体建模
为攻克复杂物体建模的难题,混元3D技术团队自主研发了一种高压缩率的mesh表征技术,即BPT。
在目前通用的mesh自回归建模方法中,mesh所呈现的冗余性相对较大,一个面就需要通过9个Token来表示(即3个顶点乘以3个维度的坐标)。
自回归模型的语境范围有限,尽管两千个面以下的简易模型尚能构建模型,然而面对面数超过两千的复杂模型,便无法进行建模了。
混元3D团队采取的策略是压缩mesh结构,为此他们研发了一种高压缩率的mesh表征方法,即BPT(Blocked and Patchified Tokenization),从而降低了表达相同mesh所需token的数量。
这项技术主要包含两个关键步骤,即block索引构建和patch数据压缩。
block索引,即通过将网格区域划分为若干个block,将顶点的特征从(x,y,z)三维空间坐标转换为(block, offset)索引坐标,从而将三维坐标简化为二维形式,进而实现token数量的减少,大约可降低至原来的三分之一。
patch压缩技术通过将邻近的面片合并形成patch(包括一个中心顶点和若干边缘顶点),有效减少了相邻面片间共有的顶点冗余。此外,结合共享block等优化手段,可以进一步减少token的数量,降低幅度大约达到41%。
通过整合block索引技术与patch压缩技术,mesh结构的表征token数量得以大幅降低,具体减少了74%。此外,表征单个面的token需求也从原先的9个降至平均仅需2.3个。
因此,在相同的语境范围内,该模型能够构建的表面数量显著增加,构建出的模型结构更为复杂(表面数量可达两万以上)、细节也更加丰富。
强化学习后训练,提高生成稳定性
由于构成mesh结构的token序列相当冗长,且其容错能力较弱,这导致了模型在构建过程中稳定性较差,也就是说,同一模型在多次生成时,其结果可能会有显著的不同。
因此,混元3D团队成功开发了一套基于mesh自回归的强化学习后训练方法。
该框架是在预训练模型的基础上进行进一步训练的,它将布线的整齐度、几何结构的统一性、面片破损率等美术标准设定为奖励标准,以此激励模型产出更优质的效果。
最终,混元3D-PolyGen在生成结果的稳定性、细节表现以及布线品质上,都超越了现有的SOTA模型。
参考链接:
微信文章明确指出,任何形式的篡改或修改都是严格禁止的,必须严格遵守相关规定,确保内容的真实性。