腾讯混元3D模型又上新！艺术级模型能带来啥惊喜？实测告诉你

克雷西发自凹非寺

量子位 | 公众号 QbitAI

腾讯混元3D模型，又又又上新了！

此次呈现的是一款达到艺术水准的3D建模工具Hunyuan3D-PolyGen，它能够制作出拥有数万面数的繁复几何图形模型。

此外，该模型还能将三维模型转化为资源，鹅厂自家的游戏制作团队采纳后，美术师在建模方面的效率显著提高了超过70%。

有网友感叹，AI如今已掌握拓扑学知识，这让他们对AI创造的3D效果感到前所未有的激动。

目前，该模型的拓扑功能已经在混元3D工作台上线运行，并且与其他功能一同享受每天20次的免费使用机会。

实测“艺术级”3D生成模型

美术级的模型生成和一般的3D建模，区别主要有这几个方面：

那么，混元3D的表现如何呢？来看量子位的实测。

该模型接入的是位于混元3D平台（具体链接请参考文末）上的“3D智能拓扑”模块，此模块具备文字生成能力，并能接受单张或最多四张参考图。

目前，该功能支持以三角形或四边形两种形式对模型进行拓扑。

第一个测试样品，是一架波音747飞机，我们选择三角面拓扑。

先看大致轮廓，生成的结果是这样的：

像发动机等细节部位，也进行了工整、精细的划分。

第二道题，是一个毛绒玩具，这里直接拿线稿来试验。

经过拓扑处理，不仅保持了原有的细节，而且混元3D对物体的表面进行了更加精细的拓扑优化。

此外，智能拓扑还能够对现有模型进行优化，将其转变为面数较少且布线更为整齐的“艺术级别”模型。

比如这辆奔驰小轿车，原来的模型转换成白模之后是这样的：

经过拓扑处理，其结构得以保持完整，线条排列有序，疏密得当，同时车内如方向盘、座椅等内饰细节亦得以清晰展现。

总体来看，混元3D-PolyGen在维持物体细节特征的基础上，确实能够成功生成面数适中、布线有序的“艺术级别”3D模型。

同时，依据混元3D团队所发布的报告，混元3D-PolyGen在重拓扑或AI拓扑方面相较于其他竞品，能够以更少的面数展现出更丰富的细节。

腾讯3D生成模型上新！线稿可变艺术级3D模型，鹅厂设计师也在用_腾讯3D生成模型上新！线稿可变艺术级3D模型，鹅厂设计师也在用_

那么，混元3D-PolyGen是如何实现的呢？

解决复杂物体建模和稳定性

目前，混元3D团队尚未公布混元3D-PolyGen的全面技术文档，不过，他们已经对该技术的核心原理与关键技术进行了简明扼要的阐述。

自回归生成框架

Hunyuan3D-PolyGen整体上运用了自回归网格生成技术，该技术通过顶点与面片建模的方法，实现了空间推理的功能。

具体而言，此框架涵盖了三个关键步骤——首先将网格转换为Tokens，接着由自回归模型进行加工，最终再将Tokens转换回网格。

在正式开展自回归建模之前，Hunyuan3D-PolyGen会首先对网格进行序列化处理，具体操作是利用点云编码器将网格的顶点与面片转换成Token序列，以此方式来展现Mesh的结构信息。

所谓的Mesh结构，是一种用于描绘三维物体表面形态的多边形网格系统，其中涵盖了顶点、边、面以及法线等关键信息。

Hunyuan3D-PolyGen在转换过程中，以点云为输入Prompt，借助自回归模型，生成了以Token序列形式呈现的Mesh结构。

在生成完毕后，需对生成的Tokens序列进行解码处理，进而将其还原为Mesh结构，并最终构建出三维网格模型。

压缩mesh结构，解决复杂物体建模

为攻克复杂物体建模的难题，混元3D技术团队自主研发了一种高压缩率的mesh表征技术，即BPT。

在目前通用的mesh自回归建模方法中，mesh所呈现的冗余性相对较大，一个面就需要通过9个Token来表示（即3个顶点乘以3个维度的坐标）。

自回归模型的语境范围有限，尽管两千个面以下的简易模型尚能构建模型，然而面对面数超过两千的复杂模型，便无法进行建模了。

混元3D团队采取的策略是压缩mesh结构，为此他们研发了一种高压缩率的mesh表征方法，即BPT（Blocked and Patchified Tokenization），从而降低了表达相同mesh所需token的数量。

这项技术主要包含两个关键步骤，即block索引构建和patch数据压缩。

block索引，即通过将网格区域划分为若干个block，将顶点的特征从(x,y,z)三维空间坐标转换为(block, offset)索引坐标，从而将三维坐标简化为二维形式，进而实现token数量的减少，大约可降低至原来的三分之一。

patch压缩技术通过将邻近的面片合并形成patch（包括一个中心顶点和若干边缘顶点），有效减少了相邻面片间共有的顶点冗余。此外，结合共享block等优化手段，可以进一步减少token的数量，降低幅度大约达到41%。

通过整合block索引技术与patch压缩技术，mesh结构的表征token数量得以大幅降低，具体减少了74%。此外，表征单个面的token需求也从原先的9个降至平均仅需2.3个。

因此，在相同的语境范围内，该模型能够构建的表面数量显著增加，构建出的模型结构更为复杂（表面数量可达两万以上）、细节也更加丰富。

强化学习后训练，提高生成稳定性

由于构成mesh结构的token序列相当冗长，且其容错能力较弱，这导致了模型在构建过程中稳定性较差，也就是说，同一模型在多次生成时，其结果可能会有显著的不同。

因此，混元3D团队成功开发了一套基于mesh自回归的强化学习后训练方法。

该框架是在预训练模型的基础上进行进一步训练的，它将布线的整齐度、几何结构的统一性、面片破损率等美术标准设定为奖励标准，以此激励模型产出更优质的效果。

最终，混元3D-PolyGen在生成结果的稳定性、细节表现以及布线品质上，都超越了现有的SOTA模型。

参考链接：

微信文章明确指出，任何形式的篡改或修改都是严格禁止的，必须严格遵守相关规定，确保内容的真实性。

腾讯混元3D模型又上新！艺术级模型能带来啥惊喜？实测告诉你

斗破苍穹火遍天下，天蚕土豆名利双收还娶美妻！他为何如此牛？

想深入理解LLM内部推理机制？这些关键步骤你找到了吗

斗破苍穹火遍天下，天蚕土豆名利双收还娶美妻！他为何如此牛？

想深入理解LLM内部推理机制？这些关键步骤你找到了吗

相关文章

投资额170亿的广汽菲克破产！曾暴增26

小米首款增程SUV谍照曝光！尺寸竟比问界

月薪八千竟敢贷款买38.5万限量版黑车？