腾讯混元3D模型又上新!艺术级模型能带来啥惊喜?实测告诉你

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯混元3D模型,又又又上新了!

此次呈现的是一款达到艺术水准的3D建模工具Hunyuan3D-PolyGen,它能够制作出拥有数万面数的繁复几何图形模型。

此外,该模型还能将三维模型转化为资源,鹅厂自家的游戏制作团队采纳后,美术师在建模方面的效率显著提高了超过70%。

有网友感叹,AI如今已掌握拓扑学知识,这让他们对AI创造的3D效果感到前所未有的激动。

目前,该模型的拓扑功能已经在混元3D工作台上线运行,并且与其他功能一同享受每天20次的免费使用机会。

实测“艺术级”3D生成模型

美术级的模型生成和一般的3D建模,区别主要有这几个方面:

那么,混元3D的表现如何呢?来看量子位的实测。

该模型接入的是位于混元3D平台(具体链接请参考文末)上的“3D智能拓扑”模块,此模块具备文字生成能力,并能接受单张或最多四张参考图。

目前,该功能支持以三角形或四边形两种形式对模型进行拓扑。

第一个测试样品,是一架波音747飞机,我们选择三角面拓扑。

先看大致轮廓,生成的结果是这样的:

像发动机等细节部位,也进行了工整、精细的划分。

第二道题,是一个毛绒玩具,这里直接拿线稿来试验。

经过拓扑处理,不仅保持了原有的细节,而且混元3D对物体的表面进行了更加精细的拓扑优化。

此外,智能拓扑还能够对现有模型进行优化,将其转变为面数较少且布线更为整齐的“艺术级别”模型。

比如这辆奔驰小轿车,原来的模型转换成白模之后是这样的:

经过拓扑处理,其结构得以保持完整,线条排列有序,疏密得当,同时车内如方向盘、座椅等内饰细节亦得以清晰展现。

总体来看,混元3D-PolyGen在维持物体细节特征的基础上,确实能够成功生成面数适中、布线有序的“艺术级别”3D模型。

同时,依据混元3D团队所发布的报告,混元3D-PolyGen在重拓扑或AI拓扑方面相较于其他竞品,能够以更少的面数展现出更丰富的细节。

腾讯3D生成模型上新!线稿可变艺术级3D模型,鹅厂设计师也在用_腾讯3D生成模型上新!线稿可变艺术级3D模型,鹅厂设计师也在用_

那么,混元3D-PolyGen是如何实现的呢?

解决复杂物体建模和稳定性

目前,混元3D团队尚未公布混元3D-PolyGen的全面技术文档,不过,他们已经对该技术的核心原理与关键技术进行了简明扼要的阐述。

自回归生成框架

Hunyuan3D-PolyGen整体上运用了自回归网格生成技术,该技术通过顶点与面片建模的方法,实现了空间推理的功能。

具体而言,此框架涵盖了三个关键步骤——首先将网格转换为Tokens,接着由自回归模型进行加工,最终再将Tokens转换回网格。

在正式开展自回归建模之前,Hunyuan3D-PolyGen会首先对网格进行序列化处理,具体操作是利用点云编码器将网格的顶点与面片转换成Token序列,以此方式来展现Mesh的结构信息。

所谓的Mesh结构,是一种用于描绘三维物体表面形态的多边形网格系统,其中涵盖了顶点、边、面以及法线等关键信息。

Hunyuan3D-PolyGen在转换过程中,以点云为输入Prompt,借助自回归模型,生成了以Token序列形式呈现的Mesh结构。

在生成完毕后,需对生成的Tokens序列进行解码处理,进而将其还原为Mesh结构,并最终构建出三维网格模型。

压缩mesh结构,解决复杂物体建模

为攻克复杂物体建模的难题,混元3D技术团队自主研发了一种高压缩率的mesh表征技术,即BPT。

在目前通用的mesh自回归建模方法中,mesh所呈现的冗余性相对较大,一个面就需要通过9个Token来表示(即3个顶点乘以3个维度的坐标)。

自回归模型的语境范围有限,尽管两千个面以下的简易模型尚能构建模型,然而面对面数超过两千的复杂模型,便无法进行建模了。

混元3D团队采取的策略是压缩mesh结构,为此他们研发了一种高压缩率的mesh表征方法,即BPT(Blocked and Patchified Tokenization),从而降低了表达相同mesh所需token的数量。

这项技术主要包含两个关键步骤,即block索引构建和patch数据压缩。

block索引,即通过将网格区域划分为若干个block,将顶点的特征从(x,y,z)三维空间坐标转换为(block, offset)索引坐标,从而将三维坐标简化为二维形式,进而实现token数量的减少,大约可降低至原来的三分之一。

patch压缩技术通过将邻近的面片合并形成patch(包括一个中心顶点和若干边缘顶点),有效减少了相邻面片间共有的顶点冗余。此外,结合共享block等优化手段,可以进一步减少token的数量,降低幅度大约达到41%。

通过整合block索引技术与patch压缩技术,mesh结构的表征token数量得以大幅降低,具体减少了74%。此外,表征单个面的token需求也从原先的9个降至平均仅需2.3个。

因此,在相同的语境范围内,该模型能够构建的表面数量显著增加,构建出的模型结构更为复杂(表面数量可达两万以上)、细节也更加丰富。

强化学习后训练,提高生成稳定性

由于构成mesh结构的token序列相当冗长,且其容错能力较弱,这导致了模型在构建过程中稳定性较差,也就是说,同一模型在多次生成时,其结果可能会有显著的不同。

因此,混元3D团队成功开发了一套基于mesh自回归的强化学习后训练方法。

该框架是在预训练模型的基础上进行进一步训练的,它将布线的整齐度、几何结构的统一性、面片破损率等美术标准设定为奖励标准,以此激励模型产出更优质的效果。

最终,混元3D-PolyGen在生成结果的稳定性、细节表现以及布线品质上,都超越了现有的SOTA模型。

参考链接:

微信文章明确指出,任何形式的篡改或修改都是严格禁止的,必须严格遵守相关规定,确保内容的真实性。

免责声明:本站发布的所有文章图片内容,由AI一键生成,根据关键词和其他参数进行文章自动采集、加工、发布。不对文章内容的真实性、合法性、时效性负责。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com XML地图
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004 备案号:晋ICP备19004532号-1

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。