5秒完成3D生成,合成数据集已开源,上交港中文框架超越Instant3D
使用大模型合成的数据,就能显著提升3D生成能力?
来自上海交大、香港中文大学等团队还真做到了。
他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。
结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。
目前,Bootstrap3D的数据集已经全面开源。
用大模型合成数据
近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。
其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。
为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。
具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。
通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。
这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。
数据构建Pipeline
具体来说,数据构建Pipeline是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。
主要分为以下几个步骤:
文本提示生成:首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。
图像生成:利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。
多视图合成:使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。
质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。
通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。
这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。
训练timestep重安排(TTR)
团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。
TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。
去噪过程的阶段性特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。
限制合成数据的训练时间步:由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。
分阶段训练策略:通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。
实验证明效果显著:广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。
通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。
好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
- 又一波贷款入市“吃亏者”出现 已有投资者被银行提前收回资金
- 财联社10月15日电,玻璃期货主力合约大涨6%,报1285元/吨。纯碱主力合约涨超2%,现报1575元/吨。
- 面临困境的瑞典电池制造商Northvolt按期缴纳税款 通过“关键考验”
- 远洋集团:未就10月26日到期的380万美元票据利息作出预先资金的支付
- 财联社10月15日电,富时中国A50指数期货开盘跌0.13%。
- 调高惠低作用明显 2023年度个税汇算清缴数据发布
- 财联社10月15日电,上期所原油期货跌超4%,现报550.4元/桶。
- 财联社10月15日电,央行公开市场开展683亿元7天期逆回购操作,操作利率1.50%,与此前持平。今日417亿元逆回购到期。
-
【奥迪tt敞篷多少钱】奥迪TT作为一款经典跑车,凭借其动感的外观、出色的操控性能和独特的设计语言,一直受到...浏览全文>>
-
【奥迪s5敞篷试驾评测如何】在众多豪华轿跑车型中,奥迪S5敞篷凭借其优雅的设计、出色的操控性能以及强大的动...浏览全文>>
-
【奥迪rs6为什么叫神车】奥迪RS6之所以被称为“神车”,不仅因为它拥有强大的性能,还因为它在豪华、操控、实...浏览全文>>
-
【奥迪R8敞篷版跑车的价格是多少】奥迪R8作为一款高性能超级跑车,凭借其出色的性能、优雅的设计和强大的品牌...浏览全文>>
-
【奥迪q7车报价2021款官方指导价】作为豪华SUV市场中的热门车型,奥迪Q7凭借其出色的性能、科技配置以及品牌影...浏览全文>>
-
【奥迪Q77座落地需要多少钱奥迪Q7价格】奥迪Q7作为一款豪华中大型SUV,凭借其出色的性能、宽敞的空间以及品牌...浏览全文>>
-
【奥迪q5加满油多少升】在日常用车过程中,很多车主都会关心自己车辆的油箱容量,以便合理规划加油次数和预算...浏览全文>>
-
【奥迪q5机油要加几升】在日常的汽车保养中,机油更换是必不可少的一项操作。对于奥迪Q5车主来说,了解正确的...浏览全文>>
-
【奥迪q2的参数是怎样的】奥迪Q2是一款定位紧凑型豪华SUV的车型,凭借其精致的设计、出色的操控性和较高的品牌...浏览全文>>
-
【奥迪asl报价是多少】在汽车市场中,消费者对车型的了解往往从价格开始。奥迪作为豪华品牌之一,其产品线丰富...浏览全文>>